КОМПЬЮТЕРНОЕ ПРЕДСТАВЛЕНИЕ И АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ ЗНАНИЙ О ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ МОЛЕКУЛ ДНК И РНК

М.П. Пономаренко, Ю.В. Пономаренко, А.С. Фролов, Лаврюшев С.В., Н.А. Колчанов,
Н.Л. Подколодный#), Г.Н. Ерохин#)
Институт цитологии и генетики СО РАН, Новосибирск, 630090; #)Институт Вычислительной Математики и Математической Геофизики СО РАН, Новосибирск, 630090

Предложено компьютерное представление знаний об активности ДНК и РНК в виде кодов программ для предсказания неизвестной активности по известным последовательностям этих биополимеров. На этой основе создан метод автоматической генерации таких знаний по примерам последовательностей ДНК (РНК) с известной активности. Построена база знаний по основным типам активности молекул ДНК и РНК, которая доступна по <http://sgi.sscc.ru/>.

ВВЕДЕНИЕ

ДНК (РНК) являются полимерами большой длины, состоящими из мономеров-нуклеотидов A, T (U), G и C. Функциональная активность этих молекул определяется короткими участками их взаимодействия с белками и низкомолекулярными веществами [1]. Для тысяч таких участков определены нуклеотидные последовательности и величины активности. Причем разные участки однотипной активности различаются по ее величине на несколько порядков.

Предсказание неизвестной активности ДНК (РНК) по ее известной последовательности становиться все более актуальным: именно различия активности регулируют и координируют работу генов в жизнедеятельности организмов. Предсказание активности ДНК (РНК) является также важным для генно-инженерного конструирования искусственных систем производства биологически-ценных продуктов генов. Внимание к предсказанию активности ДНК привлекает и задача оценка риска ее повреждения мутагенами, приводящими к патологиям организмов.

Миллиган [2] был первым, кто стал предсказывать активность промотора E. coli прорционально сходству его последовательности с последовательностями всех известных промоторов. Стормо [3, 4] применил регрессионную оценки порциального вклада каждого нуклеотида в каждой позиции ДНК (РНК) в ее активность. Берг и ван Хиппель [5] обобщили оба эти подхода в статистическую механику ДНК-белковых взаимодействий. Джонсон [6] ввел нейронные сети для предсказания силы промоторов E. coli. С помощью нейронных сетей были созданы методы предсказания сродства ДНК к белкам INR и TBP [7]. В целом, несмотря на тысячи известных участков ДНК и РНК с установленными активностями, лишь для некоторых из них была показана возможность предсказания активности несколькими частными методами.

В данной работе вводится компьютерное представление знаний об активности ДНК (РНК) в виде программ предсказания неизвестной активности по известным последовательностям этих биополимеров. На этой основе создан метод автоматической генерации таких знаний по примерам последовательностей ДНК (РНК) с известной активности. Построена база знаний по основным типам активности молекул ДНК и РНК, которая доступна по <http://sgi.sscc.ru/>.

 

СИСТЕМА

Схема базы знаний Activity по функциональной активности ДНК и РНК дана на рис. 1. ACTIVITY имеет три базы данных: 1) по активности ДНК и РНК; (2) по свойствам ДНК и РНК; (3) по корреляциям между свойствами ДНК и РНК с их активностью. Они составляют так называемый "сервер баз данных". Соответственно, ACTIVITY имеет так называемый "сервер активных приложений" с кодами программ для предсказания неизвестной активности ДНК и РНК по известным свойствам этих молекул. Наконец, ACTIVITY имеет "вычислительный сервер", автоматически выявляющий по известным примерам активности ДНК и РНК участки этих молекул, на которых средние значения их конформационных, физико-химических и статистических свойств коррелируют с известными величинами активности, и генерирует по этим корреляциям соответствующие коды предсказывающих программ.

МЕТОД

Ключевым в ACTIVITY является вычислительный сервер (рис.1). При описании метода его работы будут вводиться необходимые обозначения. Пусть S=s1...si...sL последовательность ДНК (РНК) длиной L нуклеотидов sI {A, T(U), G, C} с известной величиной F ее активности. Пары "последовательность-активность", (S-> F), хранятся в базе данных по активности ДНК и РНК, формат которой совместимой с языком управления данными SRS [8]. В качестве примера на рис.2 показаны пары (S->F) для силы промоторов E. coli [6]. Поле "MN" содержит название активности; "AU" - единицы измерения, "SC" - обозначение варианта нуклеотидной последовательности, "SA" - величину активности. Например, вариант ДНК с именем "LS1" имеет последовательность "TCCGT...AGGAAT" и сила промотора -log[Pbla]=2.143, а вариант ДНК "con/anti" имеет другую последовательность и силу -log[Pbla]=0.255 логарифмических единиц. Такое 100-кратное различие абсолютных значений силы промоторов не оставляет сомнений в том, что зависит от нуклеотидной последовательности молекулы ДНК.

Отличительной особенностью метода ACTIVITY является промежуточное преобразование нуклеотидных последовательностей в количественные характеристики. Такой характеристикой является взвешенная концентрация подпоследовательностей Z=z1...zj...zm длины m<<L:

 

, (1)

.

здесь: zjI {A, T(U), G, C, W=A/T(U), R=A/G, M=A/C, K=T(U)/G, Y=T(U)/C, S=G/C, B=T(U)/G/C, V=A/G/C, H=A/T(U)/C, D=A/T(U)/G, N=A/T(U)/G/C}; w(i) - весовая функция, построенная по правилу: "чем важнее позиция i для анализируемой активности ДНК (РНК), тем больше w(i). В Activity используется 180 весовых функций w(i) с один минимумом или максимумом в пределах последовательности ДНК (РНК) с разными положением и шириной ее экстремума. На рис.3 показаны примеры функций w(i) с максимумом в правой половине (а), в центре (б) и на концах (в) последовательности. Комбинирование всех возможных подпоследовательностей Z длины m от 1 до 4 со всеми этими 180 функциями w(i) дает » 107 характеристик XZ,m,w.

 

Другим типом "контекстных" характеристик является среднее значение определенного свойства ДНК (РНК) на участке [a; b] последовательности S длины L (здесь: 1 a <= b-1<= L-1):

 

, (2)

здесь: Pq - q-ое свойство из базы данных по свойствам ДНК и РНК (1<= q<= Q). На рис.4 в качестве примера таких свойств и их представления в ACTIVITY показан угол Direction [9]. Для L=100 и Q=100 комбинаторных перебор дает » 106 разных вариантов характеристик Xq,a,b.

 

Для исходных данных "последовательность-активность" (Sn-> Fn) является неизвестным какие из » 107 характеристик XZ,m,w(Sn) и » 106 характеристик Xq,a,b(Sn) коррелируют с активностью (Fn). Поэтому метод ACTIVITY состоит в полном комбинаторном переборе всех » 107 характеристик X#,$,@ и проверке наличия таких корреляций независимо для каждой из этих характеристик (здесь: {#,$,@}={Z,m,w} для формулы (1) и {#,$,@}={q,a,b} для формулы (2)).

 

АЛГОРИТМ

При фиксированных значениях индексов {#,$,@} для каждой последовательности Sn вычисляется значение характеристики X#,$,@(Sn). Получаются пары величин{X#,$,@(Sn)-> Fn}. Чтобы по известным X#,$,@ можно было предсказывать неизвестные F, пары {X#,$,@(Sn)-> Fn} должны отвечать требованиям регрессионного анализа. Для их проверки строится регрессия:

; (3)

здесь: f0 и f1 - регрессионные коэффициенты, вычисляемые по парам чисел {X#,$,@(Sn)-> Fn}.

 

С ее помощью пары {X#,$,@(Sn)-> Fn} преобразуются в пары "предсказанная-известная" активность, {F#,$,@(Sn)-> Fn}. Для них проверяется 11 требований регрессионного анализа: линейной, знаковой и двух ранговых корреляций; равенства средних значений и плотностей распределения, независимость, несмещенность и нормальность распределения отклонений {D n=F#,$,@(Sn)-Fn} между предсказанными и известными активностями. Для уменьшения зависимости от исходных данных каждое требование проверяется на двух неперекрывающихся половинах данных: на 50% больших и на 50% меньших известных активностях. При этом с помощью соответствующего критерия оценивается значимость a rt выполнения r-ое требование (1<= r<= 11) на t-ой половине данных (1<= t<= 2). Эта значимости a rt преобразуются, в терминах нечетких множеств Задэ [10], в оценку urt#$@-> F) "полезности X#$@ для предсказания F":

 

(4)

Характеристика Х#$@ получает высшую оценку urt=1, когда пары {F#,$,@(Sn)-> Fn} на t-ой половине данных отвечают r-ому требованию при a rt<0.01; низшую оценку urt=-1, когда это не выполнено (a rt>0.1); промежуточную -1<= urt<= 1 при 0.01<= a rt<= 0.1. Всего характеристика X#$@ получает 22 частные оценки ее полезности для предсказания активности F.В терминах теории принятия решений [11], усреднение частных оценок полезности дает ее интегральную оценку:

. (5)

Если большинство требований регрессионного анализа выполнено, то характеристика Х#$@ получает положительную оценку ее полезность U(Х#$@, F)>0, которая тем большее, чем большее требований выполнено. Верхнюю оценку вероятности получить U(Х#$@, F)>0 по случайным причинам можно оценить с помощью биномиального распределения:

, (6)

здесь: f - частота случайного выполнения характеристикой X#$@ проверяемого требования, v - число требований, g - число выполненных требований. При v=22, g=11 и f=0.01 получается p<10-16. Поскольку проверяется » 107 характеристик Х#$@, то вероятность случайно найти одну из них с U(X#$@, F)>0 не превышает 107<= 10-16=10-9. Поэтому каждая U(X#$@, F)>0 указывает характеристику X#$@, значимую для предсказания активности F при p<10-9.

 

После выявления всех характеристик X#$@ с U(X#$@, F)>0 из их числа выбираются самые полезные линейно-независимые {Xk}, с помощью которых строится множественная регрессия:

 

. (7)

Выявленные характеристики {Xk}, их полезности {U(Xk,F)} и сгенерированные для формул (1, 2 и 7) коды программ заносятся в базу данных по корреляциям между свойствами ДНК и РНК и их активностью, а исполняемые программы заносятся на сервер активных приложений для предсказания неизвестных активностей ДНК и РНК по их известным свойствам (рис.1).

 

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

В качестве примера работы ACTIVITY рассмотрим анализ силы промоторов E. coli (рис.2). Исходные данные содержали 9 из 27 известных промоторов (L/N25DSR, D/E20, L, N25, G25, J5, N25/lac, con и con/anti), тогда как остальные 18 промоторов были контрольными. Для этих исходных набольщую полезность U=0.59 имела взвешенная концентрация тринуклеотидов ASM с весовой функцией w(i), показанной на рис.3а. Максимум этой функции вблизи старта транскрипции (позиция 1) согласуется c известной наибольшей важностью этого старта для силы промоторов E. coli [6]. Второй по величине полезности U=0.50 был средний угол Direction на участке [-4, 16] вокруг старта транскрипции. На рис.5а показана линейная корреляция между взвешенной концентрации ASM и силой -log[Pbla] на контрольных данных, на рис.5б показана такая корреляция для среднего угла Direction. Обе эти корреляции являются достоверными: первая r=0.86 с a <10-3, вторая r=0.71 с a <10-2. На рис.6 показан сгенерированный С-код программы, предсказывающей силу промотора E. coli по взвешенной концентрации тринуклеотидов ASM и среднему углу Direction. На рис.5в показана достоверная корреляция между предсказанной и известной силой 27 промоторов E. coli (r=0.91, a <10-6).

 

С помощью ACTIVITY были исследованы также ряд других типов активности ДНК и РНК. Примеры полученных при этом результатов показаны в Таблице и на рис.7. Для сродства синтетических ДНК к ТВР-белку [12] было установлено, что оно определяется взвешенными концентрациями динуклеотидов TV в центре ДНК (рис 3б) и WR на ее концах (рис. 3в). Коэффициенты их линейной корреляции с ТВР/ДНК-сродством равны 0.73 и 0.76 (a <0.01). Сгенерированная на их основе программ предсказания ТВР/ДНК-сродства дала достоверную корреляцию между его предсказанными и известными величинами (рис.7а: r=0.77, a <0.01). На рис.7б показано предсказание ТВР/ДНК-сродства, усредненное по всем известным промоторам эукариот. Можно видеть, что ТВР/ДНК-сродство имеет пик в позиции -31 промоторов, которая является общеизвестным оптимальным участком связывания ТВР-белка с промоторной ДНК.

Для сродства синтетических ДНК к USF-белком [13] значимыми оказались глубина минорного желобка depth (r=-0.78, a <10-3) и угол закрученности twist (r=-0.86, a <10-4) спирали ДНК. Обе характеристики позволяют достоверно предсказывать сродство USF/ДНК (рис.7в).

Взвешенная концентрация тетранулеотида VUKK в районе 3’-концевого хвоста пре-мРНК была самой значимой для выхода зрелой мРНК вируса SV40 (рис. 7г: r=0.88, a <10-4). Этот тетрануклеотид является G/U-богатым (V={A,C,G}, K={U,G}), что согласуется с названием "G/U-богатый район” функционального сигнала в районе 3’-концевого хвоста пре-мРНК [14].

 

С помощью ACTIVITY установлено, что частота мутаций, вызванных 2-аминопурином [15] определяется температурой плавления ДНК в точке такой мутации (рис.7д: r=0.90, a <10-5).

 

Все эти результаты свидетельствуют о возможности применения предложенного подхода к широкому кругу типов активности ДНК и РНК. При этом наш подход имеет ряд ограничений. Прежде всего, применение формул (3-6) требует не менее 6 последовательностей ДНК (РНК) с известной активностью. Кроме того, выявленные закономерности являются значимыми только в условиях того эксперимента, результаты которого были исходными данными для ACTIVITY.

 

Работа была поддержана грантом ИГ СО РАН-97N13 Интеграционной Программы СО РАН.

ЛИТЕРАТУРА

1. Neidle S. DNA structure and recognition. Oxford: IRL Press, 1994. 108 P.

2. Mulligan M.E., et al. // NAR. 1984. V. 12. P. 789-800.

3. Stormo G.D., Schneider T.D., Gold L. // NAR. 1986. V. 14. P. 6661 6679.

4. Barrick D., et al. // NAR. 1994. V. 22. P. 1287-1295.

5. Berg O.G., von Hippel P.H. // J. Mol. Biol. 1988. V. 200. P. 709-723.

6. Jonsson J., et al. // NAR. 1993. V. 21. P. 733-739.

7. Kraus R.J., et al. // NAR. 1996. V. 24. P. 1531-1539.

8. Etzold T., Argos P. // CABIOS. 1993. V. 9. 49-57.

9. Shpigelman E.S., et al. // CABIOS. 1993. V. 9. P. 435-140.

10. Zadeh L.A. // Information and Control. 1965. V. 8, P. 338-353.

11. Fishburn P.C. Utility theory for decision making. N.Y.: Jonh Wiley & Sons, 1970.

12. Соколенко А.А. и др. // Мол.Биол. 1996. Т. 30. С. 279-285.

13. Bendall A.J., Molloy P.L. // NAR. 1994. V. 22. P. 2801-2810.

14. McDevitt M.A., et al. // EMBO J. 1986. V. 5. P. 2907-2913.

15. Coulondre C., et al. // Nature. 1978. V. 274. P. 775 780.

Таблица. Примеры знаний о функциональной активности ДНК и РНК из системы Activity

Участок молекулы ДНК или РНК

Особенность

Значимость

название [ссылка]

позиция 1

n

активность, F

Xk

район

свойство

U

r

a

промоторы E. coli

старт тран-

27

сила

X1

рис.3а

[ASM]

0.59

0.86

10-2

(ДНК)

скрипции

 

промотора

X2

-4; 16

Direction

0.50

0.71

10-2

[6]

   

(ед. -log[Pbla])

F=0.3+0.6<= X1+0.0008<= X2

0.91

10-4

синтетические ДНК

первый

19

сродство

X1

рис.3б

[TV])

0.35

0,73

10-2

(ТАТА-бокс)

нуклеотид

 

TBP/ДНК

X2

рис.3в

[WR]

0.41

0,76

10-2

[12]

      F=14.5+2.5<= X1+0.9<= X2

0,77

10-2

синтетические ДНК

первый

14

сродство

X1

11, 15

depth

0.22

-0.78

10-3

(USF-элемент)

нуклеотид

 

USF/ДНК

X2

11; 20

twist

0.23

-0.86

10-4

[13]

      F=170-16.3<= X1-0.7<= X2

0.91

10-5

3’концевой хвост

точка

16

выход

X1

рис.3а

[VUKK]

0.24

0,88

10-4

пре-мРНК SV40

[14]

отрезания

3’хвоста

 

зрелой

мРНК

F=-301.72+216.16<= X1

0,88

10-4

мутации ДНК (мута-

точка

26

частота

X1

-1, 2

Тплав

0,20

0,90

10-5

ген 2-аминопурин)

[15]

мутации

C-> T

 

мутаций

F=-8.5568+0.1585<= X1

0,90

10-5

 

Примечания: n - число вариантов молекул ДНК (РНК); Xk - выявленная характеристика для предсказания активности; F=F0+S k=1,K Fk<= Xk - множественная регрессия (7) для предсказания функциональной активности молекул ДНК (РНК) по этим характеристикам; рис.3 - весовые функции w(i) для взвешенных концентраций коротких подпоследовательностей (формула 1).

 MN Escherichia coli promoter strength

AU Digital logarithmic scale, -log[Pbla]

SC LS1

TCCGTCTCGA CGGGTTGACA CAAAAGCCAC AAGGGGTTAT AATGAGCACA

TAAACTTGAG AGAGGAAT

SA 2.143

//

...........................................

SC con/anti

ATTCACCGTC GTTGTTGACA TTTTTAAGCT TGGCGGTTAT AATGGATTCA

TCCGGAATCC TCTTCCCG

SA 0.255

//

Рис.3. Представление информации о силе промоторов E. coli [6] в базе данных по функциональной активности молекул ДНК и РНК: название активности (MN), единицы ее измерения (AU), имя молекулы ДНК и ее последовательность (SC), величина активности (SA).

а)б)в)

Рис. 2. Примеры различных весовых функций w(i) с разными положениями их максимумов: (а) в правой половине анализируемой последовательности, (б) в е центре; (в) на ее концах

PN Direction, Eulerian angle

PM Averaged for X-ray structures known

PU degree

AA -154.0

AT 0.0

AG 2.0

AC 143.0

TA 0.0

TT 154.0

TG 64.0

TC -120.0

GA 120.0

GT -143.0

GG 57.0

GC 180.0

CA -64.0

CT -2.0

CG 0.0

CC -57.

Рис.4. Представление свойств ДНК и РНК в Activity (на примере угла Direction [9]).

 а)б)в)

 

Рис.5. Пример применения ACTIVITY к исследованию силы промоторов E. coli: контрольная проверка взвешенной концентрации тринуклеотида ASM (a) и угла Direction (б); сравнение предсказанных и известных величин силы всех 27 промоторов E. coli (в).

 

MN Escherichia coli promoter strength

AU Digital logarithmic scale, -log[Pbla]

WW http://knight.bionet.nsc.ru/dbc/ec_pbla.htm

CF SEQUENCE-DEPENDENT STATISTICAL FEATURE

PV ASM

AB -49 19

UT 0.589

C-CODE

/* Promoter strength increases with ASM-content increase */

double WeightASM_for_EcPbla (char *s){

double X; char *seq; int i,k, SiteLength=68;

double Weigth5P0 [66]={

/* -49 -48 -47 -46 -45 -44 -43 -42 -41 -40*/

0.100,0.100,0.100,0.100,0.100,0.100,0.100,0.100,0.100,0.100,

...... ...... ...... ...... ...... ......

/* 11 12 13 14 15 16 */

0.525,0.356,0.207,0.143,0.103,0.100 };

seq=&s[0]; if(strlen(seq) < SiteLength+1)return(-1001.);

for (i=0, X=0.;i < SiteLength-2;i++) if(seq[i ]=='A')

...... ...... ...... ...... ...... ......

return(X);}

XX

CF SEQUENCE-DEPENDENT CONFORMATIONAL FEATURE

PV Direction

AB -5 15

UT 0.502

LC 0.710

XX

C-CODE

/* Promoter strength increases with Direction increase */

double Direction_for_EcPbla (char *s){

double X; char *seq; int i,k, SiteLength=21;

double DinucPar[16]={

/* AA AT AG AC TA TT TG TC */

-154., 0., 2., 143., 0., 154., 64.,-120.,

/* GA GT GG GC CA CT CG CC */

120.,-143., 57., 180., -64., -2., 0., -57. };

seq=&s[0]; if(strlen(seq) < SiteLength+1)return(-1001.);

for (i=0, X=0.;i < SiteLength-1;i++) {

switch (seq[i ]) { case 'A': k= 0; break;

...... ...... ...... ...... ...... ......

return (X/(double)(SiteLength-1));}

XX

CF PREDICTION ACTIVITY

LC 0.910

XX

C-CODE

/* Promoter strength prediction via ASM-content and Direction. */

double EcPbla_by_WeightASM_DirectionRegr (char *s){

extern double WeightASM_for_EcPbla (char *);

extern double Direction_for_EcPbla (char *);

double x1,x2; char *seq; int s1=0, s2=45, SiteLength=68;

seq=&s[ 0]; if(strlen(seq) < SiteLength+1)return(-1001.);

seq=&s[s1]; x1=WeightASM_for_EcPbla (seq); if(x1< -999.)return(x1);

seq=&s[s2]; x2=Direction_for_EcPbla (seq); if(x2< -999.)return(x2);

return (0.307547 + 0.576596*x1 + 0.000799*x2);}

//

Рис.6. Представление знаний о функциональной активности молекул ДНК и РНК в терминах С-кодов программ для предсказания такой активности (на примере силы промоторов E. coli).

 

 

а) б)

 

 

в)г)д)

Рис.7. Примеры выявленных ACTIVITY знаний о функциональной активности ДНК и РНК: а) сродство синтетических ДНК к ТВР-белку [12]; б) предсказание ДНК/ТВР сродства, усредненное по всем известным промоторам, имеет пик в позиции -30, которая является общеизвестным оптимумом для связывания ТВР-белка с ДНК; в) сродство синтетических ДНК к USF-белку [13]; г) выход зрелой мРНК при 3’-концевом процессинге пре-мРНК вируса SV40 [14]; д) частота мутаций в гене lacI E.coli, вызванных мутагеном 2-аминопурин [15].


Logo

© 1997-99, IC&G   SB RAS, Laboratory of Theoretical Genetics