ДОКЛАДЫ АКАДЕМИИ НАУК, 1997, том 357 N 5, c. 693-695
УДК. 577.214.625:57.087.1
ВЫСОКАЯ ГЕТЕРОГЕННОСТЬ ПРОМОТОРОВ ГЕНОВ ВЫСШИХ ЭУКАРИОТ, ТРАНСКРИБИРУЕМЫХ РНК-ПОЛИМЕРАЗОЙ II
© 1997 г. Колпаков Ф.А., Кель А.Э., Пономаренко М.П., Колчанов Н.А.
Представлено академиком В.К. Шумным 25.10.1996 г.
Поступило 05.12.96 г.
До последнего времени изучение эволюции геномов эукариот на молекулярном уровне в основном было связано с исследованием кодирующих частей генов и различных типов повторов. Что же касается такого важного типа регуляторных районов, как промоторы, которые контролируют экспрессию эукариотических генов, то имеются лишь единичные исследования, посвященные этому вопросу. Между тем, изучение закономерностей эволюции промоторов необходимо как для понимания особенностей их структурной и функциональной организации так и для создания цельной картины эволюции геномов эукариот.
С целью изучения закономерностей эволюции промоторов эукариотических генов, транскрибируемых РНК полимеразой II, нами был проведен сравнительный анализ их нуклеотидных последовательностей. Задача состояла в оценке уровня сходства между последовательностями этих промоторов в зависимости от вида организма или тканевой специфичности экспрессии соответствующих генов. Для решения данной задачи была проанализированы выборки промоторов для следующих видов: homo sapiens, bos taurus, mus musculus, rat norvegicus, gallus gallus, xenopus laevis и drosophila melanogaster. Их нуклеотидные последовательности экстрагировались из базы данных EMBL [1], а информация о локализации (в соответствующих последовательностях в EMBL), видовой и тканевой специфичности промоторов бралась из базы данных EPD [2]. Для анализа были использованы фрагменты промоторов длиной по 210 п.о. каждый, соответствовавшие району [-190; +20] относительно старта транскрипции.
Последовательности каждого промотора были разбиты на 7 участков длиной по 30 п.о. каждый. Для получения оценки сходства между i-ми фрагментами двух промоторов (i=1,..7) последовательности этих фрагментов выравнивались с помощью программы FASTA [3]. Величина сходства S между выровненными последовательностями оценивалась согласно [3] следующему соотношению:
S = 4n1 - 3n2 -8n3 (1)
Здесь n1 и n2 - количество совпадающих и несовпадающих позиций в выравнивании соответственно, а n3 - количество делеций. Проведенный нами анализ показал, что вычисляемая таким образом величина S является хорошим показателем сходства последовательностей промоторов при их выравнивании.
Для оценки достоверности полученного таким образом выравнивания последовательностей x и y использовался следующий подход. Осуществлялась генерация случайных последовательностей xr и yr путем перетасовки нуклеотидов в последовательностях x и y. После этого последовательности xr и yr выравнивались и определялась величина сходства S(xr, yr) между ними. Строилось распределение величины S(xr, yr) по 1000 генерациям и определялась 95% квантиль для этого распределения - S95(xr, yr). Считалось, что сравниваемые последовательности x и y имеют неслучайное сходство, обусловленное совпадением порядка нуклеотидов, если имело место:
S(x, y) > S95(xr, yr), (2)
Оценкой сходства нуклеотидных последовательностей для группы в целом служило отношение числа пар последовательностей N, имеющих неслучайное сходство в соответствии с критерием (2), к общему числу сравнений N0 всех возможных пар для всей группы:
w = N/N0
ґ 100% (3)Для исключения гомологичных последовательностей внутри группы промоторов, принадлежащих одному организму, все промоторы генов, имеющие общее происхождение были выравненны согласно (1), и из пары промоторов, имевших коэффициент гомологии больший 70%, оставлялся только один представитель.
Рис.1. Cходство районов промоторов для различных видов. В скобках указано число проанализиованных промоторов. Штриховкой обозначен район [-9; +20], содержащий старт транскрипции, черным - район [-10; -40], содержащий TATA-бокс, белым - дистальные районы.
Рис.2. Cходство районов тканеспецифических промоторов для некоторых различных организмов. 1 - человек, мышцы (6 - число пронализированных промоторов); 2 - мышь, “гены домашнего хозяйства” (14); 3 - крыса, почки (5); 4 - цыпленок, эритроциты (6); 5 - лягушка, ооциты (5); 6 - фруктовая мушка, “гены домашнего хозяйства” (11); 7 - фруктовая мушка, хорион (6). Обозначения те же, что и на рисунке 1.
Для исследования сходства между промоторами, функционирующими в пределах одного генома, т.е. взаимодействующими в каждом случае с одними видоспецифичными вариантами РНК-полимеразы II, для каждого вида организмов были проанализированы все 7 районов промоторов (рис. 1). Из рисунка 1 видно, что в целом последовательности промоторных районов имеют невысокий уровень неслучайного сходства, что свидетельствует о их высокой гетерогенности. Максимальное сходство между промоторами наблюдалось в районе [-40; -10], содержащем TATA-бокс. Следующим, по величине сходства был район [-9; +20], включающий в себя старт транскрипции и инициатор (Inr), который окружает старт транскрипции [4]. Что же касается районов, расположенных выше TATA-бокса, то для них оказался характерным более низкий уровень неслучайного сходства, лишь незначительно превышающий случайный.
Мы также получили оценки сходства для всех районов промоторов исследуемых видов высших эукариот, экспрессирующихся в одних и тех же тканях (рис. 2). Оказалось, что для большинства исследованных групп промоторов тканеспецифичных генов характерен более высокий уровень сходства, чем в случае, когда сравнивались все соответствующие районы промоторов для отдельного генома. В целом наибольшее сходство между промоторами по-прежнему наблюдается в районе TATA-бокса. Однако, сходство между дистальными районами в данном случае существенно превышает случайный уровень, и в некоторых случаях, может быть таким же как сходство соответствующих районов, содержащих TATA-бокс (рис.2, лягушка, ооциты), и даже превышать его (рис. 2, фруктовая мушка, хорион).
В целом, полученные данные свидетельствуют о высокой степени гетерогенности нуклеотидных последовательностей промоторов эукариот в пределах одного вида организмов. При этом максимальное сходство, наблюдаемое для районов ТАТА-бокса и инициатора, соответствует области сборки транскрипционного комплекса [5], что подтверждает их важную роль в функционировании транскрипционной машины эукариот. Однако даже последовательности района, содержащего ТАТА-бокс имеют высокую гетерогенность. С одной стороны, это может объясняться тем, что в под действием отбора находится не столько нуклеотидная последовательность, сколько некоторые конформационные характеристики последовательности ДНК (большая закрученность спирали, повышена ширина малой бороздки, по которой TBP взаимодействует с ДНК [8]). С другой стороны, различия в последовательностях района, содержащего ТАТА-бокс, могут обуславливать различные пути сборки транскрипционного комплекса, и тем самым оказывать влияние на регуляцию уровня транскрипции. Действительно, промоторы ряда генов не имеют TATA-бокса, и поэтому сборка транскрипционного комплекса на их последовательностях происходит другим способом [4]. Кроме того in vitro показано, что в зависимости от нуклеотидной последовательности района TATA-бокса и старта транскрипции сборка транскрипционного комплекса может происходить различными путями [7].
В то время как TATA-бокс содержащие районы отвечают за процесс сборки базального транскрипционного комплекса, дистальные районы промоторов отвечают за регуляцию уровня экспрессии в зависимости от типа ткани, фазы клеточного цикла, стадии онтогенеза, индуцибильную экспрессию и т.д. Это разнообразие вариантов экспрессии генов в значительной степени определяется наличием множества транскрипционных факторов, которые связываются со своими сайтами преимущественно в дистальных районах промоторов [8].
В пределах одной ткани и одного вида организмов промоторы в целом имеют более высокое сходство. Из этого следует, что в регуляции тканеспецифической экспрессии генов участвуют как дистальные районы промоторов, что согласуется с общепринятым мнением, так и район ТАТА-бокса. Таким образом, можно предположить, что варианты организации TATA-бокс содержащей последовательности отражают различия в механизме тканеспецифического функционирования этого района. При этом следует подчеркнуть, что сходные TATA-бокс содержащие районы обнаружены в негомологичных генах. Так, например, в выборку промоторов генов, экспрессируемых в почках крысы входили следующие гены: фосфоенолпируват карбоксикиназы (11117 - вход в базу данных EPD), пируват киназы (16052), ренина (29023), ангиотензина (36005) и ген N5 (30023). Исходя из этого, мы можем предположить, что это сходство этих районов промоторов обусловлено конвергентной природой их возникновения в процессе эволюции.
Авторы благодарны Ромащенко А.Г., Савинковой Л.К., Меркуловой Т.М. за полезные замечания при подготовке данной статьи.
Работа поддерживалась Российского фонда фундаментальных исследований (грантом N 96-04-50006), Комитетом по науке и технике РФ, Всероссийская программа “Геном человека”, СО РАН.
СПИСОК ЛИТЕРАТУРЫ