Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК (1097789), страница 6
Текст из файла (страница 6)
Посколькудлина спейсера может оказаться нулевой, эта же процедура определяет,разделен мотив или нет. Блок-схема программы приведена на рис. 2. Дляоптимизации длины мотива и спейсера может использоваться один из двухпротоколов. Используемый по умолчанию быстрый режим выполняетоптимизацию на каждом уточнении локального выравнивания, как описановыше. В медленном режиме длина мотива ступенчато изменяется отнаименьших значений к наибольшим и полная процедура поиска мотива безоптимизации длины выполняется для каждой ступени.Глава 7. ВЫЯВЛЕНИЕ ЦИС-РЕГУЛЯТОРНЫХ МОДУЛЕЙ КАКСЕГМЕНТОВ ДНК СОДЕРЖАЩИХ КЛАСТЕРЫ СХОДНЫХПОСЛЕДОВАТЕЛЬНОСТЕЙ, ОБЕСПЕЧИВАЮЩИХКООПЕРАТИВНЫЕ ДНК БЕЛКОВЫЕ ВЗАИМОДЕЙСТВИЯВ этой главе диссертации приведены полученные с помощью всего арсеналаразработанных методов результаты идентификации в цис-регуляторныхмодулях кластеров сайтов связывания ССТФ белков, регулирующих системугенов, ответственных за раннее развитие Drosophila melanogaster.
Врезультаты включены данные ручной переаннотации большого количестваэкспериметальных данных, относящихся к ЦРМ (энхансерам), которыеуправляют ранним эмбриональным развитием Drosophila. Все данные,полученные в ходе выполнения этой работы, включены в межународную базуданных RedFly (Halfon, 2008) известных генетических элементов Drosophilamelanogaster . В результате работы получена информация трех типов: (1)сайты связывания транскрипционных факторов (ССТФ) для известныхрегуляторных белков; (2) известные ЦРМ в ДНК и (3) информация о30зависимости конкретных генов, входящих в систему, от конкретных факторов(регуляторные взаимодействия).Факторы, регулирующие развитие Drosophila, и распознаваемыеими мотивы ДНК.
Для анализа мотивов использованы 28 регуляторныхбелков, участвующих в регуляции ранних стадий развития Drosophila,включая материнские гены, гап-гены, гены pair rule, и ряд генов,управляющих полярностью сегментов. Мы использовали экспериментальныеданные о связывании этих белков с ДНК полученные in vitro,преимующественно футпринтами с ДНКазой I и SELEX. Использованы такжеданные о специфических мутациях и эволюционной сохранностисоответствующих участков ДНК.Матрицы позиционных весов (МПВ) были построены с помощьюпрограммы SeSiMCMC (см. гл.
6). Подробное описание данных находится насайте http://line.imb.ac.ru/DMMPMM/ . Наилучшие мотивы для несколькихфакторов приведены в табл. 1, относительная высота букв отражает вкладысоответствующих букв в информационное содержание данной позиции.BcdCadGtHbKniKrТаблица 1. Некоторые мотивы, распознаваемые регуляторными белками,рассматривавшимися в исследовании.
Дополнительная информация содержится насайте http://line.imb.ac.ru/DMMPMM/Исследованы гены: btd, gt, hb, kni, kr, otd, sal, tll, eve, ftz, gsb, h, run, en,dll, ems, ubx и slp, управляющие ранним развитием Drosophila, в первуюочередь, управляющие осевой дифферецировкой яйца мухи. Длины ихлокусов варьируют между 16 и 120 тыс. п.о.
В локусах картированы цисрегуляторные модули, известные из литературы, всего около 60 ЦРМ..31Рисунок 3. Локус гена even-skipped с картированными модулями: (CDS) кодирующаяобласть; (P) проксимальный промотор; (late1) поздний энхансер late1; (3+7) энхансерeve stripe 3+7; (2) энхансер eve stripe 2; (late2) поздний энхансер late2; (1) энхансер evestripe 1; (5) энхансер eve stripe 5.Анализ распределения мотивов связывания регуляторных факторов вДНК проводился путем сканирования последовательности ДНК с помощьюМПВ, построенных для различных факторов, и подсчета количестванайденных сайтов в скользящем окне фиксированной длины. Важнымипараметрами служили пороги для МПВ для каждого из белков.Гомотипические кластеры мотивов связывания белка Bicoid влокусе гена even-skipped.
Простейшим вариантом конфигурации сайтовявляются гомотипические кластеры, т.е. участки повышенной плотностиССТФ для одного и того же белка. Для определения кластеровподсчитывается число ССТФ, найденных в скользящем окне. На рис. 6показаны кластеры участков связывания белка Bicoid в локусе гена evenskipped, полученные для разных значений длины окна и порога МПВ. Напанели (А) рисунка приведена зависимость статистической значимостиполученых кластеров от порога МПВ.
На панели (B) показана зависимостьстатистической значимости как функция размера сканирующего окна. Вовсех случаях порог МПВ выбран равным 5,5, что показано красной стрелкойна оси Y на панели (А). При этом кластер содержит пять сайтов, причемвероятность появления каждого из сайтов приблизительно оценивается в 1 на1000 п.о.Видно ступенчатое поведение зависимости статистической значимостикластера от размера окна. При больших размерах окна, в него может попастьбольшее число сайтов связывания, однако, статистическая значимостькластеров, содержащих одинаковое число сайтов связывания, уменьшается сростом размера окна. На рис.
4B видно также сложное строение кластеровсвязывания белка Bicoid. В частности, видно, что при малых размерах окна32кластер, соответствующий энхансеру eve stripe 1 распадается на дваподкластера из которых правый подкластер, возможно, относится уже кэнхансеру eve stripe 5. Замечательно, что из семи энхансеров гена eve толькотри (stripe 2, stripe 1, и сливающийся с последним stripe 5) участвуют врегуляции с помощью белка Bicoid. Именно эти энхансеры и содержаткластеры сайтов связывания белка Bicoid, как это видно из рис. 4.При этом кластер в энхансере stripe 5 смещен влево и сливается скластером в энхансере eve stripe 1.
Таким образом, анализ гомотипическихкластеров регуляторных факторов в последовательности ДНК можетпредсказать как местоположение энхансеров в пределах локуса, так изависимость этих энхансеров от определенных регуляторных факторов.Однако при таких предсказаниях возможны артефакты. На рис. 4присутствует также кластер сайтов связывания, расположенный в пределахэнхансера late2, по-видимому, имеющий отношение ССТФ белка Paired (Prd),мотив которого достаточно похож на мотив связывания Bcd.Оптимизация параметров поиска гомотипических кластеровмотивов связывания факторов регуляции транскрипции в локусах геновраннего развития Drosophila. Как видно из рис.
4 гомотипические кластерымотивов, распознаваемых белком Bicoid хорошо коррелируют с энахансерамигена even-skipped, зависимыми от этого транскрипционного фактора.Степень скореллированности различна при разных порогах МПВ иразных размерах сканирующего окна. Для предсказания местоположенияновых энхансеров имеет смысл определить оптимальное значение порогаМПВ и оптимальную длину окна, при которых наибольшее количествоизвестных энхансеров определяется достаточно точно, и в то же времяошибка перепредсказания достаточно мала.
В общей сложности белок Bicoidрегулирует восемь генов: tll, otd, btd, sal, hb, kr, kni, eve. Нуклеотидныепоследовательности локусов всех этих генов были просканированы МПВ33Bicoid, после чего на разных уровнях порога МПВ были получены кластерысайтов путем сканирования окнами различной длины.Рисунок 4. Распределение кластеров мотивов распознаваемых фактором Bicoid в локусе генаeven-skipped.
Справо вверху: цветовой код статистической значимости (отрицательныйлогарифм вероятности возникновения кластера) показан цветом. Ось X - позиция в локусе.Внизу: карта локуса even-skipped (см. Рис. 3). Ось Y: (A). Переменный порог МПВ прификсированном скользящем окне 500 п.о. (B). Переменный размер скользящего окна, прификсированном пороге МПВ 5.50.Для каждого положения окна, каждой длины окна, и каждого порогаМПВ вычислялась вероятность найти наблюдаемое количество сайтовсвязывания в случайной последовательности по формуле Пуассона с34поправками, полученными в глааве 3.
Вероятность p появленияиндивидуального сайта с весом, большим избранного порога, определяласьэмпирически, путем оценки частоты сайтов в полном геноме Drosophila , приусловии удаления из генома мобильных элементов и микро- иминисателлитов большой длины. Был введен порог на вероятности получениягомотипических кластеров взаимодействующих мотивов P ( S ( HT , r , li ) ) . Всекластеры, имеющие веса, превышающие этот порог, считались«предсказанием» для данной длины окна и данного порога МПВ.
Этипредсказанные кластеры сравнивались с экспериментально определеннымиэнхансерами в восьми генах, зависящих от Bcd. Для оценки качества сходства(степени перекрывания вычисленных гомотипических кластеров мотивов иэкспериментально определенных ЦРМ) использовался коэффициентассоциации Пирсона СС (Mathews, 1998). Выбирались такие размеры окна,порог веса, вычисленного с помощью МПВ и порог на вероятность кластераP ( S ( HT , r , li ) ) , для которых значение CC было максимальным. Оказалось, чтомаксимум достигается при пороге МПВ, равном 4,2, длине окна 550, и порогена вероятность кластера, равном 4*10-4.
При этих соотношениях глобальноезначение коэффициэнта ассоциации CC оказывается равным 0,62, чтоявляется очень хорошим результатом, поскольку границы многих энхансеровопределены достаточно неточно, методом грубого делеционного анализа, срассмотрением небольшого числа делетированных участков разной длины,содержащих энхансер.Гомотипические кластеры мотивов связывания различныхрегуляторных факторов в локусах, управляющих ранним развитиемDrosophila. Для того, чтобы выяснить насколько отмеченный эффектхарактерен для генов, регулирующих раннее развитие Drosophila, былпредпринят поиск гомотипических кластеров мотивов, распознаваемых болеечем 16 факторами, в локусах 20 генов Drosophila, содержащих более 60энхансеров. Мотивы для 12 факторов оказались недостаточно надежно35установленными и полученными по малому количеству данных, а числоЦРМ, зависящих от этих факторов, оказалось недостаточно велико, чтобынадежно определить параметры поиска.
Значения длины сканирующего окна,порога МПВ и порога кластера подбирались подобно тому, как это былоописано в предыдущей секции для кластеров Bicoid. Для кажой пары (мотив,локус) длина сканирующего окна и порог МПВ были фиксированы, однакопорог на статистическую значимость кластера в некоторых случаях зависелот конкретного локуса и мотива.