Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК
Описание файла
PDF-файл из архива "Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК", который расположен в категории "". Всё это находится в предмете "физико-математические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой докторскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени доктора физико-математических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиМакеев Всеволод ЮрьевичОпределение регуляторных сегментовв геномах методами теоретическогоанализа последовательностей нуклеотидовДНК03.00.02 БиофизикаАВТОРЕФЕРАТдиссертации на соискание ученой степенидоктора физико-математических наукМосква – 20091Работа выполнена в лаборатории биоинформатики ФГУП «Государственныйнаучно-исследовательский институт генетики и селекции промышленныхмикроорганизмов ГосНИИгенетика».Научный консультант: Доктор физико-математических наук,профессорТуманян Владимир ГаевичОфициальные оппоненты:Доктор физико-математических наук,профессор, член-корреспондент РАНГурский Георгий ВалерьяновичДоктор физико-математических наукНамиот Владимир АбрамовичДоктор биологических наук, профессор Озолинь Ольга НиколаевнаВедущая организация: Институт теоретической и экспериментальнойбиофизики РАНЗащита состоится «22» октября 2009 г. в 15 ч.
30 мин на заседаниидиссертационного совета Д 501.002.11 при Московском ГосударственномУниверситете им. М.В.Ломоносова по адресу 119991, ГСП-1, Москва,Ленинские горы, МГУ им. М.В.Ломоносова, физический факультет,аудитория 5-19.С диссертацией можно ознакомиться в библиотеке физического факультетаМГУАвтореферат разослан 21 сентября 2009г.Ученый секретарь диссертационного совета Д 501.002.11доктор физико-математических наукГ.Б.
Хомутов2Общая характеристика работыАктуальность проблемыВ результате быстрого прогресса экспериментальной техники современнаябиология подошла вплотную к решению одной из своих фундаментальныхпроблем, а именно – проблемы понимания того, как происходит реализациянаследственной информации в живом организме. Решение этой важнейшейпроблемы современных генетики и биофизики должно повлечь за собойуспехи в ряде практических задач в областях биотехнологии и медицины. Кним, в частности, относится управление дифференцировкой тканей,выращенных в культуре; понимание роли конкретных аллелей ввозникновении заболеваний, имеющих наследственный компонент, а такжепроизводство лекарств белковой природы в культурах клетокмлекопитающих, модифицированных методами генной инженерии.Деление и дифферецировка клеток контролируются тысячами актоввзаимодействий между макромолекулами белков и нуклеиновых кислот.Современные экспериментальные технологии позволяют получить огромныеобъемы экспериментальных данных, характеризующих взаимодействиебиологических макромолекул в различных условиях.
Одной изнепосредственных задач современной биофизики является использованиевычислительных физических методов для систематизации и сопоставленияданных, полученных различными экспериментальными методами. За всюсвою историю научные исследования никогда не располагали средствамитакой мощи для переработки информации и никогда не сталкивались снеобходимостью переработки информации такого объема, приходящией изразличных источников и открытых для общего доступа.Компьютерная биофизика, по существу, становится полигоном дляприменения сложных статистических методов анализа данных и оценкигипотез.
Основой работы является использование вычислительных методов3для анализа тех закономерностей в строении последовательностейнуклеотидов в ДНК, которые связанны со структурно-физическими основамирегуляции инициации транскрипции. Объекты исследования – участкигеномов эукариот. Выбор такого объекта имеет ряд техническихпреимуществ. Во-первых, тексты ДНК дискретны и при современном уровнетехнологии секвенирования число ошибок в последовательностях непревышает, как минимум, одной ошибки на пять тысяч оснований(Robertson.G., et al. (2007)). Поскольку специфичность ДНК-белковогораспознавания значительно ниже, при решении задач, описанных в настоящейработе, этим уровнем ошибок можно пренебречь. Во-вторых, секвенированиесейчас относительно дешево, а поэтому в открытом доступе имеютсяпоследовательности геномов тысяч видов прокариот и сотен видов эукариот.В третьих, геном является одномерной струтурой, поэтому молекулагетерополимера ДНК может анализироваться как текст, составленный изсимволов – мономеров разных типов нуклеотидов.
Анализ на уровне текстаДНК позволяет понять большое количество биофизических по существуэффектов, связанных с инициацией транскрипции на молекулярном уровне.Важной задачей настоящей работы является нахождение участков ДНК,участвующих в работе механизмов, управляющих переключением генов, таккак для решения вопросов, связанных с пространственной структурой ифизикой взаимодействия элементов регуляторных комплексов прежде всегонадо знать какие именно сегменты ДНК несут регуляторную нагрузку и какиефакторы белковой природы действуют на эти регулятороные сегменты,вызывая переключение экспрессии конкретных генов.В работе используется широкий арсенал математических методованализа последовательностей.
В частности, это методы сравнительногоанализа последовательностей, грамматический анализ, т.е. анализструктруктурных закономерностей в последовательностях, распознавание4характерных образов в последовательностях, а также оценка надежностинайденных закономерностей путем построения статистических критериев.Цель и задачи исследованияЦелью работы является установление физических основ реализациигенетической информации на этапах образования регуляторных комплексовДНК-белок и функционирования компонентов генома. Это включает в себя:установление физических характеристик участков последовательности ДНК,несущих регуляторную функцию, и получение распределения участковспецифического связывания регуляторных белков в пределах этихрегуляторных участках ДНК; также предполагается установление связихарактеристик распределения участков связывания регуляторных белков сфизическими свойствами формирующихся иерархически организованныхструктур ДНК-белковых комплексов.В работе решались следующие частные задачи:1.
Установление участков ДНК, вступающих в специфическоевзаимодействие с белковыми факторами, регулирующими транскрипцию, спомощью специально разработанных методов.2. Построение формального критерия наличия заданных структур впоследовательности нуклеотидов ДНК, на основые вычислениястатистической значимости.3. Построение метода крупномасштабной сегментациипоследовательности на участки, однородные по своему нуклеотидномусоставу, с помощью вычисления статистической суммы всевозможныхразбиений последовательности на сегменты.4.
Построение метода, позволяющего определять участки ДНК,вступающие в специфическое взаимодействие с белками, путем установленияпоследовательностей нуклеотидов со значительной позиционно-5специфической энергией взаимодействия с учетом симметрии структурыДНК.5. Установление связи между характером распределения ДНКсвязывающих областей в регуляторных зонах, типами пространственныхструктур, диктуемых такими распределениями, и функционированиемопределенных сегментов генома.6. Разработка способа, позволяющего выделять регуляторные сегментыДНК (промоторов и энхансеров) как участки ДНК, имеющие высокуюаффинность взаимодействия с белками, в том числе и кооперативносвязающимися белковыми факторами.7.
Определение регуляторных сегментов ДНК для системы генов,участвующих в раннем развитии Drosophila melanogaster.Научная новизна и практическая ценность работыВ работе впервые получены следующие результаты:На основе разработаных методов, позволяющих выделять внуклеотидной последовательности геномной ДНК участки, специфическивзаимодействующие с белками-регуляторами транскрипции, установленохарактерное взаимное расположение таких участков ДНК, позволяющееобеспечить самоорганизацию нативного инициаторного комплекса припревышении пороговой концентрации регуляторных факторов.Для тех случаев, когда задача вычисления вероятности появлениянаблюдаемой конфигурации мотивов в случайной последовательности ДНКне имеет аналитического решения (наблюдаются группы перекрывающихсямотивов, распознаваемых разными факторами) построен алгоритмическийметод, позволяющий быстро и точно вычислять статистическую значимостьпоявления наблюдаемой конфигурации мотивов.Разработан метод сегментации генома на участки со стабильнымнуклеотидным составом, в пределах которых допустимо использование одной6и той же статистической модели.
Метод основан на вычислениистатистической суммы по всевозможным разбиениям последовательности наформально-однородные сегменты.Для определения конкретных участков ДНК, специфическираспознаваемых регуляторными белками, создан метод построениямножественного локального выравнивания фрагментов ДНК, позволяющийучитывать предполагаемую структуру регуляторного участка.Создан банк данных мотивов в ДНК, распознаваемых различнымирегуляторными белками, участвующими в регуляции генов, управляющихранним развитием Drosophila melanogaster.Показано, что регуляторные модули, в частности энхансеры, имеютструктуру, способствующую кооперативному связыванию регуляторныхбелков с этими модулями. Этот феномен позволяет идентифицироватьрегуляторные модули в геноме. Найден ряд новых регуляторных модулей вD.