Б. Альбертс, А. Джонсон, Д. Льюис и др. - Молекулярная биология клетки (djvu) (1129766), страница 174
Текст из файла (страница 174)
Путем считывания дорожек по порядку, начиная с нижнего края геля и двигаясь поперек всех дорожек, можно определить последовательность синтезированной ДНК. Последовательность изображена как зеленая сгпрелко справа от геля. Зта последовательность комплемента рна шаблонной цепи (серая) из исходной двухцепочечной молекулы ДНК и идентична части зеленой 5'-Зьцепи, 180 С Т 6 А Т Т Т Т С А А А Т А А С А Т О С О А Рис. 8.51.
Автоматизированное секвенирование ДНК. Внизу показана небольшая часть полученных при автоматизированном секвенировании ДНК сырых данных, как она выглядят на экране компьютера. Каждый выступающий окрашенный пик представляет собой нуклеотид в последовательности ДНК— здесь можно прочитать нуклеотидную последовательносэь между положениями 173 и194, считая от начала последовательности. Маленькие пики вблизи нулевой линии предсш зля ют собой фоновый «шум», и до тех пор пока они значительно меньше, чем пики-«сигналы», их игнорируют. Данный пример был взят из международного проекта по определению полной нуклеотидной последовательности генома растения Агабгдорзгэ. (С любезного разрешения беогзе МигрЬу.) 848 Часть 81. Методы можно распознать по отсутствию часто встречаемых в других рамках стоп колонов (рнс. 8.52).
Когда мы обсуждали генетический код в главе б, то обнаружили, что случайная пскледовательность нуклеотидов, считываемая в рамке, Г>удет кодиро вать сигнал остановки синтеза белка примерно каждые 20 аминокислот. 11уклео тидные последовательности, кодирующне Гюлее длинные пептидные фрагменты, предположительно могут быть экзонами, и их можно транслировать (при гюмощи компьютера) в аминокислотную последовательность и сравнить с базами данных для нахождения совпадений с известными белками других организмов.
Если необходимо, можно секвенировать небольшую часть аминокислотной последовательности очищенного белка и подтвердить или опровергнуть предсказанную при помощи ДИК последовательность. Проблема, однако, состоит в том, чтобы определить, какие нуклеотидные по следовательности в пределах всего генома являются генами, кодирующими белки. Идентификация генов очень проста. если последовательность ДНК взята из хро а) направление считывания последовательности верхнеи цепи ДНК з ьь ве хь рьв ьв»м ав мв рю вх мв вап рье вх мя -с рамзи ~ г н- туг рьв ае авг мн ввп еег вгг ьо ввп еь ьм гец ыа ьц вх -с ~1 '+ хь рьг туг рьв яь Щй рье вар йю йга мр вь ех вм 1ац авп -с днк ~ 1 рамки считывания ~ ~з с- йгв йа еь, ам ьц аь мй гув рье вь рпе еег с- йв гув вап а 8 вк ьз вге вгу и ье рье с- евп 1)))))В 1уа вег вн ввп вег агв 1вм мв евг ыа вь направление считывания последовательности нижней цепи ДНК гув ыа .Н хаГ агв -Й ввг Ьв ввг -и рамии считывания днк 3 рамии считывания с -зб" ь« ваап «.
Рис. 8.52. Нахождение участков ДНК, нодирующих белок. о) Любой участок последовательности ДН К, е принципе, может кодировать шесть различных аминокислоты ых последовательностей, потому что любая из трех различных рамок считывания на каждой цепи может быть использована для интерпретации нуклеотидной последовательности.
Отметим, что нуклеотидная последовательность всегда считывается в направлении 5'-3 и кодирует белок от М-конца к С-концу. В случае случайной последовательности нуклеотидов, считываемой е определенной рамке, стоп-сигнал синтеза белие встречается а среднем каждые 20 аминокислот. В данной последовательности из 48 и. н, каждый такой сигнал (сгпоп-нодон) показан голубым, и только рамка считывания 2 не имеет сигналое остановки. 6) Поиск в последовательности ДНК, сосюящей из 1700 и.
н., возможных кодирующих белок последовательностей. Информация представлена так же, как на (а): каждый стоп-нодон синтеза белка обозначен голубой линней Также все участки между возможными сигналами начала и остановки синтеза белка )смотри пр. 381) показаны красным. Только рамка считывания 1 кодирует белок, состоящий из 475 аминокислот. 8.4.
Анализ и манипуляции с ДНК 849 мосом бактерий или архей, в которых отсутствуют интроны, или из клона кДНК. Расположение генов в таких нуклеотидных последовательностях может быть предсказано путем поиска в ДНК определенных отличительных особенностей (описанных в главе б). Кодирующие белки гены идентифицируют путем поиска в нуклеотидной последовательности открыгпых рамок считывания (ОРС), которые начинаются с инициирующего кодона, обычно АТС, и заканчиваются терминирующим кодоном ТАА, ТАО или ТСА.
Чтобы сократить количество ошибок до минимума, компьютеры, используемые для поиска ОРС, обычно программируют таким образом, чтобы они считали генами только последовательности, длина которых превышает, скажем, 100 кодонов. В случае более сложных геномов, например геномов животных и растений, присутствие больших интронов в пределах кодирующей части гена усложняет процесс. У большинства многоклеточных организмов, включая человека, экзон в среднем состоит всего из 150 нуклеотидов. Таким образом, необходимо искать и другие признаки, указывающие на присутствие гена, например, последовательности, сигнализирующие о границе между интроном и экзоном или отличительные регуляторные участки.
Недавние попытки решить проблему предсказания экзонов привели к созданию алгоритмов искусственного интеллекта, позволяющих компьютеру на известных примерах обучаться тому, какие наборы характеристик свойственны границам экзонов. Второй важный подход к идентификации кодирующих участков в хромосомах — описание нуклеотидных последовательностей обнаруживаемых мРНК (при помощи соответствующих кДНК).
мРНК (и получаемые из них кДНК) лишены интронов, регуляторных последовательностей ДНК и ненужной «промежуточной» ДНК, лежащей между генами. Таким образом, полезно секвенировать большие количества кДНК для получения очень подробных баз данных кодирующих последовательностей организма. Эти последовательности затем легко использовать для распознавания в длинной последовательности хромосомной ДНК экзонов, соответствуюгцих генам.
8.4.14. Геномы многих организмов полностью секвенированы В большой степени благодаря автоматизации процесса секвенирования ДНК полностью расшифрованы геномы многих организмов, включая хлоропласты растений и митохондрии животных, геномы бактерий и архей и модельных организмов, широко изучаемых в лабораториях, например: дрожжей, круглого червя, фруктовой мушки дрозофила, модельного растения арабидопсис, мыши, собаки, шимпанзе и, конечно, человека. Исследователи также полностью расшифровали последовательности ДНК разнообразных патогенов человека.
Сюда входят геномы бактерий, вызывающих холеру, туберкулез, сифилис, гонорею, болезнь Лайма и язву желудка, а также сотен вирусов, включая вирус оспы и вирус Эпштейна — Барр (который вызывает инфекционный мононуклеоз). Исследование геномов этих патогенов позволяет понять, что делает их инфекционными, и указывает путь к разработке новых и более эффективных способов лечения. Наеторй1!из гпг1иепзае (бактерия, вызывающая ушные инфекции и менингит у детей) — первый организм, для которого полностью расшифровали последовательность генома — все 1,8 миллионов п.
н. — при помощи секвенирования методом «дробовика» (шотган-секвенирование, эйо(йпп зег)иепс1пд ше()нх)), наиболее распространенного в настоящее время подхода. В этом методе длинные последовательности ДНК расщепляют случайным образом на более короткие фрагменты. 850 Часть 111. Методы Каждый фрагмент секвенируют, и затем при помощи компьютера, использующего в качестве указателей направления сборки перекрывание последовательностей, эти кусочки собирают в целую хромосому или геном.
Метод «дробовика» преимущественно применяют для секвенирования маленьких геномов. Несмотря на то что большие, обладающие множеством повторов геномные последовательности сложнее собирать, метод «дробовика» в сочетании с анализом крупных фрагментов ДНК, клонированных в ВАС, сыграл ключевую роль и в их секвенировании. Сейчас, когда все чаще в научной литературе публикуют новые последовательности, сравнение полных геномов различных организмов позволяет нам проследить эволюционные отношения между генами и организмами, а также открывать новые гены и предсказывать их функции (см. главы 3 и 4).
Приписывание генам функций часто включает в себя сравнение их последовательностей с родственными последовательностями модельных организмов, которые подробно охарактеризованы в лабораториях, например: бактерии Е. со1г, дрожжей 5, сегеоьв(ае и 5. рогпЬе, круглого червя С. е1едапэ и фруктовой мушки О. те1аподаэ1ег (см. главу 1). Несмотря на то что организмы, геномы которых расшифрованы, обладают многими одинаковыми биохимическими путями и содержат белки, гомологичные по аминокислотным последовательностям или структуре, функции очень многих недавно идентифицированных белков остаются неизвестными. В зависимости от организма, около 15 — 40 ' белков, кодируемых расшифрованным геномом, не похожи ни на один биохимически исследованный белок.
Это наблюдение подчеркивает ограничения расширяюшейся области геномики; несмотря на то что сравнительный анализ геномов дает огромное количество информации о взаимоотношениях между генами и организмами, он зачастукг не дает никакой информации о том, как зги гены функционируют, или о том, какую роль они играют в физиологии организма. Например, сравнение полных наборов генов нескольких термофильных бактерий не открыло, почему эти организмы благоденствуют при температурах, превышающих 70 'С. А исследование генома невероятно радиоустойчивой бактерии Ое(пососсиз гасНодигапз не объясняет, как она способна пережить радиационный взрыв, разбивающий стекло. Чтобы понять, как гены и производимые ими белки функционируют в контексте живьгх организмов, необходимы дальнейшие биохимические и генетические исследования, описанные в других разделах этой главы.
Заключение Клонирование ДНК позволяет копировать любую специфическую последовательность ДНК или РНК, выбранную из миллионов других последовательностей в клетке, и синтезировать ее в неограниченных количествах в чистом виде. Последовательности ДНК могут бсчть амплифицированы после расщепления хромосомной ДНК эндонуклеазами рестрикции и включения полученных фрагментов ДНК в хромосомы самореплицирующегося генетического элемента, например вируса или плаэмиды. Обычно используют плаэмидные векторы, и получаемая в результате «библиотека геномной ДНК» поддерживается в м лионах бактериальных клеток, каждая из которых содержит различные фрагменты ДНК.