А.В. Финкельштейн, О.Б. Птицын - Физика белка - Курс лекций с цветными и стереоскопическими иллюстрациями и задачами (1123404), страница 68
Текст из файла (страница 68)
22-1. Гомологичные аминокислотные последовательности N-концевых фрагментов цитохромов c различных митохондрий и хлоропластов эукариотов. жирным шрифтом выделены остатки, идентичные оным в человечьем (human) белке,подчеркнуты — сходные с ними. Выравнивание аминокислотных последовательностей взято из [6]. столь высокогомологичные белки имеют очень сходную пространственную структурутруднее, когда белки в семействе сильно варьируют (рис.
22-2).Рис. 22-2. Аминокислотные последовательности N-концевых фрагментов рибонуклеаз Н бактерии (E. coli), эукариота (дрожжи, yeast), и трех разных вирусов. В данном случае выравнивание последовательностей делалось «вручную», без компьютера, так, чтобы не допустить их разрывов (см. «– — –») внутри α- и β-структурныхучастков. жирным шрифтом выделены остатки, идентичные в трех и более из этихпяти последовательностей. Черными точками (над последовательностями) отмеченыостатки активного центра, светлыми кружками и ромбами — остатки, вовлеченныев два гидрофобных ядра этого белка. Внизу отмечены остатки, совпадающие ( =)и сходные (:) у последовательностей из RSV и HIV (помещенных в двух нижнихстроках выравнивания), а также указана вторичная структура рассматриваемых белков. картинка, с небольшими изменениями, взята из [7]В этом случае на помощь приходит компьютер.
разработано множествопрограмм, ищущих гомологии; с ними можно работать по Интернету. Назову только самые популярные из этих программ: BLAST, PSI-BLAST,HMMer, а также программа смита-Ватермана. Все они строят выравнивание (alignment) последовательностей, добиваясь наибольшего сходствамежду ними. При этом за повышение сходства часто приходится платить«разрывом» последовательностей (см. знаки «–» на рис. 22-2). Потом программа оценивает сходство выровненных последовательностей, и сообща-317ет: (1) гомологичны ли они (т. е.
связаны ли они генетическим родством)и (2) как выглядит наилучшее выравнивание этих последовательностей.Правильно установить родство последовательностей можно и при невысоком их сходстве, но — внимание! — при этом часто не удается установитьих правильное (вытекающее из сопоставления их пространственныхструктур) выравнивание; я еще к этому вернусь. разные программы по-разному оценивают, чего стоит совпадениеостатков, чего — сходство, чего — несовпадение, чего — начало разрыва,чего — каждый дополнительный остаток в разрыве.
Цены совпадений,сходства и несовпадений извлекаются из статистики аминокислотных замен в очевидных гомологах, а штрафы за разрывы подбираются авторами так, чтобы удовлетворительно выделять белки, сходство которых ужеизвестно из других данных (и отбраковывать заведомо не-гомологичныебелки). Оптимизированные параметры потом «зашиваются» в программу. Пользуясь программой, обычные люди («пользователи») обычносмутно знают, что «хорошо» согласно этой программе, что «плохо»,а просто говорят: «установлено, что гомология последовательностей составляет 25 %», имея в виду, что 25 % выровненных остатков совпалидруг с другом.Встает вопрос — свидетельствуют ли эти 25% о сходстве последовательностей? Вообще говоря, это зависит от длины выравнивания (чем длиннее,тем скорее) и от числа и длины разрывов, сделанных при выравнивании(чем меньше, тем скорее).
Хорошие программы обычно указывают вероятность того, что наблюдаемое сходство могло быть получено случайно.Однако всегда поучительно сравнить, пользуясь той же программой, и заведомо несходные последовательности. И тут выясняется, что «гомология»заведомо несходных белков (рис. 22-3) часто составляет 10–15 %, иногда20 %, и порой (если — с разрывами в последовательностях) даже 25 %!Рис.
22-3. Выравнивание аминокислотных последовательностей непохожих, негомологичных белков [в данном случае — α-спирального рНк-связывающегобелка (rop) и β-структурного белка холодового шока (mjc)] часто дает 10–15 % совпадающих аминокислотных остатков [в данном примере — 10 остатков (см. жирный шрифт) из 69, т. е. 14,5 %].
Выравнивание сделано программой BLAST; ононе потребовало разрывов в последовательностях. таким образом, выравниваниезаведомо негомологичных белков rop и mjc дает, даже и без разрывов в последовательностях, примерно ту же долю совпадающих остатков, что и выравниваниеN-концевых половин RSV и HIV рибонуклеаз (см. рис. 22-2)318Эти цифры меняются от программы к программе. Однако накопленный опыт показывает, что тогда, когда «хорошая» (по общему мнению)программа выравнивает последовательности так, что совпадают свыше30–35 % остатков, выявленной гомологии, родству последовательностейможно смело доверять (с оговоркой: при длине сравниваемых последовательностей свыше 50, а лучше — 100 остатков). Правда, надо учитыватьчто 30–35 % гомологии между последовательностями, верно (как правило) свидетельствуя об их родстве, позволяют правильно наложить другна друга только 70–80 % их пространственных структур, давая неверноепредсказание о наложении остальных 20–30 %.
А для того, чтобы вернопроследить структуру 95 % главной цепи «нового» белка, нужно, чтобыего гомология с белком с известной структурой достигала 40–50 %.Если же сходство пары последовательностей не превышает 10–15 %,то их родство обычно нельзя обнаружить: такое сходство находитсяна уровне «случайного шума» (что, однако, не является доказательством,что белки не похожи, не гомологичны — я к этому еще вернусь).
А от 15до 25 и даже до 30 % простирается «сумеречная зона»: кажется, что белки гомологичны, но кто поручится?.. (да и сходство между выравниваниемпоследовательностей и наложением пространственных структур при гомологии в 15–25 % невелико.)к сожалению, как я уже сказал, все эти пороги не вполне одинаковы у разныхпрограмм (и у разных режимов их работы), а к программе они, эти характеризующие «порог доверия» цифры, обычно не прилагаются (кроме программ типаBLAST, где приводится оценка статистической достоверности полученного сходства; правда, все эти цифры есть в исходных статьях, но кто их читает…).
Поэтомуя бы рекомендовал, прежде чем доверяться любой такой программе, проверитьее (именно ее, и именно в используемом Вами режиме) на известных вам белкахпримерно той же длины (и сходных, и несходных) и понять, «что такое хорошои что такое плохо» (другой вариант: прочесть исходную статью…).Больше всего все эти оценки достоверности и недостоверности найденногосходства «плавают» от программы к программе из-за того, что разные авторыпо-разному оценивают «штраф» за разрыв последовательности. Если штраф стольвысок, что запрещает все разрывы, то случайно выбранные 20-буквенные (белковые) последовательности сходны на уровне всего 5 %. Если же этот штраф положить нулевым, т.
е. позволить делать любые разрывы «бесплатно», то случайновыбранные белковые (и вообще 20-буквенные) последовательности дают сходствона уровне 30–35 % (а дНковые и рНковые, 4-буквенные — на уровне 65 %)!Опыт показывает, что оптимальное отделение «похожих» от «непохожих» белковых последовательностей достигается, когда начало разрыва последовательностиштрафуется в цену двух или трех дополнительных совпадений аминокислотныхостатков, а за удлинение разрыва платится примерно 1 / 20–1 / 100 этой цены за каждый дополнительный остаток в разрыве.Я умышленно не говорю ничего о математике, лежащей в основе алгоритмовпоиска гомологий.
Это нас увело бы слишком далеко. Хочу, однако, произнести319ключевые слова: «динамическое программирование». Это — название самогомощного метода, применяемого для оптимизации одномерных систем (а последовательность — система именно одномерная), в частности, для оптимизации выравнивания одной последовательности относительно другой. Можно ли распознать гомологичность, родственность последовательностей, если их сходство лежит ниже уровня в 30 % — т. е. в «сумеречнойзоне» или даже ниже ее? Можно, но для этого надо работать со многимипоследовательностями.Именно работой со многими последовательностями отличаются «наиболее продвинутые» программы PSI-BLAST и HMMer от «простого»BLAST’а, работающего с отдельными последовательностями.Общая схема работы со многими последовательностями такова.сначала подбираются несомненные (на уровне не ниже ~ 40 % сходства) гомологи для обеих сравниваемых цепей.
А затем уже сравниваются друг с другом не отдельные последовательности, а эти два семейства,с особым упором на их наиболее консервативные места. Если оказывается, что оба семейства сходны (или, более того, что какие-то последовательности включаются в оба семейства), это свидетельствует о сходстве,пусть опосредованном, сравниваемых последовательностей. Причемпрограмма HMMer (Hidden Markov Model — скрытая Модель Маркова)использует при оценке сходства не только выявленные консервативныепозиции в последовательностях, но и выявленные консервативные корреляции между соседними позициями в выравнивании каждого из семейств.