Попов, Демин, Шибанова - Проблема белка. т.2. Пространственное строение белка (947295), страница 69
Текст из файла (страница 69)
Однако в последний период работы этого плана, оставаясь на тех же идейных позициях, приобретают болыпее разнообразие. Остановимся на новых по своему характеру исследованиях, которые специально посвящены 268 идентификации вторичных структур в нативных конформациях белков и оценке эффективности методов их предсказания.
Вопрос о выделении в кристаллографических структурах глобулярных белков регулярных вторичных структур — а-спиралей и]3-складчатых листов — является одним из самых актуальных для корреляционного подхода, В течение многих лет это делалось в значительной мере произвольно, без использования количественных критериев. Необходимость в них, очевидно, вообще бы не ощущалась, если бы в нативных конформациях белков вторичные структуры были действительно регулярными.
Насколько геометрические параметры реальных конформационных состояний полипептидной цепи отличаются от параметров так называемых вторичных структур, можно судить по рнс. 11.3, на котором показано распределение на конформационных картах ~р — ф остатков некоторых сегментов цепей а-хнмотрипсина, карбоксипептидазы А и лизоцима [61]. Во всех исследованиях, посвященных поиску эмпирических корреляций, эти сегменты отнесены к а-спиральным или 8- структурным. Из рис, 11.3 видно, что в экспериментально наблюдаемых конформационных состояниях остатков, включенных при статистической обработке во вторичные структуры, значения двухгранных углов у, ф не только не выражаются в точки ( у„ф,) и ( ра, фа), что должно иметь место при строгой регулярности структур, а обнаруживают существенный разброс в пределах а- и Д-областей.
Более того. в ряде случаев значения д, ф остатков а- и 8-сегментов вообще находятся в совершенно других местах конформационной карты. Если ограничить отклонения а-спиральных углов ~р, ф от стандартных значений, например х15', то в трех приведенных примерах в а- спиральных сегментах окажется не 41 остаток, а лишь 18; что же касается [3-структуры, то при таком ограничении углов у, ф в нее не попадет больше двух остатков. Если же исключить из структур, считающихся вторичными, по три остатка с их ]ч- и С-концов, которые, как правило, имеют большие отклонения по углам д, ф или отвечают другим конформационным состояниям, то содержание в глобулярных белках участков, действительно близких к регулярным, уменыпится по сравнению с принятыми в литературе в 2 — 3 раза.
При введении количественного критерия регулярности нельзя уже будет считать вторичными структурами большинство коротких а-спиралей и рструктур, в том числе и большинство спиралей из 4 — 9 остатков, которые являются самыми распространенными в белках. В связи с тем, что в реальных белках вторичные структуры не обладают правильными регулярными формами, их идентификация субъективна и существенно отличается у разных авторов. Например, в лизоциме Чоу и Фасман [99] к а-спиралям и 8-структурам относят соответственно 54 и 21 остаток, а Бэржес и соавт. [101] — 46 и 4; в субтилизине ВРИ' (отнесения [101] даны в скобках) — 86 (69) и 27 (44), в папаине — 54 (50) и 30 (21).
Подобных примеров можно привести очень много. Создание количественных методов компьютерного определения вторичных структур в наблюдаемых трехмерных структурах белков необходимо также вследствие усложнения методов корреляционного 269 анализа, увеличения количества рентгеноструктурно исследованных белков и некоторых других причин, в частности из-за неоднозначности результатов предсказания того или иного метода при использовании его ие авторами, а другими исследователями, Первые алгоритмы идентификации р-изгибов с помощью ЭВМ по экспериментальным данным были созданы И.
Кунтцем [159, 160] и П, Льюисом и Г. Шерагой [78]. Поздее оии усовершенствовались П. Чоу и Г. Фасманом [100], Г. Раузе и Дж. Селтцером [150]. С. Лифсон и Х. Сандер [161] разработали компьютерный метод установления ]З-структуры, а М. Левитт и Дж. Грир [146] создали первый алгоритм автоматического определения а- спиралей,]З-структур и р-изгибов по известным координатам атомов С . Вще большей универсальностью обладает алгоритм У. Кзбша и Х. Сандера, в основу которого положены геометрические особенности вторичных структур и системы их водородных связей [162], а-Спирали и]3-складчатые листы описываются повторением элементарных водородносвязанных моделей изгиба (в первом случае) и мостика (во втором). Алгоритм позволяет также определять доступность остатков пространственной структуры белка для молекул воды (по числу их возможных контактов). Программа Кэбша н Сандера была использована для идентификации в известных трехмерных структурах 62 белков трех типов конформацнонных состояний.
Согласно полученным данным нз 10763 составляющих эти белки остатков 3047 (28%) входят в а-спирали, 2295 (21%) — в ]3-структуры и 5421 (51%)— в 8-изгибы и другие нерегулярные формы пептндной цепи. Считая свое отнесение полностью объективным, авторы проверили на нем предсказательные возможности трех широко распространенных корреляционных методов, а именно методов Чоу и Фасмана [98 — 100], Робсона [163] и Лима [95, 96], предварительно автоматизировав всю процедуру предсказания вторичных структур, сопоставление с экспериментальным отнесением и расчет показателей достоверности.
Точность предсказания рассчитывалась как отношение числа остатков, правильно предсказанных, к общему числу остатков, предсказанных для этого же конформационного состояния. Оказалось, что показатель качества метода Чоу и Фасмана равен 50%, а методов Робсона и Лима — 56%. Следовательно, около половины остатков, входящих в а- спираль и (3-структуру, предсказываются такими методами неправильно. Значения показателей качества, полученные У.
Кэбшем н Х. Сандером для трех методов из анализа 62 белков, хорошо согласуются с аналогичными оценками тех же методов Б. Бусетта и М. Хоспитала [164] по 38 белкам (47% у метода П. Чоу и Г. Фасмана, 57%— Б. Робсона и 56% — В.И. Лима), а такясе с оценками Дж. Ленстры [о7] по ЗЗ белкам методов К. Нагано, В.И. Лима, С. Танаки и Г. Шераги, Р и с. )(тх Распдеделение а координзтах я (се-(ч) — э(се.с') некоторых остатков ахилготрипсина, карбоксипептидазы А и лихоцимз, относимых и литературе к аспирзльныьх (сплошная линия) и ()-структурным (пунктирная линна) участкам белкоаод цепи 27) П, Аргоса и соавторов. Воспользовавшись для характеристики алгоритмов показателем качества Мэтьюза (О7), Ленсгра показала, что достоверность предсказаний всех методов как а-спиралей, так и Д-структур и 1)-изгибов колеблется от 0 до 50%, поднимаясь в ряде случаев несколько выше, но чаще опускаясь ниже уровня беспорядочных отнесений.
Обстоятельный анализ предсказательных возможностей корреляционного подхода был проведен К. Нишикавой (165), который в качестве примера также рассмотрел уже упоминавшиеся три алгоритма. Оценка методов Чоу и Фасмана и Робсона проведена по 9, а метода Лима — по 11 белкам, не входившим в состав базовых наборов. При идентификации трех состояний (а-спираль, ф-структура, клубок) точность определялась по показателю качества Оз, дающего как отмечалось, сильно завьппенные значения, а при идентификации четырех состояний (а-спираль, д-структура, Д-изгиб, клубок) использовался показатель О4, занижающий вклад отрицательного предсказания и более реально отражающий действительные возможности методов.
При переводе эмпирических правил на язык ЭВМ, т.е. при компьютеризации методов предсказания, Нишикава столкнулся с большими трудностями. Так, в случае метода Чоу и Фасмана были обнаружены неопределенности при индивидуальном предсказании вторичных структур, несогласованносгь предсказаний ф-изгибов с предсказаниями а-спиралей и б-структур, отсутствие эффективного критерия для разделения перекрываний предсказанных а-спиральных и р-структурных областей. Помимо этого, оказалось невозможным воспроизвести на ЭВМ результаты, полученные первоначально Чоу и Фасманом для 25 базовых белков. Преодолев эти трудности, Нишикава показал, что предсказательные возможности трех проанализированных им методов находятся на почти одном и том же, довольно низком уровне; рассчитанные Нишикавой показатели качества ()з попали в интервал 50 — 53%, а О4 — 40 — 42%.
Точность предсказаний, естественно, нисколько не повышается прн одновременном использовании нескольких методов. В результате обращения к количественным оценкам эффективности предсказательных алгоритмов стала очевидной их малая достоверность. Примечательно. что при использовании более объективных оценочных характеристик точности и апробации эмпирических корреляций на большом экспериментальном материале низкий уровень предсказания был обнаружен у всех существующих методов. Это обстоятельство важно, поскольку поиски эмпирических корреляций велись в различных направлениях и отличались друг от друга в отношении объема и характера привлекавшихся опытных данных, методов их обработки, числа предсказываемых конформационных состояний остатков, трактовки факторов, ответственных за стабильность вторичной и третнчной структур, и т.д.
В таких условиях трудно объяснить низкие показатели качества во всех случаях методологическими особенностями используемого подхода. Напрашивается мысль об общей для всех методов причине их 272 низкого качества, имеющей принципиальный характер. Между тем основа самого корреляционного подхода к предсказанию вторичной структуры по аминокислотной последовательности — конформационная модель глобулярных белков Полинга и Кори не подвергается сомнению. Но если представления Полинга и Кори были вполне оправданы, так как онн обобщалн н объясняли наблюдаемые факты, предсказывали новые и прямо не противоречили известным в то время данным, то отстаивание тех же взглядов в 1980-е годы, когда ситуация существенно изменилась, трудно понять.
За прошедшие десятилетия стали известны трехмерные структуры многих сотен белков, среди которых большинство состоит в основном из нерегулярных участков, а целый ряд белков вообще их не содержит (тРНК-синтетаза, ферродоксин, фосфолипаза, агглютинин и др.). Вторичные структуры, все-таки входящие в белки, как правило, сильно искажены и лишь условно могут быть отнесены к регулярным. В среднем, как известно, менее 50% аминокислотных остатков оказываются включенными во вторичные, условно регулярные структуры.












