Попов, Демин, Шибанова - Проблема белка. т.2. Пространственное строение белка (947295), страница 68
Текст из файла (страница 68)
Средняя точность разработанного алгоритма, по оценке самих авторов, составила всего 56%. Следовательно, около половины остатков в белковой последовательности предсказываются неправильно. Ф. Максфилд и Г. Шерага заключают, что хотя пре11ложенный ими метод идентификации конформационных состояний среди всех существующих предсказательиых алгоритмов является наиболее точным, но и он не обеспечивает выхода к структуре, которая могла бы послужить исходной для последующего уточнения, С такой оценкой согласуются данные Робсона и соавт. [135], проанализировавших надежность различных алгоритмов предсказания вторичных структур на 26 белках известного пространственного строения.
Авторы пришли к выводу, что точность отнесения остатков к четырем конформационным состояниям (а-спираль, [з-структура, 0- изгиб и клубок) не превышает 49%. Приблизительно такую же точность (50%) имеют как старый метод [94], так и новый метод Нагано [136, 137], усовершенствованный включением корреляции между тремя остатками в спиральных областях, выведенной из анализа 36 белков. Исследование Максфилда и Шерагн (последний интенсивно занимается поисками эмпирических корреляций, начиная с 1960 г.) примечательно не столько разработкой еще одного предсказательного алгоритма, сколько своим общим заключением о возможностях статистического подхода в отношении надежности предсказания и понимания принципов пространственной организации белковой молекулы, Так, авторы пишут; "Поскольку любой метод, использующий данные о белках известной структуры, будет сталкиваться с 265 теми же статистическими ограничениями, то, по-видимому, невероятно, чтобы изменения в методе, использующем такие данные, привели к значительному увеличению точности, пока, количество данных не возрастет" и далее: "...очевидно, имеющиеся предсказательные методы являются бесполезными для понимания структуры белков" [134, С.
5150]. С этим трудно не согласиться. Однако всего через год в работе Г. Немети и Г. Шерагн [138] высказывается мнение, противоречащее только что процитированному, а также заключению, сделанному Бэржесом и Шерагой [139]. Обсуждая параметры, полученные из статистических предсказательных алгоритмов, Г.
Немети и Г. Шерага пишут: Приложение этих параметров к белкам с известными аминокислотными последовательностями дает вероязззые конформационные состояния, которые могут быть использованы в качестве исходных для минимизации энергии" [138. С. 242]. Аналогично высказывание в другом месте этой же работы: "...предсказательные схемы являются очень полезными как первый шаг в расчете конформацнонной энергии" [138.
С. 340]. К сожалению, Немети и Шерага не поясняют, каким образом можно получить пригодную для уточнения белковую структуру, если даже один из самых точных алгоритмов — алгоритм Максфилда и Шераги [134] — предсказывает неправильно конформационные состояния у половины остатков, причем в случае белка, не исследованного рентгеноструктурно, неизвестно, какой именно половины. Имеющийся в литературе материал н прежде всего многочисленные результаты одного из авторов убеждают в обратном. Ранее Бэржес и Шерага показали, что даже в гипотетическом случае — при наличии совершенного алгоритма, правильно предсказывающего для всех остатков белковой последовательности области их конформационных состояний, — задача получения структуры белка, напоминающей нативную конформацню, остается тем не менее нерешенной [139].
8.2. ТОЧНОСТЬ ПРЕДСКАЗАНИЯ ВТОРИЧНЫХ СТРУКТУР В конце 1970-х годов было проведено много исследований, посвященных различным аспектам корреляционного подхода к предсказанию вторичной структуры по аминокнслотной последовательности. Однако они не внесли принципиально нового в решение обсуждаемой проблемы.
Не претерпела серьезных изменений и надежность предсказательных алгоритмов, как предложенных вновь, так н сделанных ранее, модифяцированных и опирающихся на значительно больший экспериментальный материал [140 — 157]. В этой связи интересны данные сопоставления конформационных параметров П.
Чоу и Г. Фасмана [99] с параметрами, полученными таким же образом М. Левиттом из анализа приблизительно вдвое большего количества белков [!53]. Исследователи обнаружили значительное различие в распределении остатков в двух наборах по нх способностям образовывать н разрушать вторичные структуры. С помощью парамет- ров Чоу и Фасмана и параметров Левитта были предсказаны а-спирали и [1-структуры в четырех белках и оценены коэффициенты правильности предсказания (С). Использование первого набора привело к значениям С = 0,26 для а-спирали и С = 0,29 для Д-структуры, а второго набора — соответственно 0,22 и 0,10 (С = 1,0 при совершенном предсказании и С = 0 при беспорядочном). Обращает внимание низкая достоверность результатов в обоих случаях.
Таким образом, точность предсказания ие возрастает ог того, подвергаются ли статистической обработке сотни или тысячи остатков в белках известной структуры. В ряде работ второй половины !970-х и начала 1980-х годов (например, [151, 157]) для предсказания вторичных структур одновременно привлекаются все имеющиеся алгоритмы и выводы делаются на основе усредненных результатов. Однако такая процедура не может повысить достоверность предсказания, точно так же как не может возрасти, например, точность измерений при использовании не одного, а нескольких приборов, каждый из которых не удовлетворяет требуемым условиям.
Оценка точности эмпирических предсказаний вторичных структур по аминокислотным последовательностям представляет собой непростую задачу. Многие авторы корреляционных методов в этом вопросе оказываются недосгаточно объективными. Так, опробирование методов часто проводится на базовом наборе белков, что, очевидно, имеет огромное значение. При использовании многих правил и большого числа эмпирических параметров для ограниченного круга объектов можно получить удовлетворительное соответствие, которое, однако, не будет отражать реальную предсказательную ценность метода. Иллюстрацией сказанному служит табл. П.4, содержащая результаты различных методов предсказания вторичной структуры аденилаткиназы, о пространственном строении которой авторы не были информированы.
В результате приблизительно в половине отнесений число ошибок превьппает число правильных предсказаний в 1,5— 4,0 раза. Известно семь способов количественной оценки результативности предсказаний — показатели качества (О~ — Оз), отражающих различные стороны предлагаемых методов [157]. При отнесении остатка к одной из вторичных структур возможны следующие четыре случая: положительное (в) и отрицательное (х) правильные предсказания, недопредсказание (у) и сверхпредсказание (г), Обпзепринятый среди создателей алгоритмов предсказания критерий качества Оз равен сумме долей положительных и отрицательных правильных предсказаний вторичных структур (и + х). Именно таким образом оценивали свои методы Котельчук и Шерага [71, 72], Льюис и Шерага [74, 75], Робсон и Пейн [89 — 91].
Нагано [94], Чоу и Фасман [98, 99] и др. Использование Оз не вызвало бы возражения, если бы а-спирали, 0-структуры и [э-изгибы входили в белковые третичные структуры приблизительно в равных долях и оценка показателей качества предсказания всех видов вторичных структур делалась бы не последовательно, а одновременно. В действительности же это не так. Известно, что среднее содержание спиралей в белках (не учитывая мембранных) не превышает 35%, по новейшей статистике, оно меньше 30%.
Поэтому при идентификации спиралей вероятность отрицательного правильного предсказания в 2— 3 раза выше вероятности положительного правильного предсказания. Еще больший вклад в показатель качества Оз вносят отрицательные правильные предсказания В-структуры, среднее содержание которой в белках составляет 15 — 20%. Таким образом, наиболее распространенный способ оценки качества приводит к завышенным значениям Оз и, следовательно, к переоценке эффективности корреляционных методов. Насколько может быть далеким от реальности представление о возможностях алгоритмов предсказания, которое, вероятно, при некритическом отношении к такому показателю качества, как Оз, Г. Шульц и Р.
Ширмер иллюстрируют двумя типичными примерами идентификации вторичных структур [157). В первом примере для белка с незначительным а-спиральным содержанием не было сделано ни одного положительного правильного предсказания (е = О) при сравнительно большой доле,что почти неизбежно в данном случае, отрицательных правильных предсказаний (например, х = 0,7). При таком, казалось бы, плачевном для использованного алгоритма результате (по существу, не получено никакой информации о структуре белка) количественная оценка его эффективности по значению Оз получается тем не менее вполне удовлетворительной (70% достоверных предсказаний).
Если же при этом сделано даже небольшое число положительных правильных предсказаний (например, Ж = О,!), то показатель качества Оз возрастает до 80%, что уже близко к оптимальному соответствию теории и эксперимента, Более объективен показатель надежности эмпирических корреляций Оъ предложенный Б. Мэтьюзом [158). Он рассчитывается по средневзвешенным значениям и, х, у, х, т.е, в нем учитываются также недопредсказания н сверхпредсказания. В выше отмеченном первом примере его значение составляет -0,17, а во втором +0,38 при максимальных изменениях от -1,0 (в случае полностью неправильных предсказаний ч = х= О) до + 1,0 (и = х = 1, у = х = О). Таким образом, в первом примере предсказание хуже, чем среднестатистическое, беспорядочное, а во втором — несколько лучше.
Значения критерия Мэтьюза для сегментов а-спиралей, ф-структур и р-изгибов аденилаткиназы, рассчитанные по лучшим из имеющихся для этого белка предсказаниям, равны соответственно 0,56, 0,58 и 0,60, а для лизоцима Тя — 0,42, 0,28 и 0,20 [157). Несмотря на отсутствие заметного прогресса и разочаровывающие результаты предсказаний, стремление решить проблему пространственной организации глобулярных белков на основе эмпирического подхода (т.е, простейшим образом) не ослабевает и в 1980-е годы.














