Генетическая информация (Темы и ответы на них), страница 2
Описание файла
Файл "Генетическая информация" внутри архива находится в следующих папках: Темы и ответы на них, 12. Документ из архива "Темы и ответы на них", который расположен в категории "". Всё это находится в предмете "информационная безопасность" из 7 семестр, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "информационная безопасность" в общих файлах.
Онлайн просмотр документа "Генетическая информация"
Текст 2 страницы из документа "Генетическая информация"
Возникла красивая гипотеза кода без запятой, обеспечивающего синхронизацию нуклеотидной последовательности (Ф. Крик).
С. Голомб предложил следующую формализацию.
Пусть Аn обозначает множество слов длины n в алфавите А из q букв. Рассмотрим два слова х, у Аn:
x = (a1, …, an),
y = (b1, …, bn)
Соединяя эти слова последовательно:
a1, а2, …, an, b1, b2, …, bn
получаем n - 1 новых слов:
(а2, …, an, b1),
(а3, …, b1, b2),
……………..
(an, …, bn-2, bn-1),
которые называются перекрытиями слов х и у.
Подмножество D Аn называют кодом без запятой, если для любых двух кодовых слов х, у D все перекрытия не являются кодовыми словами. Такой код обеспечивает синхронизацию в длинной цепочке кодовых слов. Действительно, выберем некоторую букву такой цепочки в качестве стартовой позиции, отсчитаем n букв, в результате получим некоторое слово из Аn. Если мы попали в перекрытие, то это слово не будет кодовым (предполагается, что перед нашими глазами, точнее, перед глазами рибосомы, осуществляющей трансляцию, выписан весь кодовый словарь D). Сдвигаемся влево на одну позицию и повторяем процедуру до тех пор, пока не получим кодовое слово. Тем самым будет установлена правильная стартовая позиция.
Какова может быть максимальная мощность кода |D| (обозначим ее Wn(q))?
Простая оценка сверху может быть получена из рассмотрения периода слова. Пусть Tkx обозначает, как и прежде, циклический сдвиг на k шагов. Минимальное число k, при
котором Tkх = х, назовем периодом d слова x. Ясно, что d n и d является делителем числа n. Слова максимального периода d = n назовем основными. Код без запятой может содержать лишь основные слова. Действительно, пусть x – слово периода d < п. Выписывая подряд это слово два раза, получаем перекрытие, совпадающее со словом x:
Если обозначить через Рn (q) число основных слов из q букв, то получим оценку
(циклический сдвиг кодового слова не может быть кодовым словом). Очевидно,
Из этого равенства можно получить выражение для Pd(q), используя формулу обращения Мёбиуса.
Пусть f(n), F(n) – две целочисленные функции натурального аргумента, причем
Тогда
где функция Мёбиуса определяется следующим образом:
Отсюда получаем
так что
Подставляя n = 3, q = 4, получаем
Оказывается, при n = 3 и любом q полученная оценка для W (q) является достижимой: следует выбирать кодовые слова (abc) по правилу а < b . с. Действительно, рассмотрим пару кодовых слов: abcdef. Тут выполняются неравенства
а < b с,
d < е f.
Первое перекрытие bcd не является кодовым словом, потому что b с. Второе перекрытие cde не является кодовым словом, потому что d < е. Таким образом, мы действительно получили код без запятой. Период слова может быть равен или 1, или 3. Основные слова – это слова, в которых встречаются хотя бы две разные буквы.
Легко показать, что сдвигом основного слова всегда можно получить слово, удовлетворяющее условию а < b с. В то же время слова вида (ааа), bbb), ... не входят в код. Поэтому мощность кода в точности равна (q3 – q)/3.
Таким образом, из 64 возможных слов можно было бы создать код из 20 слов, обеспечивающий синхронизацию. Однако природа не пошла по этому пути и, как всегда, оказалась права: ошибка хотя бы в одном символе (нуклеотиде) приводила бы к нарушению синхронизации и вела бы к летальному для организма исходу.
В результате тончайших биохимических экспериментов, проведенных Ф. Криком, М. Ниренбергом, С. Очоа, Г. Кораной было установлено, что генетический код является неперекрывающимся, и был установлен смысл каждого кодона. Расшифровка генетического кода, полностью завершенная в 1966 г., явилась величайшим научным достижением. Окончательная таблица выглядит следующим образом:
U | С | A | G | ||
U | |||||
С | |||||
А | |||||
G |
Как следует из таблицы, код является вырожденным, т.е. существуют слова-синонимы: GUU = GUC = Val, CGG = AGA = = Arg и т, д. Имеются три кодона: UAA, UAG, UGA, которые не несут смысловой нагрузки (non-sence). Они являются терминаторными кодонами: появление такого кодона в слове означает конец трансляции. Если такой кодон возникает в результате изменения какой-либо буквы смыслового кодона (мутации), это приводит обычно к летальному исходу.
Пожалуй, самой впечатляющей особенностью генетического кода является его универсальность. Приведенную таблицу можно с одинаковым успехом применить для расшифровки РНК человека, птицы, бактерии или табака. Из этого правила, как выяснилось в 1979 г., есть исключения: генетический код митохондрий (особых органов клетки) характеризуется отличными от обычных значениями некоторых кодонов и некоторыми особыми правилами узнавания кодонов.
Трансляцию осуществляет особый орган клетки – рибосома. Синхронизация (установка рамки считывания) осуществляется с помощью префикса, AGGAGGU, который называется последовательностью Шайн-Долгарно. Искажение этой последовательности приводит, конечно, к катастрофическим последствиям. Однако эта последовательность присутствует в слове в единственном числе. Поэтому вероятность искажения символов в определенных семи позициях достаточно мала.
Хромосомная база данных
Каждый ген кодирует некоторый белок, который в свою очередь определяет некоторый простой признак организма. При описании базы данных в гл. 3 каждому признаку ставился в соответствие домен признака—то множество значений, которое может принимать данный признак. В биологии понятие домена эквивалентно понятию аллели. Каждый простой признак (ген) может существовать в одной или нескольких альтернативных формах (аллелях). Например, в каждом растении гороха существует ген, влияющий на форму семян: семена могут быть гладкими или морщинистыми. Известно большое число множественного аллелизма. Классический пример—ген, определяющий окраску меха кролика. Здесь возможны по крайней мере четыре аллеля: шиншиловый, дикий тип, гималайский, альбинос.
Для хранения генетической информации во всех живых организмах используется реляционная база данных.
Каждое отношение R(X1,...,Xn) состоит из двух строк (гомологичных хромосом). Хромосома содержит гены Х1,...,Хn, которые образуют сложный признак X. Пара хромосом образуется при размножении: одна хромосома получается от отца, другая – от матери (диплоидная пара). У гомологичных хромосом все гены совпадают по своей функции, но могут отличаться несколькими нуклеотидами. Часто эти изменения вызваны нежелательной мутацией и проявляются в форме наследственного заболевания, Например, если в гене человека, кодирующем гемоглобин, заменить букву Т на букву А в одной позиции, то возникает альтернативная форма гемоглобина, ведущая к так называемой серповидной анемии. Если значения признака совпадают в обеих строках, то особь называется гомозиготной по данному гену. В противном случае говорят о гетерозиготности.
Таким образом, гомозиготность характеризуется диплоидными парами , , а гетерозиготность – парами , . Число хромосом у любого организма равно 2n, где n – гаплоидное число. Например, у человека n = 23. Это означает, что база данных состоит из 23 отношений, которые соединяются между собой в процессе, предшествующем размножению особи. У комнатной мухи n = б, у краба n = 127. Наименьшее число n = 1 наблюдается у лошадиной аскариды (Ascaris megalocephata). Число хромосом остается постоянным для каждого вида. Под видом понимают обычно совокупность организмов, которые взаимодействуют между собой в процессе размножения.