Главная » Просмотр файлов » Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК

Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК (1097789), страница 4

Файл №1097789 Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК (Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК) 4 страницаОпределение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК (1097789) страница 42019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Вклад перекрывающихся мотивов всвободный член, не зависящий от n , также меньше или порядка аналогичноговклада в матожидание, причем величина этого вклада приближается к17величине этого слагаемого в матожидание снизу для сильносамоперекрывающихся мотивов (с консенсусами типа AAAAAA).В случае длинных последовательностей n >> 1 основную роль играетслагаемое, пропорциональное n . Если вероятность мотива P ( H )1 , то всемичленами, пропорциональными P 2 ( H ) , можно пренебречь, и основнойнепуассоновский вклад дают перекрывающиеся вхождения мотивов. Напрактике это означает, что дисперсия меняется только для однородных (типаpolyA) или периодических (типа poly-AT) мотивов. Для таких мотивовПуассоновское приближение неприемлемо. Для остальных мотивовПуассоновское приближение работает с большой точностью.В случае, если мотивы не являются маловероятными (при P ( H ) € 1 ),становятся важными поправки, пропорциональные P 2 ( H ) .

В этом случаепуассоновское приближение очевидно неприменимо, однако Z-значение (см.ниже) остается хорошим критерием представленности мотива в тексте, вчастности, и в случае самопересекающихся мотивов, число появленийкоторых в последовательности не распределено согласно нормальномузакону. При этом, в случае длинных последовательностей достаточноиспользовать поправки, пропорциональные n . На практике, для конкретногомотива обычно легко оценить вероятность того, что его вхождения будутсамоперекрываться.

Если число перекрывающихся вхождений невелико,можно ограничиться поправками, для которых не требуется сколько-нибудьсложных вычислений, кроме вычисления вероятности вхождения мотиваP (H ) .В случае коротких последовательностей n m следует учитыватьчлены, не зависящие от n . В случае P ( H )1 работает приближениеПуассона, при тех же условиях, что и в случае длинных последовательностей.Следует отметить, что вычисление дисперсии числа вхождений мотива впоследовательность редко является самоценной задачей и обычно18используется для построения статистических оценок наперепредставленность или избегание мотива в каких-то выборкахпоследовательностей.В диссертации также приведено точное вычисление дисперсии дляслучая, когда случайная последовательность представляет собой цепьМаркова первого порядка.

В этом случае появляется дополнительноеслагаемое, отражающее корреляцию отдельных слов на близком расстоянии.Относительный вклад этого слагаемого падает при P ( H )1.Вычисленные матожидание E ( H ) и дисперсия V ( H ) позволяютвычислить P-значение того, что мотив H перепредставлен в даннойпоследовательности, при условии, что E ( H )1 и верно нормальноеприближение. В этом случае P-значение вычисляется как вероятность«хвоста» нормального распределения, и величиной от которой однозначнозависит P-значение является Z-значение Z =O (H ) − E (H )V (H ), где O ( H ) - этоколичество реально наблюдаемых вхождений мотива.Глава 4.

АЛГОРИТМИЧЕСКОЕ ВЫЧИСЛЕНИЕ P-ЗНАЧЕНИЯДЛЯ ВЕРОЯТНОСТИ ПОСЛЕДОВАТЕЛЬНОСТИ, СОДЕРЖАЩЕЙМИНИМАЛЬНЫЕ КОЛИЧЕСТВА ВСТРЕЧ КАЖДОГО МОТИВА ИЗЗАДАННОГО НАБОРА МОТИВОВВ тех случаях, когда распределение Пуассона неприменимо, длявычисления P-значения приходится использовать алгоритмический подход. Воснове подхода лежит модификация алгоритма Ахо-Корасик (Aho, Corasick,1975).

Основная структура данных представляет собой дерево T ( H ) ,являющееся вариантом бора Trie ( H ) (Knuth, 1975). Дерево строитсяследующим образом. Пусть Q ( H ) - множество префиксов слов множества H .Каждый префикс q ∈ Q ( H ) отождествляется с узлом Node ( q ) . В частности,19корень бора отождествляется с пустой строкой ε . Длина префикса являетсяглубиной узла Node ( q ) .Текст читается слева направо и прочтение каждой буквысопровождается с передвижением по дереву, задаваемому функцией перехода.Эта функция для каждого узла и для каждой буквы имеет своими значениямиузлы дерева, между которыми осуществляется переход.

Значением функцииперехода δ : Q ( H ) × Σ → Q ( H ) для данной пары {узел, буква} ∀ ( p, a ) ∈ Q ( H ) × Σ ,является δ ( p, a ) - наибольший суффикс конкатенации pa , принадлежащий кQ ( H ) . Заметим, что δ ( p, a ) = pa iff pa ∈ Q ( H ) .Пусть T [i ] - буква текста T на позиции i . Обозначим как qi самыйбольшой суффикс текста T [1]...T [i ] , принадлежащий Q ( H ) .Последовательность узлов, определенная словами qi , строится по индукции∀i ≥ 0, qi +1 = δ ( qi , T [i + 1]) , с начальным условиям q0 = ε .

Такаяпоследовательность называется Ахо-Корасик-обходом бора Trie ( H ) ,ассоциированного с текстом Tk : {q0 ,..., qk } = AC (Trie ( H ) , Tk ) .Конкретный регуляторный сегмент эукариотической ДНК можетсодержать достаточно большое число сайтов связывания для различныхфакторов, причем эти сайты могут перекрываться друг с другом. В результатеестественно возникает проблема изучения мотивов, совместновстречающихся в одном и том же сегменте ДНК. Для оценки статистическойзначимости совместного наблюдения ряда мотивов необходимо вычислить Pзначения P ( Ln ( H1 ,..., Hs ; k1 ,..., ks ) ) того, что мотивы (H1 ,..., H ss ) имеютсоответственно как минимум ( k1 ,..., ks ) , возможно перекрывающихся,вхождений в текст Tn длины n , записанный в алфавите Σ .20Рисунок 1. Обход дерева Trie ( H ) . Мотив задан как множество H = {AAA, AAC,ACA, ACC, CCT}.

Синими стрелками показаны переходы, выходящие из вершиныААС, соответствующие каждой возможной следующей букве текста. Краснымистрелками показаны переходы, выходящие из вершины СС, соответствующиекаждой возможной следующей букве текста.Пусть дано s различных мотивов (H1 ,..., Hss ). Упомянутое P-значениебудет также обозначаться как P (Tn ( H1 ,..., H s ; k1 ,..., ks ) ) .

Рассмотрим мотивH = H1 U ... U H s являющийся объединением искомых мотивов, т.е. включающийв себя все слова, принадлежащие хотя бы одному из мотивов Hi . Построимбор Trie ( H ) для полного множества слов H . Узел q ∈ Q ( H ) можетпринадлежать как какому-то одному конкретному мотиву Hk либоодновременно некоторому подмножеству мотивов {H j }0< j ≤ s . Функцияперехода δ : Q ( H ) × Σ → Q ( H ) определяется также, как она была определена дляслучая единственного мотива H .Все тексты Ti длины i подразделяются на классы, в зависимости отналичия в них вхождения различных мотивов H j . Вводится индексвхождений I ( k ,...,k ) ( l1 ,..., ls ) , вычисляемый для набора мотивов (H1 ,..., Hss ) и1sпоказывающий, что текст Tn содержит li , возможно перекрывающихсявхождений мотива Hi . Индекс представляет собой s -вектор, i-я координатакоторого может быть вычислена следующим образом:21 l if l ≤ ki I ( k ,...,k ) ( l1 ,..., ls )  = λi =  i i. 1 siki if li > kiДалее определяются классы Ci ( λ1 ,..., λs ; q ) , 0 ≤ λi ≤ ki , содержащие текстыTi длины i, для которых индекс вхождений мотивов (H1 ,..., H s ) в текст Ti равенAC (Trie ( H ) , Ti ) заканчивается в узле q .

Кроме того( λ1 ,..., λs ) , а обход бораопределяются дополняющие классы Gi ( k1 ,..., ks ) .Для вычисления искомой вероятности производится суммирование повсем узлам дерева q и по всем символам алфавита a. Пусть q′ - это значениефункции перехода δ ( q, a ) для такой пары (узел, буква). Такое значение можетпринадлежать сразу нескольким мотивам {H j }0< j ≤ s .

Тогда, вероятностьP ( Ci +1 ( λ1 ,..., λs , q ') ) того, что текст Ti принадлежит классу Ci +1 ( λ1 ,..., λs ; q ) можетбыть вычислена как:P ( Ci +1 ( λ1 ,..., λs , q ' ) ) =∑( q , a ):δ ( q , a ) = q ', q '∈{H j }0≤ j<s()P Ci ( I ( r1 ,..., rs ) , q ) * p ( a ) ,( li − 1) if q′ ∈ Hi. li if q′ ∉ Hiгде ri = Искомая вероятность получается тогда, когда достигается необходимоечисло вхождений всех мотивов.Техника, основанная на обходе бора, может быть естественным образомраспространена на вычисления P-значения числа вхождений мотива вслучайном тексте, порожденном цепью Маркова порядка K (Roytberg, 2007).Трудоемкость определяется временами порядка(KOn Σ m H + K Σ) ∏ k  , гдеiΣ - это размер алфавита, H - это полноеiколичество слов в объединенных мотивах, m - это максимальная длина слова,K - порядок цепи Маркова, а ki - минимально допустимое количествовхождений мотива i .22В диссертации рассматриваются также эффективные способыпостроения дерева-бора в случае, если мотив задан не в виде перечисленияслов, а в виде матрицы позиционных весов, с конкретным порогом.

В этомслучае бор можно построить без явного выписывания всех слов.Глава 5. РАЗБИЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТИ НА УЧАСТКИ,ОДНОРОДНЫЕ ПО НУКЛЕОТИДНОМУ СОСТАВУ, МЕТОДОММАКСИМИЗАЦИИ БАЙЕСОВСКОГО ПРАВДОПОДОБИЯИерархическая структура генома, отражающается в иерархии доменовДНК, имеющих сходный нуклеотидный состав (Frank, Lobry, 1999). Можнопредположить, что это связано с различными условиями к термодинамикеформирования структур ДНК соответствующих уровней.В этой главе описывается алгоритм разбиения последовательностинуклеотидов на сегменты, которые могут приближенно считатьсястатистически однородными. Алгоритм состоит из двух стадий.

На первойстадии с помощью динамического программирования находится оптимальнаяконфигурация границ, разбивающих последовательность на сегменты такимобразом, что некоторая функция правдоподобия достигает на этом разбиениисвоего максимума.

На второй стадии алгоритма вычисляется вес каждойнайденной границы. Удаление границ с небольшими весами позволяетполучить субоптимальную сегментацию, устойчивую к малым вариациямисходной последовательности.Пусть задан текст T , длины n , записанный в алфавите Σ , состоящем изL = Σ символов. Целью алгоритма является построение оптимальногоразбиения T на некоторое множество сегментов {T1 ,..., TK } . ТекстT моделируется как реализация некоторой вероятностной модели. В отличиеот предыдущих разделов предполагается, что исходный текст представляетсобой серию сегментов {T1 ,..., TK +1} , в каждом сегменте текст порожден какпоследовательность независимых случайных испытаний и параметры модели23в пределах одного сегмента не меняются, причем сегменты предполагаютсявероятностно независимыми друг от друга.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее