Определение регуляторных сегментов в геномах методами теоретического анализа последовательностей нуклеотидов ДНК (1097789), страница 3
Текст из файла (страница 3)
Полученнаяинформация позволит предсказать ССТФ и ЦРМ, неизвестные из прямыхэкспериментальных данных.12В обзоре литературы также приведены основные открытые ресурсы,содержащие экспериментальные данные по развитию Drosophila, регуляцииэкспрессии различных генов Drosophila, а также белок-белковому и ДНКбелковому взаимодействию у Drosophila и других видов.Глава 3. Использование метода регулярных языков длявычисления математического ожидании и дисперсии числамотивов, встреченных в случайной последовательностиданной длины, моделирующей ДНК.Существенным элементом структуры ДНК, определяющимрегуляторные свойства данного района генома, являются участкиспецифического связывания регуляторных белков.
Математически этиучастки несут сигналы, формализованные как «мотивы».Предметом этой главы является теоретическое вычислениематематического ожидания и дисперсии количества случайных появленийодного и того же мотива в случайном тексте. Основной целью данногораздела является оценка применимости приближения Пуассона путемвычисления точного значения дисперсии для числа встреченных мотивов вслучайной последовательности.Все последовательности длины n , содержащие N вхождений мотива Hпредставляют собой регулярный язык (Guibas, Odlyzko, 1981; Regnier,Szpankowski, 1998; Regnier, 2000). Для вычисления матожидания и дисперсииN этот язык представляется как комбинация сумм и произведений болеепростых языков, каждый из которых содержит не более одного вхождениямотива H .
Наиболее удобным оказывается выбор языков-компонент, прикотором все вхождения слов H i возникают при конкатенациях языковкомпонент, и добавление каждого компонента приносит единственноевхождение H i . Каждый такой язык M ij называется минимальным, онсодержит все такие слова, что каждое слово, принадлежащее языку13произведению H i M ij содержит единственное вхождение H j в качествесуффикса и не содержит других вхождений H , кроме префикса H i исуффикса H j . Набор минимальных языков M ij , дополненный языкамипервого появления Ri (оканчивающимися на H i ) и терминальными языкамиU i (не порождающими вхождений H ни с какими префиксами H i ) достаточендля того, чтобы записать все последовательности произвольной длины,содержащие фиксированное число r вхождений мотива H .
В матричном видеэто записывается как S r = RM r-1U* , где R - вектор-строка начальных языков,компоненты которого заканчиваются на различных вхождениях мотива H i ,M – матрица минимальных языков M ij , а U* – вектор-столбец терминальныхязыков U i .Для определения статистических характеристик числа мотивов,встреченных в случайной последовательности длины n, используется аппаратпроизводящих функций. (Guibas, Odlyzko, 1981; Regnier, Szpankowski, 1998;Regnier, 2000). Производящая функция – это формально сопоставленныйрегулярному языку ряд по q + 1 переменным, где q - количество слов в мотивеH:FN H ,..., N H1( z, u ,..., u ) = ∑ z ∑ P ( N ( H ) = r ,..., N ( H ) = r ) unq1q1n1qqr1r...u q ,r1 ,..., rqв котором степень z n стоит при каждом элементе-последовательности длиныn , а степень u ri стоит при каждом элементе, содержащем ri вхождений словаH i .
Коэффициенты ряда – вероятности элементов-последовательностей,вычисленные в рамках принятой случайной модели. Обозначая символом z n член при степени z n , можно записать связь между значениемпроизводящей функции и математическим ожиданием и дисперсией числавстреченных в случайной последовательности вхождений мотива H i . Приэтом математическое ожидание и дисперсия количества наблюдающихсявхождений мотива H вычисляется следующим образом:14qE ( N ( H )) = ∑ E ( N ( Hi )) ;i =1qqi =1i≠ ji , j =1()V ( N ( H ) ) = ∑ V ( N ( H i ) ) + ∑ Cov N ( H i ) , N ( H j ) ; ∂2∂F ( z , u ) ∂F ( z , u ) Cov N ( H i ) N ( H j ) = z n F ( z, u ) − . ∂u ∂u∂∂uuijij u =1()Таким образом, для вычисления дисперсии количества мотивов,встреченных в случайной последовательности длины n необходимовычислить n -й член ряда для первой и второй производных производящейфункции по разным ее компонентам при значении всех переменныхкомпонент вектора u : ui = 1 .Производящая функция может быть записана для каждого из элементовматриц-языков R,M, U.
Существует теорема декомпозиции (Regnier,Szpankowski, 1998; Regnier, 2000), позволяющая представить производящуюфункцию F ( z, u ) в виде комбинации производящих функций, построенныхдля элементарных языков R,M, U. Элементарным языкам-матрицам R и Mсопоставляются матричные производящие функции R(z,u) (вектор, скомпонентами, содержащими вероятности слов, заканчивающихся на разныеH j , и не содержащих других вхождений слов и из H ) и M(z,u) (квадратнаяматрица с ячейками, содержащими все вероятности слов, дополняющихвхождение H i до H j ). Полимодальную производящую функциюFN H ,..., N H1q( z, u ,..., u )1можно представить в виде разложения производящихqфункций элементарных языков R(z), M(z), U(z):FN H ,..., N H1∞q( z, u ,..., u ) = ∑ ∑q1k −1где rα = ∆ i ,α + ∑ ∆ jβ =1β,αk =1 i , j1 ,..., jk −1Ri ( z ) M ij1 ( z ) M j1 j2 ( z ) ...M jk −2 jk −1 ( z ) U k −1 ( z ) u1r1 ...uqq ,r, т.е.
количество слов типа α в наборе ( H1 ,..., Hα ,..., H q ) .15∞Или в компактной матричной форме: F ( z, u ) = ∑ R ( z, u )M k -1 ( z, u ) U* ( z ) . Вk =1главе 4 настоящей диссертации приводятся результаты дифференцированияэтой формулы и получены замкнутые аналитические формулы дляматематического ожидания и дисперсии числа мотивов, встреченных вслучайной последовательности, заданной как последовательностьнезависимых случайных испытаний или как марковская цепь первогопорядка. В этой главе показано, что в случае независимых случайныхиспытаний вторая производная для последовательности независимыхиспытаний имеет вид:∂ 2 F ( z, u )211=Hi ( z ) H j ( z ) +H i ( z ) Aij ( z ) + H j ( z ) A ji ( z ) ) −( H ( z ) + H j ( z )) = .32 (∂ui ∂u j u =1 (1 − z )(1 − z ) i(1 − z )= Sind + Soverlap − S diagТ.е.
в структуре производящей функции выделяются слагаемыесоответствующие неперекрывающимся (первое и третье слагаемые) иперекрывающимся (второе слагаемое) словам. Дифференцирование этихслагаемых достаточно прямолинейно.Для первого слагаемого верно: z n 2Hi ( z ) H j ( z )(1 − z )3= P ( H i ) P ( H j ) ( n + 2 ) − ( mi + m j ) ( n + 1) − ( mi + m j ) ,что соответствует суммарной вероятности замостить отрезок длины nнеперекрывающимися словами с длинами mi и m j , выраженной черезколичество таких покрытий. Второе слагаемое более громоздко и имеет вид,включающий все возможные перекрытия слов:()µ −1µ −1m −l Soverlap − S diag = n P ( H i ) ∑ P H j l , m j H i I Hmii ,−Hl j + P ( H j ) ∑ P H i [l , mi ] H j I H jj , Hi l =1l =1µµm −l + (1 − mi − m j ) P ( H i ) ∑ P H j l , m j H i I Hmii ,−Hl j + P ( H j ) ∑ P H i [l , mi ] H j I H jj , Hi .l =1l =1(µ(()))(µ())+ ∑ lP ( H i ) P H j l , m j H i I Hmii ,−Hl j + ∑ lP ( H j ) P H i l , m j H j I H jj , Hil =1l =1m −l16Суммируя различные вклады, из этих формул можно получитьвыражения для полной дисперсии числа появившихся в последовательностимотивов.
Вклад в дисперсию неперекрывающихся появлений мотива равен:Vnon−overlapгде()2= nP ( H ) 1 − P ( H ) − 2∑δ P ( H ) + 2P ( H ) ∑δ P ( H ) + 2P ( H ) ∑δi P ( H ) + ∑δ P ( H ) − ∑δ P ( H ) ,∑ P (H ) = P (H )iiii2iiiiiiiiiii- полная вероятность появления мотива, а δ i = mi − 1 .iВ частном случае однобуквенных слов δ i = 0 эта формула переходит вбернуллиевскую дисперсию V ( H ) = nP ( H ) (1 − P ( H ) ) . В случае, если все словамотива имеют одну и ту же длину формула упрощается:Vnon −overlap = nP ( H ) (1 − P ( H )(1 + 2δ ) ) + δ ( 3δ + 2 ) P 2 ( H ) − δ P ( H ) .К сожалению, для члена с перекрытиями мотивов не удается получитьтакой же компактной формулы.
Однако, в случае, если мотив состоит изединственного слова, формула для дисперсии сводится к уже известнойформуле (Regnier, Szpankowski, 1998):()V ( H ) = nP ( H ) ( 2 A (1) − ( 2δ + 1) ) P ( H ) + P 2 ( H ) δ ( 3δ + 2 ) − P ( H ) ( 2 A (1) − 1) δ − 2 A′ (1) .Эти формулы дают точное значение дисперсии числа вхождениймотива в текст, порожденный последовательностью независимых случайныхиспытаний.
На практике часто используется приближение Пуассона, V ~ E .Для определения применимости этой формулы рассмотрим разность V − E ,равную:V − E = − nP 2 ( H ) ( 2δ + 1) + P 2 ( H ) δ ( 3δ + 2 ) + ∑ Soverlap ( H i , H j ) − S diag ( H i , H j ) .i, j(мы считаем, что мотив содержит слова равной длины). Факторы сµ()перекрывающимися вхождениями типа P ( H i ) ∑ P H j l , m j H i I Hm ,−Hl дают приl =1iijсуммировании вклад порядка nP ( H ) .