Диссертация (1144820), страница 11
Текст из файла (страница 11)
Данные70методы нацелены на поиск ключевого «генотипа заболевания» илимажорных генетических вариантов. Их эффективность, однако, резкоснижается при малом объеме выборки и большом числе анализируемыхгенетических маркеров (Ashley et al., 2010).Математическоемоделированиезаболеванийснаследственнойпредрасположенностью на сегодняшний день представляется наиболееперспективным. С одной стороны, такое моделирование подразумеваетмножественный анализ генов с учетом феномена эпистаза, с другой – онопозволяетпредсказыватьзаболеваниенаоснованииопределенныхалгоритмов, в том числе и с учетом факторов внешней среды.
Кматематическим моделям оносятся байесеновская статистика, метод МонтеКарло, кластерный анализ, «деревья решений», метод опорных векторов,модель адаптивных индексов, нейронную сеть, метод множественногоснижения размерности, линейную модель, тест на основе теории информациии некоторые другие (McCullagh, Nelder, 1989; Gurney, 1997; Favorov et al.,2005; Heidema et al., 2006; Steinwart, Christmann, 2008; Moore, Williams, 2009;Kanungo et al., 2009; Xu, Hu, 2010; Yi et al., 2011; Tian, Tibshirani, 2011;Barnholtz-Sloan et al., 2011; Ferreira, Marchini, 2011; Zhang et al., 2011; Bush,Moore, 2012; Alvarez-Castro, 2012; Wu et al., 2012; Lvovs et al., 2012;Корытина, 2012).Грамотное использование этих сложных подходов позволяет избежатьошибок,выявить«ключевое»взаимодействиегеновипостроитьэффективную модель конкретного МФЗ (см.
раздел 1.4.5).1.4.4. Биоинформатический подход. Анализ генных сетей.Генные и ассоциативные сети являются наиболее распространеннымивариантами биоинформатического подхода для анализа МФЗ. Генная сеть –группа координированноэкспрессирующихсягенов, контролирующихвыполнение определенной функции организма (Колчанов и др., 2008).71Генныесетивзаимодействующихбиологическихэлементов.процессовСтандартнаясодержатгеннаясетьтысячивыглядитследующим образом (рис.
3, 4, 10): узлы сети представляют собойвзаимодействующие элементы (гены, белки, метаболиты и другие), которыесоединеныреакциямиген-белокилибелок-мРНК-взаимодействия.Последние могут быть индуктивными (стрелки с наконечниками), прикоторых увеличение концентрации одного компонента ведет к увеличениюконцентрации другого, и ингибиторными (заштрихованные кружки), когдауменьшение концентрации одного компонента ведет к уменьшению другого.Стрелками показана сеть таких зависимостей. Генные сети являютсяквинтэссенциейколлективногознанияомножествесвязанныхбиохимических реакций (Колчанов и др., 2008).Методы математического моделирования позволяют объяснить и, даже,предсказать работу генных сетей.
Чаще всего технология моделированияпредполагает использование связанных обыкновенных дифференциальныхуравнений (ОДУ). Также используются другие перспективные методымоделирования, например, булевы сети, сетей Петри, Байесовские сети,графические гауссовские модели, стохастические процессы и исчислениепроцессов (Колчанов и др., 2008).Генные сети используют для моделирования функциональных систем иорганизма в целом, для проверки действия лекарств и других факторов набиосистему.Наиболее востребованы в биомедицине ассоциативные сети.
Ониоснованы на анализе данных биомедицинской литературы с использованиемметодов «text mining» (анализа текстов). В настоящее время широкоераспространениенашлисистемыPubGene,применяющаяметодысовстречаемости biomedical terms (Jenssen et al, 2001), MedScan, основаннаяна грамматическом разборе естественно языкового текста (Nikitin et al, 2003).В Институте цитологии и генетики СО РАН разработана ANDSystem (смрис.
10), предназначенная для автоматического извлечения знаний о72взаимосвязяхмеждубелками,генами,метаболитами,микроРНК,клеточными компонентами, молекулярными процессами, их ассоциациях сзаболеваниями из текстов научных публикаций и баз данных (Demenkov et al,2012).Рисунок 10. Визуализация ассоциативной генетической сети (поDemenkov et al, 2012).С помощью этой системы реконструированы ассоциативные сети,связанные с процессами водно-солевого обмена и депонирования натрия(Larina et al, 2012), проведена реконструкция ассоциативных сетеймолекулярно-генетическихвзаимосвязеймеждубелками,генами,метаболитами и молекулярными процессами у больных с миопией,глаукомой(Podkolodnayaetal,2011),исердечно-сосудистымизаболеваниями (Sommer et al, 2010).731.4.5. Оценка индивидуального риска с помощью математическойстатистики.На протяжении многих лет метод χ2 в генетике был основным дляпроверки значимости отклонения от теоретически ожидаемого результата(Инге-Вечтомов, 2010).
Метод Хи-квадрат также активно используется вмедицинской генетике для подтверждения ассоциации генотипа с тем илииным заболеванием (Баранов, 2009). Это наиболее простой критерийпроверки значимости связи между двумя переменными. Величина Хиквадрат и уровень ее значимости зависят от общего числа наблюдений.Имеется одно существенное ограничение использования критерия Хиквадрат(кромеочевидногопредположенияослучайномвыборенаблюдений), которое состоит в том, что ожидаемые частоты не должныбыть очень малы (http://www.statsoft.ru/home/textbook/modules/stbasic.html).Проблему «малых» частот можно решить с помощью точного критерияФишера (http://omop.su/1651640.html).
Тест Фишера, может использоватьсянезависимо от особенностей выборки. Тест становится трудновычислимымдля больших выборок. Для ручных вычислений тест выполним только вслучае размерности факторных таблиц 2X2.Используя классические статистические подходы, такие как Хиквадрат и точный критерий Фишера исследователи осуществляют лишьпроверку соответствия полученных результатов нулевой гипотезе, но неоценивают «силу» зависимости. Для оценки вероятности таких событийиспользуют рассчет коэффициента соотношения шансов (OR - от англ. OddsRatio).OR – является мерой ассоциации, количественно определяющейвзаимосвязьмеждуфакторомриска(экспозицией,воздействием)ирезультирующим изменением здоровья (заболеванием) в ретроспективномисследовании (исследовании по типу «случай-контроль») (Горбунова, 2010).Одной из привлекательных особенностей OR является то, что если явление(болезнь) встречается редко, то OR приближается по значению к74относительномуинтерпретироватьриску.Темегокакнеменее,можноприближениеподсчитатьотносительногоORириска(http://www.pubhealth.spb.ru/EpidD/epidD2.htm).1.4.6.
Математическое моделирование признаков (заболеваний) человекана основе множественной информации.В большинстве случаев при использовании методов математическогомоделирования для оценки риска развития МФЗ фенотип рассматривают какбинарный или дискретный признак. Метод обработки данных такжесущественно зависит от типа параметров и от типа переменной отклика.Наиболее частые типы переменной отклика – числовая (непрерывная),факторная (бинарная или дискретная), время выживания (или возникновениякакого-либо состояния).
Параметры также могут быть непрерывные ифакторные.Однако, несмотря на всевозможные «ухищрения» методов статистики,важно отметить, что полную зависимость фенотипических признаков отгенотипаневозможноустановить,таккаконинеполностьюпредопределяются наследственными данными, а во многом зависят от среды,питания и других условий.Впрочем, традиционные методы анализа, к примеру, линейная модель,и не предполагают полной определенности, так как условное распределениепредиктора остаётся не точечным. Тоже самое, относится и к другимметодам анализа данных - нейронным сетям, MCMC (Марковские цепиМонте-Карло - Markov Chain Monte Carlo), мультигенным алгоритмам,теориии информации (Xu, Hu, 2010).1.4.6.1. Байесеновская модель.Байесовкийанализ-набирающаяпопулярностьметодология,представляющая альтернативу традиционному (или частотной вероятности)подходу.Байесовскаятеорияиспользуетсякакметодадаптации75существующих вероятностей к вновь полученным экспериментальнымданным (http://www.old.statsoft.ru; Zhang et al., 2011).Основное достоинство байесовской статистики заключается в том, чтоона может существенно удешевить клинические исследования, поскольку вкачестве контрольной группы она предполагает использование данных ранеепроведенных исследований.
5 февраля 2010 г американское Управление поконтролю за пищевыми продуктами и лекарствами (FDA) рекомендовалоприменение баейсковской модели статистического анализа для оценкиэффективностиибезопасностимедицинскихизделий(http://www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm071072.htm).Разница между байесовской и частотной интерпретацией играетважную роль в практической статистике. Например, при сравнении двухгипотез, полученных на одних и тех же данных, гипотеза, основанная начастотной интерпретации, позволяет или не позволяет опровергать этимодели.
Байесовские методы, напротив, в зависимости от входных данныхвыдают апостериорную вероятность адекватности для каждой из моделейгипотез(www.fda.gov/MedicalDevices/DeviceRegulationandGuidance/GuidanceDocuments/ucm071072.htm; Ferreira, Marchini, 2011). В настоящее время байесовскаямодель лежит в основе многих методов и решений, используемых дляисследования эпистаза (Ferreira, Marchini, 2011; Zhang et al., 2011)1.4.6.2. Множественное снижение размерности.Многие методы работают только с какими-то конкретными типамиданных. Так, метод многофакторного снижения размерности (MDR) работаетисключительно с бинарными откликом и факторными параметрами.
Онудобен для оценки генетической предрасположенности к МФЗ и уже нашелпрактическое применение (Gui et al., 2011; Заварин и др., 2011; Корытина,762012), но не пригоден для работы с непрерывными признаками, как рост, вес,артериальное давление.MDR «перебирает» все возможные комбинации параметров (поодному, по два, по три) и для каждой комбинации пытается построить свойклассификатор. Каждому сочетанию значений рассматриваемых параметровприписываетсяповышеннаяилипониженная,посравнениюспопуляционной, вероятность положительного отклика.