Диссертация (1144820), страница 12
Текст из файла (страница 12)
Критерием качестваявляется сбалансированная точность построенного классификатора. Дляустойчивости и избежания оверфиттинга в MDR обычно применяется кроссвалидация (обучение модели на одной части данных, а затем, валидация наоставшейся части). MDR выявляет наиболее значимую комбинациюпараметров и строит для неё классификатор (Heidema et al., 2006; Winham,Motsinger-Reif, 2011; Gui et al., 2011; Корытина, 2012).Данный метод, несмотря на некоторые его особенности, активноприменяется в исследованиях генетической предрасположенности. Так, вработе отечественных исследователей методом MDR было проведеномоделирование межгенных взаимодействий для нескольких маркеров припреэклампсии (Заварин и др., 2011).
Статистически значимой оказаласьтрехлокуснаякотораямодельобладаетGNB3/C825T×NOS3/Glu298Asp×NOS3/(-786T/C),100%-йвоспроизводимостьюи84,6%точностьюпредсказания (p=0,025). Данный результат является многообещающим, нотребует дальнейшего подтверждения.1.4.6.8. Линейная модель.Наиболее «гибким» методом математического моделирования являетсяобобщённая линейная модель (GLM). GLM – одна из самых изученныхмоделей со многими полезными свойствами.
Она обобщает такие известныемодели, как линейная регрессия, общая линейная модель, логистическаярегрессия, пуассоновская регрессия (McCullagh, Nelder, 1989).77В обобщённой линейной модели ожидаемое значение признака (иликакая-то функция этого значения) полагается линейно зависящей отнезависимых переменных. Для описания имеющейся выборки с помощьюобобщённой линейной модели необходимо подогнать коэффициентылинейнойзависимости.максимизироватьКоэффициентыфункциюподгоняютсяправдоподобия.Длятак,этогочтобыпользуютсяитеративным методом Фишера. Модель с наименьшим AIC является болеепредпочтительной.Выгодным отличием линейной модели является ее интуитивнаяпонятность и относительная простота работы с ней.
В отличие, например, отнейронной сети, процесс подгонки линейной модели гарантирует сходимостьк единственному глобальному оптимуму, причём сходимость эта достаточнобыстрая. Кроме того, в отличие от той же самой нейронной сети,коэффициентылинейноймоделилегкоинтерпретируемы.Наконец,предиктор линейной модели может быть вычислен, что называется,«вручную», без использования устройств, сложнее калькулятора. Все этифакторыделаютлинейнуюмодельнаиболеепривлекательнойдляпостроения «генетических моделей» различных заболеваний.Многие методы биостатистики представляют собой модификацииGLM.Например,методобобщённогомногофакторногосниженияразмерности (GMDR) комбинирует GLM с MDR и является одним изинтересных методов для решения медико-генетических задач. Однакопримеров применение этого метода в практике в настоящее время не много(Moore, Williams, 2009).Развиваются и методы, основанные на байесовской генерализованнойлинейной модели. Примером может служить использование данного подходадля предсказания риска развития колоректального рака (Yi et al., 2011).Модель адаптивного индекса (AIM) также является упрощением GLM,созданным специально для конструирования простых интуитивно понятныхцелочисленных индексов, подобных шкалам IPI и APGAR (Tian, Tibshirani,782011).
Несмотря на то, что последний индекс уже много десятилетийиспользуется медицинской практике для прогноза здоровья новорожденных,данный метод в других сферах биологии и медицины, в том числе и генетикемультифакториальных заболеваний, себя пока не нашел.1.4.6.4. Статистические интернет-ресурсы.На сегодняшний день в биологии и медицине при статистическойобработке данных часто используют различные ресурсы: программы, пакетыпрограмм и интернет-серверы.
Статистические интернет-ресурсы появилисьв генетике сравнительно недавно, но быстро завоевали популярность (Lvovset al., 2012). Эти ресурсы создавались для обработки больших массивовданных, таких как крупных международных проектов GWAS и некоторыхдругие. Наиболее известные среди них это сервер PLINK, разработанныйГарвардским университетом, MDR, BEAM, LogicReg, APSampler и другие(Lvovs et al., 2012).Сервер PLINK является наиболее широкоиспользуемым, позволяясравнивать различные данные, в том числе, результаты полигенныхисследований. В основе используемого подхода лежит метод линейнойрегрессии (см. 1.4.6.3). Данный метод работает только с биалелльнымилокусами, «нацелен» на GWAS данные, может количественно ранжироватьфенотип (например, сравнивать несколько степеней тяжести заболевания сконтрольной группой и между собой), работает с «пропущенными» данными,однако не позволяет проводить валидацию данных (Lvovs et al., 2012).В основе ресурса MDR лежит метод MDR (множественное снижениеразмерности) (см.
п.1.4.6.2). Это ресурс так же, как и ресурс PLINK,позволяетотображатьполученныерезультатыграфическиввидедендрограмы, и проводить их валидацию. Он не ограничен сравнениембиаллельных локусов, но не позволяет количественно ранжировать фенотип,не работает с «пропущенными» данными и не пригоден для обработкиданных GWAS (Lvovs et al., 2012).79Каждая из предложенных программ имеет свои преимущества инедостатки. Поэтому единственным и главным «мерилом» всех генетическихисследований мультифакторных заболеваний является предсказательная силапредлагаемой модели.1.4.7.
Предсказательная сила генетического тестирования.Существуют разные методы оценки предсказательной силы иликачества статистического теста. Необходимо выделить несколько из них. ЭтоипроверкаданныхложноположительныхсииспользованиемложноотрицательныхROC-кривых,результатов,ианализиоценкаспецифичности и чувствительности, и оценка клинической значимости теста.1.4.7.1. ROC кривые.ROC-кривая (англ. receiver operating characteristic, операционнаяхарактеристика приёмника) — график, позволяющий оценить качествобинарной классификации. Также известна как кривая ошибок. Анализклассификаций с применением ROC-кривых называется ROC-анализом(http://www.biometrica.tomsk.ru).количестваверноROC-криваяклассифицированныхпоказываетположительныхзависимостьпримеров отколичества неверно классифицированных отрицательных примеров.
Дляполучения численного значения клинической значимости теста, а также длясравнения двух тестов, используется показатель AUC (англ. area under ROCcurve, площадь под ROC-кривой). Судить о качестве теста можно поэкспертной шкале для значений AUC. Чем выше показатель AUC, темкачественнеенепригодностьклассификатор,выбранногопри этомметодазначение0,5классификациидемонстрирует(соответствуетслучайному гаданию) (http://www.biometrica.tomsk.ru).В работе Еи с коллегами (Yi et al., 2011) с помощью ROC-кривых былапроведена оценка качества предсказания риска колоректального рака,используя разные модели – от предсказания рака на основе данных о поле и80возрасте, до байесовской модели, включающей помимо пола и возраста,такие признаки, как «эффект главных генов», взаимодействие между полом игенами и эпистатические взаимодействия (см.
рис. 11). Наивысшее значениепоказателя AUC было получено для модели с учетом эпистаза, чтоподтверждает необходимость учета данного являения при построениимоделей для предсказания риска развития мультифакторных заболеваний (Yiet al., 2011).Рисунок 11. ROC-кривые для оценки риска колоректального рака наосновании четырех моделей: (1) возраст («age») и пол («sex») (сераянепрерывная), (2) возраст («age»), пол («sex») и «эффект» основных SNP(«main effects of SNPs») (серая прерывная), (3) возраст («age»), пол («sex»),«эффект» основных SNP («main effects of SNPs») и взаимодействие пол-ген(«sex–gene interactions») (черная непрерывная), и (4) возраст («age»), пол(«sex»), «эффект» основных SNP («main effects of SNPs»), взаимодействиепол-ген («sex–gene interactions») и эпистаз («epistatic interactions») (чернаяпрерывная).
Показатель AUC для моделей равен 0.79, 0.81, 0.82, и 0.87,соответственно (по Yi et al., 2011).811.4.7.2.Оценкаэффективностигенетическихисследованийкакдиагностических тестов.Основными критериями оценки любых тестов, в том числе и вмедицинской генетике, являются вычисление таких параметров, какчувствительность и специфичность (Власов, 2004).Чувствительностьспособности(вероятностьпроверяемогометодаистинного«позитива»)распознаватьналичие-мераболезни(вероятность положительного результата теста у пациентов с даннымзаболеванием). Чувствительность изменяется от 0 до 1 (в процентномотношении от 0% до 100%).
Таким образом, чем ближе полученная оценкачувствительности к 1, тем лучше проверяемый тест диагностирует наличиеболезни у пациентов (Власов, 2004).Специфичность - мера способности нового метода распознаватьотсутствие заболевания (вероятность отрицательного результата теста впопуляции без заболевания). Ее оценкой является доля лиц с отрицательнымрезультатом теста в выборке пациентов без изучаемого заболевания. Чемближе полученная оценка специфичности к 1, тем лучше проверяемый тестраспознает отсутствие болезни у пациентов (Власов, 2004).Как показала практика, для диагностических тестов не существуетминимально необходимой величины чувствительности или специфичности.Однако, если у теста высокая чувствительность, то по егоотрицательному результату можно надежно исключить подозреваемуюболезнь(Власов,вероятность2004).Припропуститьиспользовании такогобольных.Еслиутестатестамалавысокаяспецифичность, то его положительный результат дает основаниявключить подозреваемую болезнь в дальнейшую дифференциальнуюдиагностику (Власов, 2004).Несмотря на значимость оценки чувствительности и специфичности,они являются лишь операционными характеристиками теста и не отражаютвероятность наличия болезни после выполнения диагностического теста.