Диссертация (1140107), страница 18
Текст из файла (страница 18)
32).111Таблица 11. Различия в содержании микроорганизмов на уровне родов, использованныедля создания классифицирующих моделейРодОбразцов, Образцов, ОТЕ,БПконтроль БПBulleidia3311145Staphylococcus311579Succinivibrio3416203Yokenella4422228Cloacibacillus4412193Desulfovibrio5536364p-75-a54015152Acetanaerobacterium30550Enterococcus8862893Christensenella94852460Sphingomonas4512106Papillibacter6337310Oxalobacter4823149Anaerococcus15944Methanobrevibacter7640443Catabacter8061851Leuconostoc5636202Atopobium5536123Fusicatenibacter91951523Положительные значения logFC свидетельствуют опациентов объединенной контрольной группыОТЕ,logFC p-значенияконтроль44-1,107 0,0004433-0,940 0,00001100-0,863 0,0142854-0,779 0,0128564-0,745 0,01285153-0,661 0,0128548-0,649 0,0229613-0,643 0,00294447-0,619 0,032851140-0,597 0,0380336-0,578 0,01285134-0,542 0,0357169-0,541 0,0346218-0,538 0,02296179-0,532 0,01285381-0,488 0,0469098-0,466 0,0342172-0,333 0,0469019190,7260,03421повышении содержания ОТЕ уОбразцов, БП – количество пациентов с болезнью Паркинсона, имеющих данную ОТЕ всоставе кишечной микробиоты; образцов, контроль – количество пациентов контрольнойгруппы, имеющих данную ОТЕ в составе кишечной микробиоты; ОТЕ, БП – количествопрочтений данной ОТЕ в группе пациентов с болезнью Паркинсона; ОТЕ, контроль –количество прочтений данной ОТЕ в контрольной группе; logFC – кратность различия впредставленности ОТЕ, логарифмирована по основанию 2; p-значения приведены с поправкойна множественное сравнение по Бенджамини-Хохбергу.112Рисунок 31.
Кривая зависимости точности предсказания от числа переменныхКружками на кривой отмечены различные варианты классификации в зависимости от числавключенных признаков, закрашенным кружком, обведенным красным, отмечен оптимальныйвариант.Таблица 12. Рекурсивный отбор переменных для создания классифицирующих моделей.Количество переменных1234567891011121314 – выбранная модель1516171819Точность±ст.отклонение0,5403±0,09920,6764±0,10850,7002±0,08480,6949±0,09450,7048±0,08200,7236±0,10260,7306±0,10050,7374±0,10050,7389±0,09220,7338±0,08070,7343±0,08430,7616±0,08050,7719±0,08440,7721±0,08660,7631±0,09030,7581±0,08740,7713±0,09230,7647±0,08770,7647±0,0915Каппа±ст.отклонение0,0797±0,19720,3517±0,21770,4014±0,16870,3902±0,18850,4103±0,16420,4476±0,20550,4618±0,20110,4754±0,20040,4788±0,18310,4684±0,16020,4687±0,16860,5239±0,16000,5446±0,16810,5452±0,17210,5269±0,17940,5171±0,17300,5432±0,18330,5298±0,17460,5300±0,1820113Рисунок 32. Кривые распределения плотности представленности бактериальных родов изперечня переменных, использовавшихся для создания классифицирующих моделей.Синим цветом отмечены кривые, соответствующие распределению представленности бактерийвэкспериментальнойгруппе,розовымцветомотмеченыкривые,соответствующиераспределению представленности бактерий в объединенной контрольной группе.
Синимипалочками по оси абсцисс отмечено содержание бактерий в образцах экспериментальнойгруппы, розовыми палочками — в образцах объединенной контрольной группы.3.2.2 Обучение классифицирующих моделейДля создания классификаторов использовали метод частичных наименьшихквадратов (далее PLS), наивный байесовский классификатор (далее NB),обобщенную линейную модель (далее GLM), однослойную искусственнуюнейронную сеть с сигмоидной активационной функцией (далее NNET) и машинуопорных векторов с применением радиальной базисной функции (далее SVM).В результате проведения обучения PLS на обучающей выборке обнаружено,что наибольшей точностью обладает вариант классификатора с использованиемтолько первой главной компоненты.
Медиана точности классификации составила11473%, средняя точность 76% (таб. 13, рис. 33, 34) при медиане каппы Коэна 0.46 исредней каппы Коэна 0.52 (таб. 14, рис. 33, 35). При обучении алгоритма NBмедиана точности классификации при оптимальных параметрах (использованиеядерной оценки плотности для определения плотности распределения величин)составила 79%, средняя точность классификации 76% (таб. 13, рис. 33, 34) примедиане каппы Коэна 0.57 и ее среднем значении 0.51 (таб. 14, рис.
33, 35). Прииспользовании обобщенной линейной модели медиана точности классификациисоставила 74%, средняя точность классификации 72% (таб. 13, рис. 33, 34) примедиане каппы Коэна 0.48 и ее среднем значении 0.44 (таб. 14, рис.
33, 35).Нейронная сеть оптимальной структуры (один слой, содержащий один нейрон)позволила осуществить классификацию пациентов со средней точностью 75% имедианой точности 73% (таб. 13, рис. 33, 34) при среднем значении каппы Коэна0.50 и ее медиане 0.46 (таб. 14, рис. 33, 35). Медиана точности классификации сиспользованием SVM с оптимальными параметрами: сигма равным 0.144 и тауравным 16, составила 79%, средняя точность составила 77% (таб.
13, рис. 33, 34),при значении медианы каппы Коэна 0.57 и средней каппы Коэна 0.55 (таб. 14, рис.33, 35).Таблица 13. Результаты обучения моделей. Точность классификации.Классификатор\точностьPLSSVMNBNNETGLMМинимум0,50,57140,50,56250,3333Первыйквартиль0,71430,71430,7190,71430,6295Медиана0,73330,78570,78570,73330,7417Среднее Третийквартиль0,76020,86430,77320,86670,75590,8460,74920,8460,71910,8429Максимум0,93330,92860,93330,92860,9333Таблица 14. Результаты обучения моделей.
Каппа Коэна.Классификатор\каппа КоэнаPLSSVMNBNNETGLMМинимум00,142900,125-0,3636Первыйквартиль0,42860,42860,43250,42860,2589Медиана Среднее0,46430,57140,57140,46430,48210,51790,55090,50860,49780,4373Третийквартиль0,7240,73210,6920,6920,6879Максимум0,86730,85710,86730,85710,8673115Рисунок 33 – медианы точности классификации и каппы Коэна.Черной точкой на графике отмечены медианы, границы ящиков показывают первый и третийквартиль, длина усов равна 1,5 длины межквартильного размаха, не закрашенными точкамиотмечены выбросы.Рисунок 34 – средние значения точности классификации.Точкой на графике отмечены медианы, усами отмечены значения доверительного интервала.116Рисунок 35 – средние значения каппы Коэна.Точкой на графике отмечены медианы, усами отмечены значения доверительного интервала.Послепроведенияобучениявсеклассификаторыпроверялинавалидационной выборке, оценивая точность классификации, чувствительность,специфичность и каппу Коэна (таб.
15). В результате было обнаружено, чтонаиболеевысокойчувствительноститочностьюиклассификацииспецифичности,приобладалоптимальномнаивныйбалансебайесовскийклассификатор (точность 91.49%, чувствительность 91.30%, специфичность91.67%). Классификатор, основанный на машине опорных векторов, при наиболеевысоком значении чувствительности на валидационной выборке обладалдостаточно низкой специфичностью классификации и, соответственно, меньшейитоговой точностью классификации (точность 82.98%, чувствительность 100.00%,специфичность 66.67%). Классификаторы, основанные на применении методачастичных наименьших квадратов и однослойной нейронной сети, показалиодинаковую точность классификации в 76.60%, при этом ANN характеризоваласьболее высокой чувствительностью, но меньшей специфичностью по сравнению сPLS (чувствительность 69.57% и 65.22, специфичность 83.33% и 87.5%117соответственно).
Модель, основанная на применении обобщенной линейноймодели, оказалась наименее подходящей для классификации пациентов на основесостава кишечной микробиоты (точность 63.83%, чувствительность 65.22%,специфичность 62.50%).Таблица 15. Результаты проверки классифицирующих моделей на валидационнойвыборке.МодельNBSVMPLSNNETGLMТочность, % (ДИ95%)91,49 (79,62; 97,63)82,98 (69,19; 92,35)76,6 (61,97; 87,7)76,6 (61,97; 87,7)63,83 (48,52; 77,33)Каппа Коэна Чувствительность, % Специфичность, %0,82970,66190,52960,53040,276991,30100,0065,2269,5765,2291,6766,6787,5083,3362,50Таким образом, наиболее оптимальной моделью для классификациипациентов по признаку наличия болезни Паркинсона на основе данных о составекишечноймикробиотыMethanobrevibacter,микроорганизмов(родовLeuconostoc,Enterococcus,Christensenella,Catabacter,Desulfovibrio,Sphingomonas, Yokenella, Atopobium, Fusicatenibacter, Cloacibacillus, Bulleidia,иAcetanaerobacteriumявляетсяStaphylococcus)наивныйбайесовскийклассификатор.В ранее проведенных исследованиях было показано, что таксономическийсостав микробиоты кишечника может быть потенциально использован длядиагностики болезни Паркинсона (F.Scheperjans et al, 2015; F.Hopfner et al, 2017;J.R.Bedarf et al, 2017).
Известные классификаторы в целом характеризуютсядостаточно высокой специфичностью, до 90%, однако низкой чувствительностью,достигающей66,7%лишьтолькоприиспользованиидополнительныхклинических маркеров, таких как шкала констипации Векснера, что ограничиваетприменение их в реальной практике без доработки.Вкачествеклассифицирующихалгоритмоввранеепроведенныхисследованиях были использованы такие подходы, как обобщенная линейнаямодель и ROC-анализ. Однако, в случае отсутствия линейной разделимостиданные подходы дают плохое качество предсказания. Кроме того, во всех118предыдущих работах подгонка и проверка алгоритмов проводилась на одной итой же выборке, что приводит к так называемому переобучению — завышениюпараметровкачества(точности,чувствительности,специфичности)классификации (K.K.Dobbin and R.M.Simon, 2011). Ввиду сложной структурыметагеномных данных, наличие валидационной выборки для проверки качестваклассификации особенно важно (E.Pasolli et al, 2016).В ходе нашего исследования впервые проведена оценка точностиклассификации пациентов по составу кишечной микробиоты относительноболезни Паркинсона на валидационной выборке.
Полученные нами оценкичувствительности классификации пациентов варьировали от 65,22% до 100%,специфичностиот62,50%до91,67%.Минимальнымипараметрамихарактеризовалась обобщенная линейная модель — в данном случае наблюдаетсяотсутствие линейной разделимости классов, что ограничивает эффективностьданного алгоритма. Более высокой точностью обладили регрессия методомчастичных наименьших квадратов, нейронная сеть и машина опорных векторов.Эти алгоритмы, в частности нейронная сеть, требуют больших объемов выборкидля поиска сложных закономерностей в данных, по этой причине на имеющихсяданных их точность оказалась недостаточна.Достаточно интересен тот факт, то оптимальные параметры классификации(чувствительность 91,30%, специфичность 91,67% при точности в 91,49%) былиполучены с использованием технически простого наивного байесовскогоклассификатора с ядерной оценкой плотности распределения.