Диссертация (1140107), страница 9
Текст из файла (страница 9)
Итоговые значения α-разнообразия оценивали по финальной точке,сравнение проводили с использованием непараметрического t-теста при 9999перестановках. Различия считали значимыми при значении р<0.05.Длярасчетаиндексаβ-разнообразиязначенияпредставленностиоперационных таксономических единиц нормализовали при помощи алгоритмаCSS (J.N.Paulson et al, 2013). Затем применяли неметрическое многомерноешкалирование в трех измерениях с использованием специализированной метрикиweighted Unifrac, учитывающей при расчете дистанции между образцамитаксономическоеположениеоперационныхтаксономическихединиц(C.A.Lozupone et al, 2007).
Для определения достоверности попарного различиясообществ по составу микробиоты и вклада исследуемых заболеваний в данноеразличие использовался метод ANOSIM (ANalysis Of SIMilarity, рус. анализобщности) и непараметрический дисперсионный анализ (алгоритм Adonis) соценкой значимости при 9999 перестановках. Различия считали значимыми призначении р<0.05.2.2.3.2 Корреляционный анализ.Для оценки корреляционных связей между микроорганизмами, входящимив состав микробиотического сообщества, применялся пакет CoNet (K.Faust et al,442012) программного обеспечения CytoScape (P.Shannon et al, 2003).
Для всехвозможных пар микроорганизмов в каждой группе (экспериментальной иконтрольной) отдельно и для всех групп в совокупности рассчитываликорреляцию по методу Спирмена. Затем для всех пар микроорганизмов,соответствующих условиям: rho Спирмена > 0.5 (по модулю) и р<0.05, составлялиграф, вершинами которого являлись микроорганизмы, а ребрами корреляционныесвязи. Для каждого графа, рассчитывали значения коэффициента кластеризации,диаметр и радиус сети, среднее количество соседей, центральность попосредничествуиплотностьсиспользованиемвстроенныхалгоритмовпрограммного обеспечения CytoScape.2.2.3.3 Сравнительный анализ представленности операционных таксономическихединиц бактерий и реконструкция метаболических путей.Статистическийанализпроводилсясиспользованиемязыкапрограммирования R (R Core Team, 2016).
С учетом имеющихся различий повозрасту между группами пациентов, статистический анализ проводили с учетомвлияния возраста на состав микробиоты.Значенияпредставленностиоперационныхтаксономическихединицнормализовали по алгоритму CSS, затем агрегировали по таксономическимуровням (семейство, род, вид).
Для поиска различий использовалась модель fitZigпакета metagenomeSeq (J.N.Paulson et al, 2013) с добавлением ковариаты«возраст». Принцип действия алгоритма fitZig основан на применении линейногорегрессионного анализа; алгоритм скорректирован для работы с метагеномнымиданными.
При проверке статистических гипотез уровень альфа составил 0,05.Различия считали значимыми при значении р<0,05 после применения поправки намножественные сравнения по методу Бенджамини-Хохберга. Из-за особенностейметагеномных данных — большого количества нулевых значений, медиануприменять нерационально (для большинства наблюдений значение медианысоставит нуль), поэтому для представления данных использовалось среднее ±стандартное отклонение.45Метаболическая реконструкция функционального состава микробиотыотносительно путей синтеза витаминов и короткоцепочечных жирных кислотпроводилась с использованием сервиса knomics/biota (электронный доступ:https://biota.knomics.ru/).Визуализация, в том числе создание графиков и тепловых карт,выполнялась с использованием пакета ggplot2 (H.Wickham, 2010) языка R,визуализация корреляционных сетей выполнялась с использованием CytoScape,кривые α-разнообразия были построены с использованием встроенных средствпрограммного обеспечения QIIME.2.2.4 Методы машинного обучения.Дляразработкипрогностическоймодели,позволяющейпроводитьпредсказание о наличии болезни Паркинсона на основе таксономического составамикробиоты кишечника, использовались методы обучения по прецедентам.Обучение проходило в три этапа: отбор наиболее значимых признаков, обучениемоделей, проверка моделей на валидационной выборке.
Для более успешногосоздания прогностической модели образцы контрольной группы и группысравнения объединяли в одну группу, таким образом, полученный алгоритмдолжен успешно определять имеется ли у человека болезнь Паркинсона либо нет.2.2.4.1 Отбор наиболее значимых признаковДля успешного создания прогностической модели необходимо отобратьнаиболее дискриминирующие признаки, то есть те признаки, по которымразличия между группами максимальны.Отбор наиболее значимых признаков проводился в пакете caret (M.Kuhn,2008) языка программирования R с использованием алгоритма RFE (RecursiveFeature Elimination рус., рекурсивное исключение переменных).
Значимыепризнаки использовались в обучении классифицирующих моделей.462.2.4.2 Обучение классифицирующих моделейОбучение моделей проводилось с использованием пакета caret языка R. Вкачестве вариантов классифицирующих моделей рассматривали следующиеварианты:1) Обобщенная линейная модель;2) Метод частичных наименьших квадратов;3) Наивный байесовский классификатор;4) Искусственная нейронная сеть с сигмоидной активационной функцией;5) Машина опорных векторов с применением радиальной базисной функции.Перед обучением данные центрировали и шкалировали. Центрированиезаключаетсяввычитаниисреднегоарифметическогоиззначенияпредставленности бактерии у каждого пациента, а шкалирование состоит вделении полученного результата на стандартное отклонение.
Для контролякачестваобученияиспользовалисьпараметрыточность(числоверныхпредсказаний, деленное на общее число предсказаний) и каппа Коэна (оценкасогласованности классификации).Длясозданиякачественныхпредсказательныхмоделейнеобходимоисключать контроль переобучения алгоритмов классификации на данных, неиспользуемых в процессе обучения. С этой целью всю выборку разбили на двечасти: 147 образцов, составивших обучающую выборку, использовали дляобучения моделей, а 47 образцов (25% от общей выборки) составиливалидационную выборку, использовавшуюся для проверки качества получаемыхмоделей.
Образцы, входящие в состав той или иной выборки отбиралисьслучайно, пациенты экспериментальной и объединенной контрольной группыприсутствовали в обучающей и валидационной выборке в одинаковыхпропорциях. При проведении обучения использовалась 10-кратная кроссвалидация—обучающаявыборкатакжеразбиваласьнадвечасти:промежуточную обучающую и промежуточную валидационную, обучениемоделей с оценкой точности и каппы Коэна проводилось на каждом этапе.472.2.4.3 Валидация моделейПосле проведения обучения все модели проходили валидацию навалидационной выборке, которая заключалась в прогоне моделей на данных, неиспользованных при их обучении.
При валидации рассчитывали точностьклассификации,чувствительность(частноеотистинноположительныхрезультатов и общего числа предсказаний), специфичность (частное от истинноотрицательных результатов и общего числа предсказаний) и каппу Коэна.Оптимальнойпоказателями.признавалимодельснаиболеевысокимиизмеренными48ГЛАВА III. РЕЗУЛЬТАТЫ СОБСТВЕННЫХ ИССЛЕДОВАНИЙ3.1 Таксономическая композиция кишечной микробиоты у пациентов разныхгрупп3.1.1 Обобщенные результаты секвенированияВ рамках исследования были просеквенированы 192 образца микробиотыкишечника от 192 человек.
В результате секвенирования было получено всего8107881 операционных таксономических единиц (далее ОТЕ) бактерий и археев,принадлежащих к 13102 разновидностям. Минимальное содержание ОТЕ вобразце составило 1815 штук на образец, максимальное содержание — 162099штук на образец.
Медиана представленности ОТЕ в образце составила 39728.5штук на образец, среднее количество ОТЕ в образце 41793.201± 30367.207.Фракция ненулевых значений ОТЕ составила 0.09.3.1.2 Состав микробиоты кишечника на разных таксономических уровняхНа уровне типов (рис. 1) наиболее представленными таксонами вмикробиоте кишечника у пациентов контрольной группы оказались Firmicutes(80.2±5.9% от состава метагенома), Bacteroides (12.4±5.8% от состава метагенома),Actinobacteria (3.7±1.6% от состава метагенома) и Proteobacteria (2.6±1.9% отсостава метагенома). У пациентов, как с болезнью Паркинсона, так и с другиминеврологическими заболеваниями на уровне типов таксономический составмикробиоты оказался схожим с лицами контрольной группы.
Так, в микробиотепациентов с болезнью Паркинсона наиболее представлены типы Firmicutes(80.9±5.8% от метагенома), Bacteroides (10.1±4.1% от состава метагенома),Actinobacteria (3.9±1.5% от состава метагенома) и Proteobacteria (3.6±2.5% отсостава метагенома). В микробиоте пациентов с идиопатической семейнойдистонией наиболее представлены типы Firmicutes (85.5±3.3% от составаметагенома), Bacteroides (6.7±1.8% от состава метагенома), Actinobacteria(3.8±0.9% от состава метагенома) и Proteobacteria (2.5±1.4% от составаметагенома).
В микробиоте пациентов с эссенциальным тремором наиболее49представлены типы Firmicutes (80.6±5.8% от состава метагенома), Bacteroides(11.4±4.2% от состава метагенома), Actinobacteria (3.7±1.1% от составаметагенома) и Proteobacteria (3.1±2.8% от состава метагенома). В микробиотепациентов с рассеянным склерозом наиболее представлены типы Firmicutes(80.4±3.6% от состава метагенома), Bacteroides (10.3±4.1% от состава метагенома),Actinobacteria (4.4±1.6% от состава метагенома) и Proteobacteria (3.6±2.3% отсостава метагенома).50Рисунок 1 – тепловая карта представленности типов микроорганизмов в составемикробиоты кишечника.Синий цвет соответствует более низкой представленности типа, желтый цвет – более высокой.Черной полосой обозначены лица группы контроля, красной полосой – пациент с деменцией стельцами Леви, зеленой полосой – лица с болезнью Паркинсона, синей полосой – лица сидиопатической семейной дистонией, голубой полосой – пациенты с диагнозом эссенциальныйтремор, малиновой полосой – лица с диагнозом рассеянный склероз, желтой полосой – пациентс диагнозом множественная системная атрофия, серой полосой – пациент с диагнозом острыйрассеянный энцефаломиелит.
Данные логарифмированы по основанию 2.51На уровне классов (рис. 2) у лиц контрольной группы в микробиотепревалировалиClostridia(75.1±6.7%отсоставаметагенома),Bacteroidia(12.4±5.8% от состава метагенома), Bacilli (2.9±3.2% от состава метагенома),Erysipelotrichi (2.2±1% от состава метагенома), Coriobacteriia (2.2±0.9% от составаметагенома) и Gammaproteobacteria (1.8±1.7% от состава метагенома). Упациентов с болезнью Паркинсона наиболее распространенными в микробиотебыли Clostridia (75.9±6.3% от состава метагенома), Bacteroidia (10.2±4.1% отсоставаметагенома),Bacilli(2.9±1.6%отсоставаметагенома),Gammaproteobacteria (2.8±2.4% от состава метагенома), Coriobacteriia (2.3±1.0% отсостава метагенома) и Erysipelotrichi (2.0±0.8% от состава метагенома).