Диссертация (1144820), страница 27
Текст из файла (страница 27)
Обработка полученных данных.Анализ нуклеотидных вариаций проведили путем выравниваниянуклеотидных последовательностей против референсного генома hg19(Genome Reference Consortium GRCh37) (Lander et al., 2001), используяпрограммное средство bwa (Li et al., 2010), в результате чего были полученыфайлы в формате BAM. Дублирующие чтения были удалены с помощьюsamtools (Li et al., 2009). Предварительную обработку результатовсеквенирования проводили, используя программу для анализа нуклеотидныхпоследовательностей (http://www.ugene.unipro.ru) - «UGENE» (Okonechnikovet al., 2012) и базу данных Ensembl (http://www.ensembl.org). Далее поисквариантов проводили с помощью программного средства FreeBayes (Garrisonet al., 2012), при этом поиск осуществлялся совместно по всем образцам, ибыл составлен единый «vcf» файл (Danecek et al., 2011), включающийинформациюобовсехвыявленныхвариантах.Аннотированиеи«фильтрацию» вариантов осуществляли с помощью ресурса wANNOVAR(Wang et al., 2010; Chang et al., 2012) и интернет-ресурса «Gene-Talk»(http://www.gene-talk.de).
Статистические рассчеты проводили, используяPLINK (Purcell et al., 2007) и SnpSift (Cingolani et al., 2012). Функциональную166значимость выявленных замен проводили с помощью ресурсов Polyphen2(Kumar et al., 2009) и SIFT (Adzhubei et al., 2010).Анализ уровня микроРНК проводили, используя алгоритм CAP-miRSeq(Sun et al., 2014). В соответствии с этим выполняли следующие шаги:«обрезка» нуклеотидов низкого качества с 3’ конца; «обрезка» адаптеров сиспользованием программы «cutadapt» (Chen et al., 2014), удаление «чтений»,длина которых после «обрезки» составляет менее 17 нуклеотидов.
ПослеридыкартировалиисоотносилисбазойданныхмикроРНК(http://www.mirbase.org) - «miRBase» (Kozomara, Griffiths-Jones, 2011).Частоту встречаемости обнаруженных микроРНК оценивали с помощьюпротокола miRDeep2 (Friedlander et al., 2012). Анализ дифференциальнойэкспрессии между двумя группами образцов с различными фенотипамипроводится с помощью пакета edgeR» (Robinson et al., 2010). Предварительнодля каждого образца осуществляется нормализация значений экспрессииотносительносуммарногозначенияуровнямикроРНКвобразце.Статистически значимые отличия в уровне микроРНК принимали при pменьше 0,01.
Коррекцию p-значений при множественных сравненияхпроводили с помощью алгоритма FDR по методу Беньямини-Хохберга(Benjamini, Hochberg, 1995). Поиск генов - мишеней для найденныхмикроРНК осуществляли по базе данных для мишеней и экспрессии генов(http://www.microrna.org/microrna/home.do) - «miRanda» (John et al., 2004). Дляидентификации ассоциированных с микроРНК заболеваний использовалибазу данных «miR2Disease» (http://www.mir2disease.org) (Jiang et al., 2009).2.10.
Построение ассоциативных сетей.Для построения ассоциативных сетей использовали компьютернуюсистему «ANDSystem» (Demenkov et al, 2012) и «STRING» (Franceschini etal., 2013).Рассматривали следующие типы взаимоотношений:167–физическиевзаимодействиямеждубелками,белкамиинизкомолекулярными соединениями, белками и ДНК и др.;– биохимические процессы и реакции;– регуляция экспрессии генов, а также регуляция стабильности иактивности белков;– ассоциативные связи между белками, генами, низкомолекулярнымисоединениями и заболеваниями.Ассоциативныесетидлярассматриваемыхпарзаболеванийпредставляли собой графы, вершинами которых являлись заболевания ибелки/гены, а рёбрами - ассоциации между заболеваниями и белками.
Всего вбазе знаний «ANDCell» приведено 4075 заболеваний, из них 991 неассоциированы ни с одним из белков человека. Такие заболевания былиисключены из анализа. Визуализацию ассоциативных сетей осуществляли спомощью программы «ANDVisio».Расчёт «связности» ассоциативных сетей для пары заболеванийпроводили по следующим индексам: (1) I AB | A B | , равный размерупересечения множеств белков A и B, состоящему из белков, одновременноассоциированных с заболеваниями DA и DB; (2) «Jaccard index» (Jaccard,1912), расчитывался как отношение IAB к объединению множеств A и B,включающему белки, ассоциированные хотя бы с одним из заболеваний DA иDB, J AB M AB I AB; (3) «Meet/Min» (Goldberg, Roth, 2003) рассчитывался как| A B |I AB,min(| A |, | B |)гдевыражениевзнаменателеозначаетразмерминимального из множеств А и B.
Оценка статистической значимостистепени связности анализируемых пар заболеваний в ассоциативных сетяхпроводилась путём сравнения этих сетей с ассоциативными сетями случайновыбранных заболеваний.Оценкастатистическойзначимости«связности»ассоциативныхмолекулярно-генетических сетей, построенных для пар заболеваний, также168проводилась с помощью их сравнения со случайными сетями. При этом длякаждой анализируемой ассоциативной сети проводилась генерация 1000случайных сетей с использованием «ANDSystem» (рассматривались толькобелки/гены человека). Статистическая значимость отличия связностианализируемой сети от связности случайных молекулярно-генетическихсетей оценивалась так же, как и в случае асооциативных сетей, как доляслучайных сетей, имеющих такое же или большее число связей междувершинами, по сравнению с числом связей в анализируемой сети.
Случайныемолекулярно-генетические сети строились с использованием следующихправил: из базы знаний «ANDCell», случайным образом выбиралибелки/гены, рассматриваемые как вершины случайных сетей. Для того чтобыв случайных сетях были представлены белки/гены с уровнем изученностимаксимально близким анализируемым сетям, при выборе белков/генов вкачествевершинвслучайныхсетях,проверяликоличествоихвзаимодействий с другими белками/генами в базе «ANDCell». Для каждой ith вершины анализируемой сети формировалось множество Qi, состоящее извсех белков/генов базы знаний «ANDCell», имеющих число взаимодействийв базе знаний «ANDCell», равное числу взаимодействий белка/гена в этойбазе знаний, представленного i-th вершиной. Выбор белка/гена для i-thвершины случайной сети осуществлялся случайным образом (bychance) измножества Qi.
Связи между вершинами в случайных сетях задавалисьсогласно взаимодействиям, описанным в базе знаний «ANDCell».Всеавтоматическиреконструированныеассоциативныесетиподвергались экспертной проверке для устранения ошибок, возникающихпри распознавании имён белков/генов и заболеваний, а также устраненияошибочно установленных взаимодействий.Для оценки сверхпредставленности биологических процессов длярассматриваемых наборов белков/генов использовался инструмент BiNGO(Maere et al., 2005). В качестве параметров был выбран «Hyper geo metrictest»и«Benjamini&HochbergFDRcorrection».Сверхпредставленные169биологические процессы GO дополнительно к статистической значимостисверхпредставленностихарактеризовалисьстепеньюсвязанности(«connectivity rate» (CR) соответствующих белков/генов, в ассоциативноймолекулярно-генетической сети, построенной для пересечения четырёхизучаемых заболеваний. CR для группы белков, рассматриваемой сети,участвующихвсверхпредставленномбиологическомпроцессеGO,рассчитывался как отношение числа связанных по сети пар белков даннойгруппы к числу всевозможных попарных комбинаций белков из этой группы.2.11.
Статистическая обработка данных.Проверку количественных показателей выборок на нормальностьпроводили согласно критерию Шапиро-Уилка. Сравнение выборок поколичественным показателям осуществляли с помощью U-критерия МаннаУитни. Для анализа корреляции между генотипами и параметрамивычисляли коэффициент корреляции Спирмена.Проверкусоответствияраспределениякомбинацииаллелейожидаемому проводили методом 2. При сравнении результатов по частотамаллелей также использовали критерий 2.
Критический уровень значимостидля отрицания нулевой гипотезы принимали равным 0,05. Коррекцию pзначений при множественных сравнениях проводили с помощью алгоритмаFDR по методу Беньямини-Хохберга (Benjamini, Hochberg, 1995).Силу ассоциаций с риском развития заболевания оценивали взначениях показателя соотношения шансов (odds ratio, OR) (Реброва, 2002),для которого рассчитывали 95% доверительный интервал (ДИ). При OR=1 ассоциацию не рассматривали; OR>1 - рассматривали как положительнуюассоциацию («фактор повышенного риска») и OR<1 - как отрицательнуюассоциацию («фактор пониженного риска»).