Диссертация (1174324), страница 14
Текст из файла (страница 14)
В процессе пошагового включения регрессионнаяфункция строилась на основе одной наиболее значимой переменной, а затем, помере добавления оставшихся предикторов, оценивали воздействие каждого из нихна модель. Уровни значимости для включения переменных проверялись на основеотношения функций правдоподобия моделей[6, 95]. Ручная модификацияосуществлялась с помощью добавления или замены предикторов, отобранныхалгоритмом, на переменные из тех же групп согласно главе 2.3. Для полученныхрегрессионныхфункцийпроверялисьдополнительныевозможностипо79улучшениюкачествамодифицированные:прогноза,спомощьюнапример,заменалогарифмированияпеременныхилинаприведенияколичественных переменных к категориальным путем деления на интервалызначений.
Во все регрессионные функции включалась константа [95].Все курсы химиотерапии, включенные в ретроспективную выборкуисследования, было необходимо разделить на две части: обучающую, на которойстроились регрессионные функции для прогноза каждого вида миелотоксическихосложнений, и контрольную, которая использовалась только для тестированиясозданных функций. Вследствие того, что химиотерапевтическое лечение – этодлительный процесс, занимающий от нескольких месяцев до нескольких лет, вретроспективную выборку данных для большинства пациентов вошло несколькокурсов химиотерапии (детальные данные приведены в Таблица 4 раздела 2.2).Таким образом, обучающую часть ретроспективной выборки для проведенияанализа с помощью бинарной логистической регрессии можно было сформироватьдвумя способами:1.«Строго один курс на каждого пациента» – случайно выбрать ровно одинкурс химиотерапии из нескольких, имеющихся у каждого пациента вретроспективной выборке.
Объем обучающий выборки будет равен 3084курсам ХТ по количеству пациентов в ней и составит только 21% от всегообъема ретроспективной выборки, что может негативно повлиять напрогностические качества полученных регрессионных функций;2.«Несколько курсов на одного пациента» – допустить наличие в обучающейвыборке несколько курсов химиотерапии на одного пациента. Объемслучайно сформированной обучающей выборки можно увеличить болеечем в 3 раза до 70% от всей ретроспективной выборки (10325 курсов ХТ из14884). В этом случае присутствие частично связанных наблюдений можетповлиять на корректность регрессионного анализа и его результатов.В третье редакции своего издания Applied Logistic Regression (2013 г., с. 314)авторы D.W.Hosmer jr. и S.A.Lemeshow при схожей клинической задаче (680измерений на одного пациента в течение года) допускают с некоторымиоговорками анализ частично связанных наблюдений в обычном алгоритмелогистического регрессионного анализа, рекомендуя ввести номер измерения, какеще одну переменную [95].Учитывая, что медиана и интерквартильный размах для количествапроведенных курсов химиотерапии у пациентов в ретроспективной выборке равны3 и (1,5); размеры кластеров частично связанных курсов у 3/4 пациентов непревысят 0,05% от размера выборки (5/10325), что сопоставимо с долей одногонаблюдения 0,03% при отборе только одного курса на пациента (1/3024).Частично связанные наблюдения нарушают предположения регрессионногоанализа о независимости наблюдений, что, как правило, приводит к ошибкампервого рода при включении переменных в уравнение (алгоритм расчетакоэффициентов регрессии выполняется без учета взаимосвязи и получаетзавышенные оценки статистической значимости за счет присутствия некоторогоколичества схожих между собой наблюдений).
Для исключения подобнойпроблемы в исследовании была предусмотрена дополнительная контрольнаявыборка 2014-2015 гг., собранная после ретроспективной и предназначенная дляпроверки созданной модели перед ее внедрением и началом опытной эксплуатации.С учетом низкой распространенности тяжелой миелотоксичности в разрезеотдельных курсов лечения, как представлено в Таблица 20 раздела 3.2, было важноизбежать недостаточного обучения модели, в результате которого она могла плохоклассифицировать новые данные.
Поэтому были конкурентно рассмотрены обаспособа формирования обучающей выборки. На базе отобранных в пошаговоманализе предикторов оценивалось качество классификации на 100 случайныхобучающих выборках, полученных как выбором ровно одного курса на каждогопациента, так и случайным выделением 70% от всех курсов химиотерапии.Оценка прогностических качеств полученных регрессионных функцийпроизводилась с помощью показателя площади под ROC-кривой (AUROC),представляющим собойинтегральную характеристику качества бинарной81классификации при всех возможных уровнях чувствительности и специфичностивне зависимости от выбора порогового значения [89].
Каждая отдельная точкаданной кривой демонстрирует значения чувствительности и специфичности приодном из возможных пороговых значений регрессионной функции.Дискриминационнаяспособностьрегрессионнойфункциисчитаетсяидеальной (чувствительность и специфичность равные 100%) при площади подграфиком ROC-кривой равной 1,000; высокой – при значении AUROC выше 0,900;достаточной – при значении AUROC в интервале от 0,800 до 0,899, приемлемой –при значениях AUROC от 0,700 до 0,799 [16, 32, 50].Сравнениеизмененийдискриминационнойспособностиотдельныхрегрессионных функций между собой осуществлялось с помощью z-критерия,также основанном на методике сравнения площадей под ROC-кривыми [81, 90].Определениеитоговойточкиразделения(пороговогозначениярегрессионных функций) выполнялось таким образом, чтобы обеспечитьмаксимальную сумму чувствительности и специфичности для полученнойрегрессионной функции.
При наличии нескольких значений с близкими кмаксимальному показателями суммы чувствительности и специфичности,выбиралисьточкиотсечения,обеспечивающиемаксимальныйуровеньчувствительности [6, 32].Для полученных регрессионных функций также оценивались характеристикиточности их прогноза: чувствительность и специфичность. Их определенияприведены ниже [32]:Чувствительность (Se) – доля положительных результатов, которыеправильно идентифицированы тестом как таковые. В контексте даннойработы: доля курсов химиотерапии с верно предсказанным развитиеммиелотоксического осложнения (значение целевой переменной равное 1)средикурсовхимиотерапии,миелотоксическоедляосложнениегематологического исследования.которыхпобылоданнымзафиксированоконтрольного82Специфичность (Sp) – доля отрицательных результатов, которыеправильно идентифицированы тестом как таковые. В контексте даннойработы: доля курсов химиотерапии с верно предсказанным отсутствиеммиелотоксического осложнения (значение целевой переменной равное 0)среди курсов химиотерапии, не осложненных по данным контрольногогематологического исследования.Для полученных регрессионных функций оценивались еще несколькохарактеристик классификации, являющихся дополнительными к чувствительностии специфичности и сильно зависящих от показателя распространенностимиелотоксического осложнения (Р), представляющего собой долю всех курсовхимиотерапии с зафиксированным по данным контрольного обследованиямиелотоксическим осложнением от общего количества курсов химиотерапии ввыборке [32, 42]:Прогностическая ценность положительного результата (ПЦПР) – доляположительных результатов, которые правильно идентифицированытестом как таковые, от всех положительных результатов теста.
В контекстеданной работы: доля курсов химиотерапии с верно предсказаннымразвитием миелотоксического осложнения (значение целевой переменнойравное 1) среди всех курсов химиотерапии, для которых было предсказаноразвитием миелотоксического осложнения.С распространённостью (Р), чувствительностью (Se) и специфичностью(Sp),данныйпоказательсвязанследующимобразом:ПЦПР = (Se*Р) / ( Se*Р + (1-Sp)*(1-Р) ) [42]Прогностическая ценность отрицательного результата (ПЦОР) – доляотрицательных результатов, которые правильно идентифицированытестом как таковые, от всех отрицательных результатов теста. В контекстеданной работы: доля курсов химиотерапии с верно предсказаннымотсутствиеммиелотоксическогоосложнения(значениецелевой83переменной равное 0) среди всех курсов химиотерапии, для которых былопредсказано отсутствие миелотоксического осложнения.С распространённостью (Р), чувствительностью (Se) и специфичностью(Sp),данныйпоказательсвязанследующимобразом:ПЦОР = ( Sp*(1-Р) ) / ( ( 1-Se)*Р + Sp*(1-Р) ) [42]В отличие от чувствительности и специфичности показатели ПЦОР и ПЦПРсильно зависят от распространенности (Р) токсических осложнений в выборке,которая в свою очередь выражается как отношение осложненных курсов к ихобщему числу.