Налимов В.В. - Теория эксперимента (1062946), страница 23
Текст из файла (страница 23)
Рассмотрим в качество примера один из методов кластер-анализа, относящийся к информационно-поисковой службе в химии. Речь будет идти о методе, разработанном английской химической фирмой «Империал Кемикл Индастри лимитед« (11прегйа! С[5еш1са! 1Ийпз|гу Е16) для установлеяпя корреляции между химической структурой вещества и его биологической активностью [62!. Хорошо известно, что во многих странах сейчас иптенсивно ведется поиск биологически активных препаратов.
Задача распадается на две части: поиск или синтозирование препаратов и их оиологическое испытание (о планировании экспериментов при испытании биологичоской активности мы расскажем в гл. 1У, см. стр. 171). Вторая часть задачи значительно более трудоемка, чем первая. Поэтому возникает необходимость в предварительной классификации химических препаратов. Это, в свою очередь, также не простая задача.
В упомянутой вь1ше химической фирме хранится информация о 50 000 препаратов; она закодирована следующим образом по 300 прпанакам, характеризующим структуру молекулы: Иифориацип по иа5идому призиаиу Признаки 108 11кьтоды, ОСНОВА1!НЬГГГ НА 111>ь'чьлнпьл РАССНГГНЯЯ 1'л. >11 Здесь л!а улнзывает иа иалкчне призннка, а 101 нн его отсу!стане.
'!'аким образом, свойства препарата Гьь!>ГГГГ>ьть я точкой в,'500-мерном пространстве. Сначала ялньмотрим, как мои!но было бы провел"ги кластер-анализ в астрономии, где положопно контра знсздь т н звезды задается точкой в трехмерном пространстве. Эдеь ь можно поступить так: по очереди считать каждую звезду началом отсчета, измерять от нее рнсстоянио до всех сосодких авезд и кластером считать таку!о минкмалюлу о Гф сферу, в которую попадает некое, зарнное заданное число звозд. Центр тяжости множества этих звезд будет задавать поло- кение кластера. !1римерно так же поступают и при классификжцьи химических препаратов.
Здесь только вводят небольшую модификацило, рассматривая двн множества препаратов: одно из них обследуемое, другое — эталонное, заведомо облада!ощее активностью. Эталонные пролиьраты по очереди считают началом отсчета и затем строят кластер, используя споциально придуманный кластор-индекс !для ограничения радиуса кластера).
Кластер-индекс базнруегся на статистической модели, в которой принимается гипотоза независимого распределения признаков по препаратам и испо>ььзуютсл такие понятия, как нуль-гипотеза, уровни значимости, функция распределения кластеризации и пр, Мы не будем здось останавливаться на деталях этой модели, поскольку она носы очень частный характер. Для каждого кластера ЭВМ выдаат число компонент кластера, их наименования и координаты центра тяжести кластера.
Вот пример записи результатоп но одному из признаков: Чие.ьо нонн»кент в кластере Э Номер ко»моменты н з а ел Р Гь и ' 3 907 31 839 8308 4327 8346 монрннннтьь ць нтрн тнжнсл н нлантерн .11 = Г,ОО .Ль- и Нь=0,30 .1! —. Π— О 1,ОО .Гн ==0 $ л! и»у*1!и!ик ГГГОГГГлссОГ>, 11роткь Ающих 1»ь вькмкпьь л09 Координаты центра тяжести отчетливо показывают, какие свойства молекулль задает даикып класгер. В рассматриваемой раооте приводится пример, в котором 15 000 неактивных препаратов сравннвалось с 200 активными препаратами, служащими глютнвными частями лекарств, постушпощпх в продажу, Материал продварительно коднровнлся но Э4 прн»какам, хырньллчрп»ующим структуру молекулы.
Ось>Гьенььь> иптереспым и поожндапныч оказался один кластер, оп!>еделяьощав с!руктура которого рапса никог, а но использовалась. В этот кластер входил 01 пропарнт, из пих в дььльнг!ГГГГоаь 41 бнць клнслнфьпрьроюьп кнк активный. Кластер-анализ, по-видимому, сейчас находится ещо в начальной, но улье иптенсивпо>1 стадии развития. Заканчивая настоящий параграф, хочется поставить один вопрос: какой физический смььсл имеют результаты классификационного пллл дискрпминантпого анализа? Можно ли приписывать реальное значение том совокупностям, которые оказываются выделонпымп в рену>ьььате применения методов, описанных в данном и предыдущем параграфах.
Этот вопрос особенно волнует биологов— специалистов по морфологии и теории Гьвьь>ььоц!Ги, Оп имеет и общефилософский смысл. Мы но можем здось останавливаться па анализе этой проблемы и отсылаем любознательных читателей к очень интороспой статье Любищева [1141, в которой опа рассматривается с общефилос<>фских позиции; там проводится сопоставление 16 критериов реальности. й 4. !!»учение щьоцггл оп, Гдьотежнощнх во вретенп До сих пор мы Ограничивались рнгсмотроьплом лищь статических задач — продколагнлось, что нзучномня пнмлл система но измонньпгя во вромопи. Если н»тн задачи и входило время, то оно рассматривалось на равных правах с другими факторами.
Сейчас мы перейдем и обсуждению болео сложных ситуаций, в когорых состояние всей изучаемой сис!емы изменяется во времени. !1а самомдене, конечно, любой зксперимект протекает во вромгпк. !!о оььачпо Г,~ Гжь;четы делан>гся и ре» гтнлн Гмьль»нн! кром!,кусни ПО МКТОДЫ, ОСНОВАННЫК НА ПЗУЧГНИК РАССКННИЯ <ГЛ. 111 времени, ч<о резульшты послед< пател<,ныл наб<нодений оказыва<отся векоррелнровапкымк, и тогда, естоственно, можно огранич<ггься традиционньа<и моделями математической статистики, не вкл!очающими временных соотно<пений, Однако положение дел < ущественно изменяется по мере того, как экспериментатор начинает кереход<ггь от дискретной регистрации, разделенной болывими промежутками времени, к непрорывпой и представляет свои измерения регистрограммэмн.
С рогистрогрпл<мы можно считать точки, располо кеншдо д<н"шточпо бдкз<.о друг к другу, н т<шда опы оказывшотся коррелкровапкымк. <йы вправе рассматривать регистрограмму как реализа цию случайпай фу!<к<)ии, плп, ч<о то же самое, как реализацию случайного про<<геев. Корреляция результатов наблюдений может появиться, конечно, и в ситуациях, когда наблюдения упорядо !ивают не по временноп, а, скажем, по пространственной шкале. Если, наиример, измерять сопротивление образца полупроводникового материала, двигаясь последовательно, с небольшим шагом, по его длине, то мы также получим коррелированную последовательность наблюдений. Таким образом, появляется необходимость перейти от изучения случайных величии, поведение которь<х не изменяется во времени, к изучони<о случайных функций. Повидимому, по море развития экспериментальной техники исследователю асе чаще к чаще придется обращать< я к изучению случайных процессов.
Теория случайных процессов долгое время развнва<шсь как чисто математическая дисциплина. Лишь совсем недавно — лет 15 тому назад — стала создаваться новая ветвь этой дисциплины, направленная на анализ реально наблюдаемых процессов. Итак, будем считать последовательность результатов набл<одений, упорядоченну!о ио покоторому параметру <, роализзцией слу<айного нроцосса, Следуя 1'удмзну (63), рассмотрим дискретпу<о модель процесса, которая задается фурье-разложением по конечному числу частот Х(') =2~ (а)сок<э,<, 11)ч<п<,<,а), < <в<и<' НО вгкмкни 1<< ! <) ИЗУЧКНИВ ПРОПГССОВ, ПРОТ: ! цектрирос двсиер 1 (1 -= 1, 2,..., 1,) — независимые, и й ванные, о; н рмально раснредоленн п сией ') я л нк ней частоты ю.
Оту функ Ди<иерси51 О, явл5штся ту П ' " ' стота есса или, если часто б ем называть спек<ирам проц акга алькой и <01лкасшью е" шР неи е ывко, спектра Пользуясь простым алгебраическим пр, легко показать сп„в, . !раведливость соотношения 1 М (Х (1,' т) Х (<)) —,<1( г) .:=-,~ с< со ю;т, 1 — 1 ( ) — автокорролационная функ < °: у ! кп сл чайного про() и < .
н й,„унк ии оире- Х (1). О инаты автокорреляционно,„у ц х отсчетов с ределяк<т степ , ень статистической связи дву пу на расстоянии э) т. гистрограммы, отстоящих дру на а готд га на а пего 1 еля ионная функция для на<и есса Х(<) не зависит от начала отсчета — о процесса,, не з жду теми двумя точками, аотся расстоянием т меж, у чайного процесса Х е н н ых оп едоля<отся ордкнаты слу Следовательно, чу ц (!) е < .
< ф нк ия Х(!) овред . < есс, т. с, процесс, инвариантный от д т п)1оцесс явл~етс~ так<не ч . им т <;, ае ой модели он за <аетия начала отсчета, < тот п оц:;,, е им, так как в рассматриз м ся ли ых сл чайных величин а и нормально распределенных слу Л< ' . эпак мэтоматпческо<о и д ') )<апомпвм, что . ( < . э ; *, < ш д, ) З<<~сь <ю<.во креп ° с х сстп полку<а аналогию с х ем коза пацвк.
Звачевке аэт стапюпа<е вен шэм «Р и авэ <ассматрквать к < Фу <ю е <ы Р ) 1<~ы о Р< а й ф <кпви па двсвврсшо , отстоящих друг от др у< лпв о дэваты аэтокоорелкцковвоп фувк а а<, под чпм пормвроэпккую аэ< то ой служат коэч Ркцкекты цвю, ордкватамк вот р ";; °, ы~~ спкэп шп<евя<тск с и пев кор)<~лак~он~о<< с и эту В)кмевву<0 чэпкс<<мост е пэедеввк .. Ра вопптпк процесса мекка эт рассматривает традпдпокная птптп мктс)3[ы, )и')ЫИ)ЛНЯЫК ПЛ и;)УЧКНПК РАГСяя)И1И [ги, 311 с 11 пзучкник ПРОиясс)013, пРОтк11АН)щих во вРгмгпя !13 !1еписаняое ви!пе соотношение ме)к)[у ивтокорреляционяой фунициой и спектром процесса есть одна из форм хорошо извостпой теоремь[ Хяпчина — Винера. Согласно атой теореме, спектр процесса и автокорреляционная функция являются фурье-сопря)конными функциями.
Поэтому мы вправе наппса.гь л о) — —.-„— ~ р (О) 1- 2 ~ р ( г) со» се3т 1 -! Здесь ми уже иере)и.!в к выборочным оценкам, полагая, что автокорроляцноппая функция для выборки объемом д вычисляется по формуле !) (т) . ° у .,~~ Х (3) Х (3 + т) 3-.-1 а т принимает лишь дискретные значения. От дискретных моделей можно перейти к непрерьсвным, ;шмепяв спектр процесса спектральной плотностью у(се). Предположим, что процесс, с~рого говоря, не содержит периодпчес)сих составляющих и сумма аа (ы) + ье (ы) непрерывна. Тогда !(ы) с!се есть вклад в общу1о дисперсию на полосе частит и, ю + с!ы. 11ик на кривая спектральной плотности ! (се) указьлвает просто яа наличие ваясной полосы частот.
Для непрерывной модели мь[ можем записать р [т) — 2) соя юг!'( )) с!3); а порее[с'иве 1')ти!! фирм)»)!д 3[не! У (се) —., - с' (33) 3)- 2,~~ р ( 1) соя сат1. зл Вто другая форма записи теоремы Хинчина — Винера, Тоореме Х)личина -- Пипера пс)кззывает, что резуль тати исследования с.иучайного процосса мо)яно представ лять как во временной писале (автокорреляционная функ цин), тик и в част)пней (спектр процесса или спектральная плотность). Спектрадьное предо)авлепие обычно легче поддается физической интерпретации — исследователи, особенно физики, привыкли мыслить в терминах гармонических колебаний, хо[я в некоторых случаях оказывается интересным и непосредственное рассмотрение автокорреляционной функции '). Винер показал (64), что понятие автокорреляцпонной функции и неявной форме содержалось еще в раооте Майкедьсопа.
Па ряс.,'5.8 приведена схема хорошо известного иптерфериметра й!айкельсо[ла. Здесь световой пучок посредством систомы зеркал и линз делится на две части, которые идут по путям разной длины и затем вновь соедипя[отгя в идия световой пучок. Различие в длинах приводит и задержке одной части пучка относительно другой. Результиру)о!ций свеловой пучок будет задавалмси двумя его частями Х (!) и Х (! -! т), смещояными во времени на воличину т.