Боровиков В.П. - Нейронные сети (778916), страница 4
Текст из файла (страница 4)
20 Гпааа 1. Основные поннюон анапоза данных Если медиана меньше среднего, то распрсделенне сдвинуто вправо. Если медиана больше среднего, то распределение сдвинуто влево. Если данные категоризованы, то в качестве основной описательной статистики используется мода. Распредепение переменной Самый первьш вопрос, который естественно задать, анализируя значения переменной — какова вероятность того, что переменная примет значения из данного интервала. Иными словами, мы интересуемся тем, как распределены значения переменной.
Например, оценивается вероятность того, что брошенная монета выпадет гербом, что пациент проживет дольше определенного времени или что доля дефектных изделий в партии меньше 95о о. Описательные статистики дают общую информацию о распределении переменной. Например, значение медианы показывает то, что с вероятностью 0,5 переменная превысит данное значение или, напротив, будет меньше этой величины. Более полный ответ дает функция распределения.
Пусть Х вЂ” некоторая переменная, принимающая значения на прямой. Тогда функция распределения этой переменной, обозначаемая Цх), есть вероятность того, что значения Хне превосходят . Для описания рсальньвх явлений статистиками используются различныс распределения: нормальное, Стьюдента, хи-квадрат, Коши, биномиальное, отрицательное биномиальное н др. Эти распределения содержат неизвсстныс параметры, которые следует оценить по имеющимся данным. Основные принципы оценивания В анализе данных мы сталкиваемся с задачей оценивания неизвестных параметров. Возникает вопрос: как разумным образом построить оценки параметров, основываясь на выборочных значениях.
В решении задач оценивании большую роль играет следующий метод. Мепзоц максимапьного правдоподобия Объясним этот метод в общих чертах. Представьте, вы наблюдаете значения некоторой величины, распределение которой зависит от неизвестного параметра. Если наблюдения произошли, то в качестве оценки параметра естественно взять значение, которое делает наблюдения наиболее вероятными (правдоподобными). Например, если вы подбрасываете монету несколько раз и в большинстве бросков выпадает герб, вы припишете гербу большую вероятность, чем решке. 21 Нейронные сего. ЗТАТ18Т!СА Неога! НеСаожа Какую именно? Для этого нужно оценить правдоподобие наблюдений и найти параметры, при которых правдоподобие принимает максимальное значснис.
Функция правдоподобия определяется таким образом: цО(х) = Р(Х~О), (1.1) гдс р(Х~О) — плотность вероятности наблюдений для непрерывных величин Х, ...Х„и всроятности наблюдений для дискрстных величин Х~ ...Х,. Итак, эта функция зависит от неизвестных парамстров О. Принцип максимального правдоподобия (МП) состоит в том, что в качсствс оценки О берется значение О =(6„..., О,), максимизирующсс функцию правдоподобия: 1,(0)Х) = ацр Е(0(Х). аее (1.2) Оценки, удовлстворяющис этому соотношению, называются оценками максимального правдоподобия (ОМП). Заметим, что удобнсс работать нс с самой функцисй правдоподобия Х,(О~Х), а с сс логарифмом — 1(О(Х) =!пЦО)Х). Логарифм является монотонной функцией и имеет тс жс точки максимума, что и сама функция правдоподобия. Условно (1.2) переходит в следующее условие 1(О~Х) = аир ЦО(Х). ое (1.3) Если имеется возможность дифференцировать по параметру О, то в точке 0 должны обращаться в нуль производныс логарифма функции правдоподобия.
Слсдоватсльно, оценкаО удовлетворяет уравнениям д1(0(Х) =О, 1=1,..., д. дО, (1.4) Здесь использованы частные производные. Если парамстр один, то частныс производные псрсходят в обычную производную. Продолжим рассмотрсние примера с подбрасыванисм монеты. Покажем, как в нсм можно использовать данный принцип.
Пусть вероятность выпадения герба р, вероятность выпадсния решки 1 — р. Эта вероятность неизвестна и сс следует оцснить. Бросаем монсту и раж в к бросках выпадает герб, в и — ?г — решка. Спрашивастся: какоцснитьнсизвсстнуювсроятностьр? Отвстдастпринцип максимального правдоподобия. В качсствс оцснки слсдуст взять величину, для которой всроятность наблюдаемых исходов максимальна.
Гпава 1. Основные понятна анапоаа санных Проведем формальные вычисления. Обозначим через н число выпавших гербов. Тогда функция правдоподобия выглядит так; Это функция от величины р. Логарифм функции правдоподобия имеет вид: 1п/(р) = с+/с 1пр+(л — /с) 1п(1-р), где с — некоторая константа, которая для нас не имеет значения, так как мы хотим вычислить производную. Вычислим производную логарифма правдоподобия. Для этого нужно найти значение р, при котором логарифм правдоподобия максимален. Поэтому приравняем производную к нулю: с/1п/(р) = /с / р — (и — /с) / (1- р) = О.
с/р Отсюда имеем: /с -/ср — ри+ р/с = О, р =/с/и. Итак, оценкой максимального правдоподобия для неизвестной вероятности р является величина /с / и — отношения числа выпадений герба к общему количеству бросков. Замечательно, что принцип макеимальпого правдоподобия применим е самых общих ситуация». Известно, что оценки максимального правдоподобия являются асимптотически эффективными (эффективными при большом объеме выборки). Мепюя минимума хи-квацрасп Этот метод полезен, когда наблюдаемые значения сгруппированы, либо когда сама случайная величина принимает конечное число значений (является категориальной).
Пусть всего имеется к групп или /с значений категориальной переменной. Вероятности л„..., л„попадания наблюдений в каждую группу являются функций от параметра О, значение которого неизвестно. Имеем числа и„..., и„наблюдений, попавших в кикдую группу, и хотим оценить значение неизвестного параметра О. Для этого вводится разумная мера расхождения между числами и„..., л, и их ожидаемыми значениями ия,(О),..., ик„(О), и = ~~> и, 23 Ноаронные оеюо. ЗТАТ!ЗТгСА иеога! иоГггогМо Мера хи-квадрат между наблюдаемыми и ожидасмыми частотами имеет вид: ' е — ("' - -"г(е)1' х'(е) = ~ г(Е) Очевидно, меньшее значение хи-квадрат соответствует большей близости наблюдаемых и ожидаемых частот.
В качестве оценки Е берется значснис, минимизирующее Х ' (Е). Метод моментов Пусть х„..., х„— независимые наблюдения случайной величины, распределение которой зависит от неизвестных параметров. Предположим, что первые! моментов распределения существуют и выражаются функциями от неизвестных параметров а, = (Е „..., Е „), 1 = 1,..., й. Обозначим через а,, выборочные моменты: аг = — ~Гх,". П Мстод моментов оцснивания неизвестных параметров состоит в приравнивании выборочных и теоретических моментов: аг(Е,,..., Е„) = аг, г = 1,..., г1.
Решая уравнение относительно Е„..., Е„, получим оценки нсизвсстных параметров, которые называются оценками, построенными методом момснтов. Заметим, что в ряде случаев такие оценки совпадают с оценками максимального правдоподобия. Зависимости межяу переменными Две или более переменных связаны (зависимы) между собой, если наблюдасмыс значения этих переменных распределены согласованным образом. Другими словами, переменные зависимы, если их значения какнм-то образом согласуются друг с другом, и это согласование проявляется в имсющихся наблюдениях. Заметьте,мы нс определяем, как именно происходит согласование. Возможно, ого нельзя записать в явном функциональном видс, но оно проявляется в совместном вероятностном распределении.
Напримср, Рост чсловска, очсвидно, связан с Весом, потому что обычно высокие индивиды тяжелее низких; 1Д (коэффициснт интеллекта) связан с 24 Гпава 1, Основные понятен анап«за данных Кол ичесгноом ошибок в тесте, так как люди с высоким значением УД, как правило, делают меньше ошибок, н т.д. Другими типичными примерами связей являются: зависимость между объемом винчестера и его ценой. Если вы рассмотрите предложения в Интернет, то увидите, что логарифмическая зависимость хорошо описывает связь «цена — объем» для винчестеров, зависимость между длиной диагонали монитора и ценой монитора, зависимость между зерном и длиной диагонали экрана. В том же ряду находятся: зависимость между количеством транспортных средств и количеством аварий в городе, зависимость между эластичностью спроса и доходов, числом преступлений против собственности и душевым доходом, зависимость между количеством рассылок по почте и посещений сайта и т.д.
Более экзотическим примером является зависимость рождаемости от дня недели. Исследования зависимости между парой переменных, естественно, распространяется на исследование зависимостей между переменной и списком переменных, между двумя или несколькими множествами переменных и т.д. (цена монитора зависит от фирмы-производителя, диагонали, зерна, развертки, разрешения и других параметров). Почему зависимоспзи между переменными явпякппся важными Вообще говоря, цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между измеряемыми переменными.
Далее почти не проводится различия между терминами «связь» и «зависимость», и во многих ситуациях они рассматриваются как синонимы, хотя поклонники строгих определений, возможно, усмотрят в этом вольность. Заметим, что не существует иного способа представления знаний, кроме как в терминах зависимостей между количеством или качеством. Таким образом, развитие знаний всегда заключается в нахождении новых зависимостей между переменными.
Исследование корреляций, по существу, состоит в измерении таких зависимостей непосредственным образом. Тем не менее, экспериментальное исследование не является в этом смысле чем-то отличным. Например, отмеченное экспериментальное сравнение числа лейкоцитов И'СС у мужчин и женщин может быть описано как поиск связи между двумя переменными: Пол и И'СС. Назначение он«лизи донных сосзноит в том, чтобы нойзни зависи- мости между переменными и оценить их значимость. Действительно, множество статистических процедур может быть рассмотрено в терминах оценки различных типов взаимосвязей между переменными.
Итак, спсциалиста по статистике прежде всего интересует оценка связи между измеренными переменными. 25 Неяронные оепм. ЗТАТШТ!СА Неога! Н«1еойв Зависимые и независимые переменные В повседневной жизни мы хорошо понимаем, что одни величины зависят от других.
Например, потребление зависит от дохода, цена квартиры — от площади, число посетителей магазина — от количества рекламных обьявлений, число посетителей ресторана — от времени суток, предпочтение в выборе платья связано с содержимым кошелька и т.д. Проведем более строе различие между независимыми и зависимыми переменными, Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные — это переменные, которые измеряются или регистрируются. Очевидно, варьируя интенсивность рекламной рассылки, можно наблюдать изменение спроса и потока посетителей в магазин.
В этом примере интенсивность рекламы — независимая переменная, поток посетителей — зависимая. Изменяя рекламную кампанию, можно заставить покупатечя перейти из пассивного состояния (спячки) в активное и т.д. В электронной торговле очень важна оценка момента перехода покупателя из пассивной, активной, суперактивной категорий, чтобы иметь возможность влиять на этот процесс. На первый взгляд, может показаться, что проведение этого различия создает путаницу в терминологии, поскольку, как иногда говорят в шутку студенты, «все переменные зависят от чего-нибудь». Тем не менее, однажды отчетливо проведя это различие, вы поймете его необходимость.















