_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (1185333), страница 4
Текст из файла (страница 4)
. . , µm , σm, w1 , . . . , wm )• Применяем ММПp(x|θ)=nYp(xi |θ)i=1=n XmYi=1 j=1!Ãkxi − µj k2wj√exp −2σj22πσj• Решениеm̂M L = n,µ̂j,M L = xj ,2σ̂j,ML = 0,ŵM L,j =→maxθ1nВыводы• Не все параметры можно настраивать в ходе обучения• Существуют специальные параметры (будем называть их структурными), которые должны бытьзафиксированы до начала обучения• !! В данном случае величина m (количество компонент смеси) является структурным параметром!!• Основной проблемой машинного обучения является проблема выбора структурных параметров, позволяющих избегать переобученияГлава 2Вероятностная постановка задачираспознавания образовВ главе вводится статистическая постановка задачи машинного обучения.
Доказывается оптимальностьбайесовского классификатора. Подробно рассматриваются вопросы восстановления плотности распределения по выборке данных. Описываются несколько простых подходов к непараметрическому оцениваниюплотности. В конце главы приведена общая схема ЕМ-алгоритма, позволяющего восстанавливать смесираспределений с помощью введения скрытой (латентной) переменной.16Глава 2. Вероятностная постановка задачи распознавания образов2.117Ликбез: Нормальное распределениеНормальное распределение• Нормальное распределение играет важнейшую роль в математической статистике¶µ1(x − µ)2X ∼ N (x|µ, σ 2 ) ⇔ p(x|µ, σ 2 ) = √exp −2σ 22πσσ 2 = DX , E(X − EX)22p(x|m,s )µ = EX,s3smРис. 2.1.
Функция плотности нормального распределения• Из центральной предельной теоремы следует, что сумма независимых случайных величин с ограниченной дисперсией стремится к нормальному распределению• На практике, многие случайные величины можно считать приближенно нормальнымиМногомерное нормальное распределение• Многомерное нормальное распределение имеет видX ∼ N (x|µ, Σ) ⇔ p(x|µ, Σ) = √12πn√µ¶1exp − (x − µ)T Σ−1 (x − µ) ,2det Σгде µ = EX, Σ = E(X − µ)(X − µ)T — вектор математических ожиданий каждой из n компонент иматрица ковариаций соответственно• Матрица ковариаций показывает, насколько сильно связаны (коррелируют) компоненты многомерного нормального распределенияΣij = E(Xi − µi )(Xj − µj ) = Cov(Xi , Xj )• Если мы поделим ковариацию на корень из произведений дисперсий, то получим коэффициент корреляцииCov(Xi , Xj )∈ [−1, 1]ρ(Xi , Xj ) , pDXi DXjГлава 2.
Вероятностная постановка задачи распознавания образов18Особенности нормального распределения• Нормальное распределение полностью задается первыми двумя моментами (мат. ожидание и матрица ковариаций/дисперсия)• Матрица ковариаций неотрицательно определена, причем на диагоналях стоят дисперсии соответствующих компонент• Нормальное распределение имеет очень легкие хвосты: большие отклонения от мат.
ожидания практически невозможны. Это обстоятельство нужно учитывать при приближении произвольных случайных величин нормальными(a)(b)(c)Рис. 2.2. Линии уровня для двухмерного нормального распределения. На рисунке (a) показано нормальное распределение спроизвольной матрицей ковариации, случай (b) соответствует диагональной матрице ковариации, а случай (c) соответствуетелиничной матрице ковариации, умноженной на некоторую константу2.22.2.1Статистическая постановка задачи машинного обученияВероятностное описаниеОсновные обозначения• В дальнейшем будут рассматриваться преимущественно задачи классификации и восстановлениярегрессии• В этих задачах обучающая выборка представляет собой набор отдельных объектов X = {xi }ni=1 ,характеризующихся вектором вещественнозначных признаков xi = (xi,1 , .
. . , xi,d )• Каждый объект также обладает скрытой переменной t ∈ T• Предполагается, что существует зависимость между признаками объекта и значением скрытой переменной• Для объектов обучающей выборки значение скрытой переменной известно t = {ti }ni=1Статистическая постановка задачи• Каждый объект описывается парой (x, t)• При статистической (вероятностной) постановке задачи машинного обучения предполагается, чтообучающая выборка является набором независимых, одинаково распределенных случайных величин, взятых из некоторой генеральной совокупности• В этом случае уместно говорить о плотности распределения объектов p(x, t) и использовать вероятностные термины (математическое ожидание, дисперсия, правдоподобие) для описания и решениязадачи• Заметим, что это не единственная возможная постановка задачи машинного обученияГлава 2.
Вероятностная постановка задачи распознавания образов19Качество обучения• Качество обучения определяется точностью прогноза на генеральной совокупности• Пусть S(t, t̂) – функция потерь, определяющая штраф за прогноз t̂ при истинном значении скрытойпеременной t• Разумно ожидать, что минимум этой функции достигается при t̂ = t• Примерами могут служить Sr (t, t̂) = (t− t̂)2 для задачи восстановления регрессии и Sc (t, t̂) = I{t̂ 6= t}для задачи классификацииАбсолютный критерий качества• Если бы функция p(x, t) была известна, задачи машинного обучения не существовало• В самом деле абсолютным критерием качества обучения является мат.
ожидание функции потерь,взятое по генеральной совокупностиZES(t, t̂) = S(t, t̂(x))p(x, t)dxdt → min,где t̂(x) – решающее правило, возвращающее величину прогноза для вектора признаков x• Вместо методов машинного обучения сейчас бы активно развивались методы оптимизации и взятияинтегралов от функции потерь• Так как распределение объектов генеральной совокупности неизвестно, то абсолютный критерийкачества обучения не может быть подсчитан2.2.2Байесовский классификаторИдеальный классификатор• Итак, одна из основных задач теории машинного обучения — это разработка способов косвенногооценивания качества решающего правила и выработка новых критериев для оптимизации в ходеобучения• Рассмотрим задачу классификации с функцией потерь вида Sc (t, t̂) = I{t̂ 6= t} и гипотетическийклассификатор tB (x) = arg maxt∈T p(x, t)• Справделива следующая цепочка неравенствZ ZES(t, t̂) =S(t, t̂(x))p(x, t)dxdt =l ZXZS(s, t̂(x))p(x, s)dx = 1 −s=1p(x, t̂(x))dx ≥Z≥1−Zmax p(x, t)dx = 1 −tp(x, tB (x))dx = ES(t, tB )Особенности байесовского классификатора• Таким образом, знание распределения объектов генеральной совокупности приводит к получениюоптимального классификатора в явной форме• Такой оптимальный классификатор называется байесовским классификатором• Если бы удалось с высокой точностью оценить значение плотности генеральной совокупности вкаждой точке пространства, задачу классификации можно было бы считать решенной• На этом основан один из существующих подходов к машинному обучениюГлава 2.
Вероятностная постановка задачи распознавания образов2.32.3.120Методы восстановления плотностейОбщие замечанияИдея методов восстановления плотностей• Восстановление плотностей является примером задачи непараметрической статистики• Основной идеей методов восстановления плотностей является учет количества объектов обучающейвыборки, попавших в некоторую окрестность рассматриваемой точки• Чем больше объектов находится в окрестности рассматриваемой точки, тем выше значение плотности в этой точке• Окрестность можно зафиксировать либо по ширине, либо по числу объектов, в нее попавших. Возникают два подхода к задаче восстановления плотностиГистограммы• Простейшим подходом к восстановлению плотностей является построение гистограмм• Разбиваем область значений переменной на k областей (обычно прямоугольных) ∆1 .
. . ∆k и считаемсколько точек ni попало в каждую область ∆i (см. рис. 2.3). Оценка плотности в этом случаеp̂(x) =niI{x ∈ ∆i }n|∆i |Рис. 2.3. Пример восстановления одномерной плотности с помощью гистограммы для различных значений ширины областей∆Недостатки гистограммного подхода• Получающаяся оценка плотности не является непрерывной функцией• Оценка зависит от выбора узлов гистограммы (центров областей ∆i )• Оценка сильно зависит от выбора ширин областей ∆i• !!Ширина области является структурным параметром!!• С ростом размерности пространства d вычислительная сложность возрастает как k dГлава 2.
Вероятностная постановка задачи распознавания образов2.3.221Парзеновские окнаПарзеновское оценивание• Рассмотрим достаточно малую область пространстваD, содержащую рассматриваемую точку x.RВероятность попадания в эту область равна P = D p(x)dx. Из n точек обучающей выборки, в этуобласть попадет k точек, приблизительно равное k ≈ nP• Считая, что область D достаточно мала, и плотность в ней постоянна, получаем P ≈ p(x)V , где V– объем области D, т.е.kp̂(x) =nV• Отметим две существенные детали– Область D должна быть достаточно широка, чтобы можно было использовать формулу дляприближенного оценивания k, т.е. в область D должно попадать достаточно много точек– Область D должна быть достаточно узка, чтобы значение плотности в ней можно было приблизить константойПарзеновское окно• Рассмотрим функцию k(u) = k(−u) ≥ 0, такую чтопарзеновским окном• Тогда плотность может быть приближена как p̂(x) =R∞−∞1nk(u)du = 1.
Такая функция называетсяPni=1k(x − xi )• В самом деле, легко показать, что p̂(x) ≥ 0 иZnp̂(x)dx =1Xn i=1Zk(x − xi )dx = 1• Обычно в качестве парзеновских³ T ´ окон берут колоколообразные функции с максимумом в нуле, например, k(u) = √12π exp − u 2 u• Парзеновские окна зависят от выбранного масштаба, т.е. характерной ширины окрестности: еслиk(u) окно, то h1d k( uh ) – тоже окно2.3.3Методы ближайшего соседаНедостатки парзеновского оценивания• !! Ширина парзеновского окна h является структурным параметром!!• Очевидно, что при фиксированной ширине в некоторые участки пространства будет попадать избыточное количество объектов, и там ширину можно было бы уменьшить и получить более точнуюоценку плотности• В то же время, найдутся участки, в которых число объектов, попавших в окно, будет слишком мало,и оценка плотности будет неустойчивой• Вывод: необходимо сделать ширину окна переменной, потребовав, чтобы в него попадало определенное количество объектов• Методы этой группы называются методами ближайших соседейГлава 2.