Метод оценки развития газодинамических процессов с помощью скрытой марковской модели (1187404), страница 6
Текст из файла (страница 6)
Причина добавления ū в показатель экспоненты штрафной30функции (2.3.7) состоит в том, что без добавления ū оцениваемая скрытая записьz (2.3.1) имеет очень малый масштаб, и, соответственно, оцениваемые глобальныефакторы масштаба u[i], i = 1, K, очень велики. При использовании штрафной функции (2.3.8) масштаб скрытой записи совпадает с масштабом наблюдаемых временныхрядов. Чтобы подчеркнуть намерение совместить масштаб скрытой записи с масштабом наблюдаемых временных рядов, кроме штрафной функции (2.3.8) добавляетсяаприорное логарифмически нормальное распределение для глобальных масштабовu[i], i = 1, K:p (log(u[i])) = N (log(u[i]) | 0, w) , i = 1, K.(2.3.9)Наконец, априорная вероятность Дирихле (Dirichlet priors) для распределенияпараметров вероятностей переходов (2.3.5) и (2.3.6) между скрытыми состояниямигарантирует, что ненулевые вероятности переходов остаются ненулевыми при обученииJYp(θ[i]) = D (θ[i] | η) ∝(u[i; j])η[j]−1 .(2.3.10)j=12Yp(ξ) = D (ξ | ν) ∝(u[i; j])ν[j]−1 .j=1где η[j], j = 1, J и ν[j], j = 1, 2 могут рассматриваться, как псевдосчетчики.
То есть,можно считать, что априори имеется некоторое число переходов каждого типа, и чтоони всегда будут добавляться к полному числу при обучении.2.3.2Правдоподобие для набора наблюдаемых временнных рядовЛогарифм правдоподобия Lp наблюдаемых временных рядов x[i] = x[i; k], k =1, N [i], имеет вид Lp = L + P, где L – это член правдоподобия, происходящий изскрытой Марковской модели. Он состоит из вероятностей эмиссии (2.3.3) и вероятностей переходов между скрытыми состояниями (2.3.4). P – это логарифм априорнойвероятности или штрафной член, обеспечивающий регуляризацию CPM-модели. Двекомпоненты логарифма правдоподобия Lp имеют вид! N!KNXXYYi,L=log p(φ[i; 1])N (x[i; k] | u[i]z [τ [i; k]] χ[k], σ[i])Tφ[i;k−1],φ[i;k]i=1φ[i]i=1i=2(2.3.11)где p(φ[i, 1]) – априорные вероятности начальных скрытых состояний; Гауссовы распределения для эмиссии элементов наблюдаемого временного ряда даются формулойi(2.3.4); вероятности переходов между скрытыми состояниями Tφ[i;k−1],φ[i;k] даютсяформулой (2.3.3),31P = −λū++M−1X(z[k + 1] − z[k])2 +KXk=1JX2Xi=1j=1j=1KXlog (D(θ[i; j] | η[j])) +!log (D(ξ[i; j] | ν[j])) +(2.3.12)N (log(u[i] | 0, w)) ,i=1где присутствуют параметры штрафной функции гладкости p(z) (2.3.8) скрытой записи; вероятности Дирихле D(θ[i] | η) и D(ξ[i] | ν) (2.3.10) для параметров вероятностейпереходов (2.3.5) и (2.3.6) между скрытыми состояниями (2.3.2); логарифмическинормальное распределение для глобальных масштабов u[i], i = 1, K, (2.3.9) наблюдаемых временных рядов.
После того, как полностью специфицирована CPM-модель,ее параметры можно оценить с помощью алгоритма ожидания-максимизации правдоподобия (EM-алгоритма).322.4EM-алгоритмАлгоритм ожидания-максимизации правдоподобия (The Expectation-MaximizationAlgorithm) − EM-алгоритм в присутствии скрытых переменных дает оценки параметров по максимуму правдоподобия, если структура правдоподобия имеет специальную форму [49], [50].(ссылки надо исправить) Форма правдоподобия, при которойEM-алгоритм оказывается полезным с практической точки зрения, обеспечиваетотносительно простое вычисление оценок параметров при известных распределениях скрытых переменных и эффективное вычисление апостериорного распределенияскрытых переменных. Если апостериорное распределение скрытых переменных неможет быть эффективно вычислено, следует использовать приближенные алгоритмы,например, вариационный EM-алгоритм [43]. Здесь под относительно простым вычислением оценок параметров понимается, либо наличие аналитического решения, илииспользование численной процедуры оптимизации, в результате которой могут бытьвычислены соответствующие функции и их производные.
Если это не так, все ещеможно использовать EM-алгоритм с обобщенным M-шагом, необходимым для поискалучших оценок параметров.EM-алгоритм использует структуру формулы правдоподобия, производя итерациимежду шагом ожидания (E-шагом) и шагом максимизации (M-шагом). С интуитивнойточки зрения, E-шаг может рассматриваться как заполнение «пропущенных» данных(скрытых переменных).
Однако, вместо того, чтобы находить подходящие оценки дляэтих данных, этот шаг на самом деле предоставляет полное распределение значенийэтих данных (т.е., он находит апостериорное распределение скрытых переменных).Если выполнен E-шаг, то выполняется M-шаг, использующий стандартные методыпоиска максимума правдоподобия. Итерации между E-шагом и M-шагом гарантируютмонотонное увеличение логарифма правдоподобия. Проблема только в надлежащемвыборе начальных значений параметров при старте процесса вычислений.Здесь приводится краткое описание вывода EM-алгоритма для общей, вероятностной, генеративной модели с вектором параметров Θ, временным рядом x[k], k =1, N и соответствующими скрытыми переменными с действительными значениямиφ[k], k = 1, N .
Например, при кластеризации данных с использованием смеси Гауссовых распределений, x[k], k = 1, N – это данные, которые должны быть разделены накластеры, φ[k], k = 1, N – метки кластеров, связанные с каждым элементом данных,и Θ содержит средние, вариации и параметры смешивания для каждой Гауссовой33компоненты. Предполагается, что данные независимы и одинаково распределены, ичто специфицирована вероятностная модель, так чтобы можно было легко написатьвыражение для распределения p(x[k], φ[k] | Θ). Необходимо найти оценку параметровΘ, которая максимизирует правдоподобие временного ряда x[k], k = 1, N :L = p (x[1], · · · , x[N ] | Θ) =NYp (x[k] | Θ) =k=1=N ZY(2.4.1)p (x[k], φ[k] | Θ) dφ[k].k=1φ[k]Для получения максимума правдоподобия, определяется максимум логарифмаправдоподобия. В присутствии скрытых переменных, интеграл по скрытым переменным не позволяет этого сделать. Однако имеются способы решить эту проблему.Во-первых, можно получить оценку снизу для логарифма правдоподобия, и эта оценкадает EM-алгоритм.
Первый прием состоит во введении произвольного распределениявероятности q(φ[k] | x[k]), и умножения и деления выражения под интегралом на этотмножитель. Затем используется неравенство Енсена (The Jensen’s inequality), котороеустанавливает, что если f (·) – выпуклая функция (например, такая как log(·)) и X –случайная переменная, то f Eq(x) [X] 6 Eq(x) [X], где Eq(x) [X] обозначает ожиданиепо отношению к распределению вероятностей q(x). Теперь можно определить оценкуснизу для логарифма правдоподобияZNXlog (L) =log p (x[k], φ[k] | Θ) dφ[k] =k=1=NXlog =p (x[k], φ[k] | Θ)dφ[k] >q (φ[k] | x[k])q (φ[k] | x[k]) logp (x[k], φ[k] | Θ)q (φ[k] | x[k])dφ[k] =φ[k]NXk=1=q (φ[k] | x[k])φ[k]N ZXk=1Zk=1>φ[k]NXZZq (φ[k] | x[k]) log (p (x[k], φ[k] | Θ)) dφ[k] −φ[k]q (φ[k] | x[k]) log(q (φ[k] | x[k]))dφ[k] =φ[k]Eq(φ[k]|x[k]) [log (p(x[k], φ[k] | Θ))] + H (q(φ[k] | x[k])) = −F (q, Θ).k=1(2.4.2)Как принято в статистической физике, функционал – F (q(φ[k] | x[k]), Θ) (2.4.2)называется свободной энергией, H (q(φ[k] | x[k])) обозначает энтропию распределения34q(φ[k] | x[k]), p (x[k], φ[k] | Θ), называется полным правдоподобием,а Eq(φ[k]|x[k]) [log (p(x[k], φ[k] | Θ))] – это ожидаемый полный логарифм правдоподобия.Оказывается, что граница (2.4.2) достижима, т.е., −F (q, Θ) = log (L), когда q(φ[k] |x[k]) = p (φ[k] | x[k], Θ).
Выполнение этой подстановки в выражение для свободнойэнергии (2.4.2) и использование формулы условной вероятностиp (φ[k] | x[k], Θ) =p(x[k], φ[k]|Θ)p(x[k]|Θ)дает− F (p (φ[k] | x[k], Θ) , Θ) =N ZXp (x[k], φ[k] | Θ)dφ[k] ==p (φ[k] | x[k], Θ) × logp(φ[k]|x[k],Θ)k=1φ[k]=NXk=1==dφ[k] =(2.4.3)Zp (φ[k] | x[k], Θ) log (p (x[k] | Θ)) dφ[k] =φ[k]NXk=1=p (φ[k] | x[k], Θ) × logp (x[k], φ[k] | Θ) p (x[k] | Θ)p (x[k], φ[k] | Θ)φ[k]NXk=1ZNXZlog (p (x[k] | Θ))p (φ[k] | x[k], Θ) dφ[k] =φ[k]log (p (x[k] | Θ)) .k=1Пусть известны точные апостериорные распределения вероятности скрытых переменных p (x[k] | φ[k], Θ), где Θ − оценка параметров по максимуму правдоподобия).Тогда можно определить максимум свободной энергии по отношению к параметрам Θ, чтобы получить оценку этих параметров по максимуму правдоподобия длярассматриваемой модели.
Это эквивалентно максимизации ожидаемого полного логарифма правдоподобия по отношению к этим параметрам (поскольку фиксированоq(φ[k] | x[k]) = p (x[k] | φ[k], Θ) и член энтропии становится несущественным). Наоборот, если известна оценка параметров Θ по максимуму правдоподобия, можновычислить апостериорное распределение вероятностей скрытых переменных, используя правило Байеса. С интуитивной точки зрения, EM-алгоритм работает впредположении, что имеется оценка параметров Θ по максимуму правдоподобия, изатем вычисляет апостериорное распределение вероятностей скрытых переменных(E-шаг). После того, как получена текущая оценка апостериорного распределениявероятностей скрытых переменных, алгоритм производит новую оценку параметровΘ (M-шаг).
Этот алгоритм производит спуск по координатам в пространстве свободной энергии и когда он достигает локального максимума свободной энергии, то35достигается граница −F (q, Θ) = log (L) и, следовательно, этот локальный максимумявляется также локальным максимумом логарифма правдоподобия. Таким образом,при числе итераций, достигающих сходимости, EM-алгоритм гарантирует определениелокального максимума логарифма правдоподобия.Когда EM-алгоритм выводится для конкретной модели, для E-шага необходимовычислить апостериорные распределения вероятностей скрытых состояний (или предельные апостериорные распределения вероятностей, как в скрытых Марковскихмоделях (HMM-моделях)). На M-шаге эти апостериорные распределения вероятностей из E-шага фиксируются, и вычисляются оптимальные оценки параметров дляожидаемого полного логарифма правдоподобия.