lecture5-2015 (1126924)
Текст из файла
Обработка текстовОсновы обработки текстовЛекция 5 Статистические методы поиска словосочетанийОбработка текстовСловосочетания/коллокации• Для данной лекции Словосочетания = Коллокации = Фразеологические обороты -‐ цепочки слов состоящие из двух или более элементов, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого • Примеры: – Крепкий чай (не “сильный чай”) – Схема Бернулли (сравнить значения со значениями “Схема” и “Бернулли”)Обработка текстовПриложения• Сравнения корпусов текстов –кластеризация документов в информационном поиске –Поиск плагиата • Синтаксический разбор • Компьютерная лексикография • Генерация естественного языка • Машинный перевод • Выделение ключевых слов (терминов)Обработка текстовВыделение словосочетанийОбработка текстовПоиск кандидатов• Основная предпосылка –Если два (или более) слова встречаются вместе часто, то, вероятно, это словосочетание • Инструменты –Частота –Частота и фильтрация по тэгам –Математическое ожидание и дисперсияОбработка текстовЧастота• Подсчет частоты n-‐грам • Выбрать наиболее встречающиеся • Результат –Корпус: New York Times • August-‐November, 1990 –Результат не интересенОбработка текстовЧастота с фильтрацией по тэгам• Подсчет частоты n-‐грам • определить части речи • фильтрация кандидатов по шаблонам для частей речи • выбрать наиболее встречающиесяОбработка текстовЧастота с фильтрацией по тэгамОбработка текстовМат.
ожидание и дисперсия• Часто устойчивые пары слов находятся не рядом –Пример • She knoked on his door • They knoked on the door • a man knocked on the metal front door –Важно это понимать, например при генерации текстовОбработка текстовМат. ожидание и дисперсия• Техника –Рассмотрим все пары слов в некотором окне –Посчитаем расстояние между словами • Меры –Мат. ожидание (возможно отрицательное) • Показывает на сколько часто два слова встречаются вместе –Дисперсия (среднеквадратичное отклонение) • Вариабельность позицииОбработка текстовМат.
ожидание и дисперсияShe knocked on his door Пары в окне длиной 3: She knocked She on She his knocked on knocked his knocked door on his on door his doord=s =2ni=1Пример: knocked ...
doordi1d = (3 + 3 + 5)3nni=1 (dind)21n -‐ число раз, когда два слова встретились di -‐ смещение между словами d -‐ выборочное среднее смещенийs=1((323.67)2 + (31.153.67)2 + (53.673.67)2 )Обработка текстовГисторамма• Пример: strong ...
for –“strong [business] support for”Обработка текстовПример• Большое среднеквадратичное отклонение показывает, что сочетание не очень интересноеОбработка текстовПроверка статистических гипотезОбработка текстовПроверка статистических гипотез• Основная идея: слова словосочетания встречаются вместе значительно чаще чем просто случайно • Инструменты: – t-‐критерий Стьюдента (t-‐test) – Критерий согласия Пирсона (Хи-‐квадрат) – Критерий отношения правдоподобия (Likelihood ra|o test)Обработка текстовНулевая гипотеза• H0-‐слова встречаются независимо –P(w1,w2)=P(w1)P(w2) • Какова вероятность получить словосочетание w1w2, при условии что гипотеза верна? –p=P(w1w2|H0)Обработка текстовT-‐критерий Стьюдента• Разработан Уильямом Госсетом для оценки качества пива Гиннесс • Рассмотрим распределение выборочного среднего у всевозможных выборок длины n • По ЦПТ, при больших n:Обработка текстовT-‐критерий Стьюдента• Если для наших данных наблюдаемое выборочное среднее сильно отклоняется от ожидаемого при нулевой гипотезе, то с вероятностью p гипотеза не верна • α -‐ ошибка первого рода • p < α -‐ отвергаем гипотезуαОбработка текстовT-‐критерий Стьюдента• Т-‐статистика t=xµs2Nµ -‐ожидаемое мат.
ожидание x -‐выборочное среднее s2 -‐выборочная дисперсия N -‐размер выборки• Распределение Стьюдента (стремится к нормальному при больших N)Обработка текстовT-‐критерий. Пример• Предположим,что средний рост мужчин в популяции равен 158 см 2x = 169, s = 2600• Для выборки из 200 мужчин 169 158= 3.05• Тогда t =2600200• Для α=0.005: • 3.05>2.576 • отвергаем гипотезуОбработка текстовT-‐критерий для словосочетаний• Пусть нулевая гипотеза верна • Рассмотрим процесс случайной генерации биграмм, если встретили биграмму w1w2 (с вероятностью p) генерируем 1, в противном случае 0 (схема Бернулли) биномиальное распределение • мат.
ожидание = p • дисперсия = p(1-‐p) p при малых pt=xµs2Nµ =H0=P(w1)P(w2) x -‐отношение w1w2 к общему кол-‐ву биргамм s2 -‐отношение w1w2 к общему кол-‐ву биргамм N -‐общее количество биграммОбработка текстов Пример• new companies (встретилась 8 раз) 15828P (new) =143076684675P (companies) =14307668H0 : P (new companies) = P (new)P (companies) =8x=⇥ 5.59114307668t=xµs2N⇤1015828143076684675⇥ 3.6151430766810775.591 ⇥ 1073.615 ⇥ 105.591⇥10 714307668• не можем отвергнуть гипотезу7⇤ 0.999932Обработка текстовДля корпусаОбработка текстовХи-‐квадрат• Сравнить наблюдаемые частоты в корпусе с ожидаемыми частотами при верной гипотезе о независимости • Если различие большое -‐ отвергаем гипотезу • (Выборка должна быть большая)Обработка текстов2χ- общая формула• Меры: –Eij = ожидаемое кол-‐во коллокаций –Oij = наблюдаемое кол-‐во коллокаций 2=i,jOij EijEij• Результат – Смотрим число в таблице для распределения χ2• если число в таблице меньше, то отвергаем гипотезуОбработка текстов2χ- для биграммОбработка текстовКритерий отношения правдоподобия• На сколько более правдоподобна одна гипотеза, чем другая • H1: P (w2 |w1 ) = p = P (w2 |¬w1 )• H2: P (w2 |w1 ) = p1 = p2 = P (w2 |¬w1 )(p1 >> p2 )Обработка текстовКритерий отношения правдоподобияH1H2c2p=Nc2p=Nc12p=cc2 1c12p=N c1H1H2P (w2 |w1 )P (w2 |¬w1 )• Так же как в t-‐критерии предполагаем схему Бернулли и биномиальное распределениеb(k; n, x) = Cnk xk (1 x)n kc12 из с1 биграм-‐это w1w2c2-‐c12 из N-‐с1 биграм-‐это не w1w2b(c12 ; c1 , p)b(c2c12 ; Nb(c12 ; c1 , p1 )c1 , p)b(c2L(H1 ) = b(c12 ; c1 , p)b(c2 c12 ; N c1 , p)L(H2 ) = b(c12 ; c1 , p1 )b(c2 c12 ; N c1 , p2 )c12 ; Nc1 , p2 )Обработка текстовОтношение правдободобиягдеОбработка текстовРезультат для корпуса• 2log имеет распределение χ2Обработка текстовЗаключение• Поиск словосочетаний может улучшить качество многих приложений • Для поиска словосочетаний могут использоваться простые статистические модели в комбинации эвристиками • Для проверки “значимости” словосочетаний применяются методы проверки статистических гипотезОбработка текстовСледующая лекция• Синтаксический анализ.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.