lecture4-2016 (1126935)

Файл №1126935 lecture4-2016 (Лекции 2016 года)lecture4-2016 (1126935)2019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Обработка текстовОсновы обработки текстовЛекция 4 Статистические методы поиска словосочетанийОбработка текстовСловосочетания/коллокации• Для данной лекции Словосочетания = Коллокации = Фразеологические обороты -­‐ цепочки слов состоящие из двух или более элементов, имеющее признаки синтаксически и семантически целостной единицы, в котором выбор одного из компонентов осуществляется по смыслу, а выбор второго зависит от выбора первого • Примеры: – Крепкий чай (не “сильный чай”) – Схема Бернулли (сравнить значения со значениями “Схема” и “Бернулли”)Обработка текстовПриложения• Сравнения корпусов текстов –кластеризация документов в информационном поиске –Поиск плагиата • Синтаксический разбор • Компьютерная лексикография • Генерация естественного языка • Машинный перевод • Выделение ключевых слов (терминов)Обработка текстовВыделение словосочетанийОбработка текстовПоиск кандидатов• Основная предпосылка –Если два (или более) слова встречаются вместе часто, то, вероятно, это словосочетание • Инструменты –Частота –Частота и фильтрация по тэгам –Математическое ожидание и дисперсияОбработка текстовЧастота• Подсчет частоты n-­‐грамм • Выбрать наиболее встречающиеся • Результат –Корпус: New York Times • August-­‐November, 1990 –Результат не интересенОбработка текстовЧастота с фильтрацией по тэгам• Подсчет частоты n-­‐грамм • определить части речи • фильтрация кандидатов по шаблонам для частей речи • выбрать наиболее встречающиесяОбработка текстовЧастота с фильтрацией по тэгамОбработка текстовМат.

ожидание и дисперсия• Часто устойчивые пары слов находятся не рядом –Пример • She knocked on his door • They knocked on the door • a man knocked on the metal front door –Важно это понимать, например, при генерации текстовОбработка текстовМат. ожидание и дисперсия• Техника – Рассмотрим все пары слов в некотором окне – Посчитаем расстояние между словами • Меры –Мат. ожидание (возможно отрицательное) • Показывает на сколько часто два слова встречаются вместе –Дисперсия (среднеквадратичное отклонение) • Вариабельность позицииОбработка текстовМат.

ожидание и дисперсия• she knocked on his door • they knocked at the door • 100 women knocked on Donaldson’s doord=s =2ni=1Пример: knocked ... doordi1d = (3 + 3 + 5)3nni=1 (dind)21n -­‐ число раз, когда два слова встретились di -­‐ смещение между словами d -­‐ выборочное среднее смещенийs=1((323.67)2 + (31.153.67)2 + (53.673.67)2 )Обработка текстовГистограмма• Пример: strong ... for –“strong [business] support for”Обработка текстовПример• Большое среднеквадратичное отклонение показывает, что сочетание не очень интересноеОбработка текстовПроверка статистических гипотезОбработка текстовПроверка статистических гипотез• Основная идея: слова словосочетания встречаются вместе значительно чаще чем просто случайно • Инструменты: – t-­‐критерий Стьюдента (t-­‐test) – Критерий согласия Пирсона (Хи-­‐квадрат) – Критерий отношения правдоподобия (Likelihood ra|o test)Обработка текстовНулевая гипотеза• H0-­‐слова встречаются независимо –P(w1,w2)=P(w1)P(w2) • Какова вероятность получить словосочетание w1w2, при условии что гипотеза верна? –p=P(w1w2|H0)Обработка текстовT-­‐критерий Стьюдента• Разработан Уильямом Госсетом для оценки качества пива Гиннесс • Рассмотрим распределение выборочного среднего у всевозможных выборок длины n • По ЦПТ, при больших n:Обработка текстовT-­‐критерий Стьюдента• Если для наших данных наблюдаемое выборочное среднее сильно отклоняется от ожидаемого при нулевой гипотезе, то с вероятностью p гипотеза не верна • α -­‐ ошибка первого рода • p < α -­‐ отвергаем гипотезуαОбработка текстовT-­‐критерий Стьюдента• Т-­‐статистика t=xµs2Nµ -­‐ожидаемое мат.

ожидание x -­‐выборочное среднее s2 -­‐выборочная дисперсия N -­‐размер выборки• Распределение Стьюдента (стремится к нормальному при больших N)Обработка текстовT-­‐критерий. Пример• Предположим,что средний рост мужчин в популяции равен 158 см 2x = 169, s = 2600• Для выборки из 200 мужчин 169 158= 3.05• Тогда t =2600200• Для α=0.005: • 3.05>2.576 • отвергаем гипотезуОбработка текстовT-­‐критерий для словосочетаний• Пусть нулевая гипотеза верна • Рассмотрим процесс случайной генерации биграмм, если встретили биграмму w1w2 (с вероятностью p) генерируем 1, в противном случае 0 (схема Бернулли) биномиальное распределение • мат.

ожидание = p • дисперсия = p(1-­‐p) p при малых pt=xµs2Nµ =H0=P(w1)P(w2) x -­‐отношение w1w2 к общему кол-­‐ву биграмм s2 -­‐отношение w1w2 к общему кол-­‐ву биграмм N -­‐общее количество биграммОбработка текстов Пример• new companies (встретилась 8 раз) 15828P (new) =143076684675P (companies) =14307668H0 : P (new companies) = P (new)P (companies) =8x=⇥ 5.59114307668t=xµs2N⇤1015828143076684675⇥ 3.6151430766810775.591 ⇥ 1073.615 ⇥ 105.591⇥10 714307668• не можем отвергнуть гипотезу7⇤ 0.999932Обработка текстовДля корпусаОбработка текстовХи-­‐квадрат• Сравнить наблюдаемые частоты в корпусе с ожидаемыми частотами при верной гипотезе о независимости • Если различие большое -­‐ отвергаем гипотезу • (Выборка должна быть большая)Обработка текстов2χ- общая формула• Меры: –Eij = ожидаемое кол-­‐во коллокаций –Oij = наблюдаемое кол-­‐во коллокаций 2=X (Oiji,jEij )2Eij• Результат – Смотрим число в таблице для распределения χ2• если число в таблице меньше, то отвергаем гипотезуОбработка текстов2χ- для биграммОбработка текстовКритерий отношения правдоподобия• На сколько более правдоподобна одна гипотеза, чем другая • H1: P (w2 |w1 ) = p = P (w2 |¬w1 )• H2: P (w2 |w1 ) = p1 = p2 = P (w2 |¬w1 )(p1 >> p2 )Обработка текстовКритерий отношения правдоподобияH1H2c2p=Nc2p=Nc12p=cc2 1c12p=N c1H1H2P (w2 |w1 )P (w2 |¬w1 )• Так же как в t-­‐критерии предполагаем схему Бернулли и биномиальное распределениеb(k; n, x) = Cnk xk (1 x)n kc12 из с1 биграм-­‐это w1w2c2-­‐c12 из N-­‐с1 биграм-­‐это не w1w2b(c12 ; c1 , p)b(c2c12 ; Nb(c12 ; c1 , p1 )c1 , p)b(c2L(H1 ) = b(c12 ; c1 , p)b(c2 c12 ; N c1 , p)L(H2 ) = b(c12 ; c1 , p1 )b(c2 c12 ; N c1 , p2 )c12 ; Nc1 , p2 )Обработка текстовОтношение правдободобиягдеОбработка текстовРезультат для корпуса• 2log имеет распределение χ2Обработка текстовЗаключение• Поиск словосочетаний может улучшить качество многих приложений • Для поиска словосочетаний могут использоваться простые статистические модели в комбинации эвристиками • Для проверки “значимости” словосочетаний применяются методы проверки статистических гипотезОбработка текстовСледующая лекция• Методы классификации и кластеризации текстов.

Характеристики

Тип файла
PDF-файл
Размер
1,87 Mb
Тип материала
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее