lecture3-2015 (1126922), страница 2
Текст из файла (страница 2)
д.• Шаблоны–Предыдущее (следующее) слово имеет тэг X–Два слова перед (после) имеют класс X–Предыдущее слово имеет класс X, а следующее класс Z–...Обработка текстовКакие можно встретить трудности• Разбиение на лексемы–would/MD n’t/RB–children/NNS ‘s/POS• Неизвестные слова–использовать равномерное распределение–использовать априорное распределение–использовать морфологию словОбработка текстовЗаключение• N-граммы - один из наиболее используемыхинструментов при обработке текста• Вероятности оцениваются с помощью методамаксимального правдоподобия• Сглаживание позволяет лучше оцениватьвероятности, чем ММП• Для оценки качества модели могутиспользоваться внутренние и внешние оценки• Задача определения частей речи состоит вназначении метки с частью речи каждому слову• Параметры скрытой марковской модели могутбыть определены из размеченного корпусаОбработка текстовСледующая лекция• Статистические методы поискасловосочетаний.