Лекции-2016 (1126938), страница 8
Текст из файла (страница 8)
. . , wn• Состояние парсера c = (s, b, A) :–стек s = [Root]–буфер b = [w1 , w2 , . . . , wn ]–множество дуг зависимостей A = ;Обработка текстовРазбор в грамматикузависимостей• Остановка–стек содержит один узел ROOT–и буфер пуст• На каждой итерации происходит выбородного из трех правил (для выбораиспользуется классификатор)–LEFT-ARC(label): добавление дуги s1 ! s2 с меткойlabel и удаление s2 из стека. Предусловие: |s| 2–RIGHT-ARC(label): добавление дуги s2 ! s1 с меткойlabel и удаление s1 из стека. Предусловие: |s| 2–SHIFT: перенос b1 из буфера в стек. |b| 1Обработка текстовПримерОбработка текстовВыбор правила• Обучение на размеченном корпусе(например, SynTagRus)• ПризнакиЧасть речиСловоtwЭлемент в стекеsiСамый левый lc1 (si )и самый правый rc1 (si )потомки siОбработка текстовОценка качества алгоритма• Метрика PARSEVAL: пусть P - дереворазбора, созданное алгоритмом, Т дерево разбора, созданное экспертами–Точность = (# правильных компонент в P) / (# компонент в T)–Полнота = (# правильных компонент в P) / (# компонент в P)–F-мера = 2PR / (P + R)• Современные алгоритмы показываютточность и полноту более 90%Обработка текстовОценка качества алгоритмаT - дерево, размеченноевручнуюP - вычисленное деревоSSVPVerbbookVPNPDetVPNominalthe NominalNounVerbPPPrepbookNPflight through Proper-NounHouston# компонент: 12Точность = 10/12= 83.3%Полнота = 10/12= 83.3%F1 = 83.3%NPDettheNominalPPNounPrepNPflight through Proper-NounHouston# компонент: 12# правильных компонент: 10Обработка текстовДелают ли люди синтаксическийразбор?• Психолингвистика• Алгоритмы синтаксического разбора могутбыть использованы для предсказаниявремени, которое потребуется человеку дляпрочтения каждого слова в предложении• Чем выше вероятность слова, тем скоростьчтения больше• Для моделирования этого эффекта требуетсяинкрементальный алгоритмОбработка текстовПредложения с временнойнеоднозначностью• Garden path sentence–Complex houses married students–The horse raced past the barn fell• Инкрементальные парсеры могут найти иобъяснить сложность таких предложенийОбработка текстовСложность языка• Является ли естественный языкрегулярным?–контр-пример был на прошлой лекции• Является ли естественный языкконтекстно-свободным?–Диалект немецкого языка в Швейцариисодержит контекстно-зависимые конструкциивида anbmcndm• Сложность понимания людьми–чем проще конструкция, тем легче пониманиесмысла текстаОбработка текстовЗаключение• Статистические модели, такие как СКСпозволяют разрешать многозначность• СКС может можно выучить на основебанка деревьев• Учет лексики и разделениенетерминальных символов позволяетразрешить дополнительныенеоднозначности• Точность современных алгоритмовсинтаксического разбора высока, но недостигает уровня экспертного разбораОбработка текстовСледующая лекция• Лексическая семантика и разрешениелексической многозначностиОбработка текстовОсновы обработкитекстовЛекция 9Лексическая семантикаОбработка текстовВозможные взгляды насемантику• Лексическая семантика–значение индивидуальных слов• Композиционная семантика–как значения комбинируются и определяютновые значения для словосочетаний• Дискурс или прагматика–как значения комбинируются между собой идругими знаниями, чтобы задать значениетекста или дискурсОбработка текстовПлан• Основные понятия– слова и отношения между ними– словари и тезаурусы• Вычислительная семантика– Разрешение лексической многозначности– Семантическая близость слов– Некоторые современные направленияОбработка текстовОсновные понятия• Значение слова и многозначность• Омонимия VS многозначность–ключ–платформа• Метонимия– Я три тарелки съел• Зевгма–За окном шел снег и рота красноармейцев• Типы омонимов–омофоны (луг-лук, плод-плот)–омографы (м’ука - мук’а, гв’оздик-гвозд’ик)Обработка текстовОтношения между словами• Синонимия– Машина / автомобиль• Антонимия– большой / маленький, вверх / вниз, ложь / истина• Обобщение и детализация (hyponym andhypernym/superordinate)– машина - транспорнтое средство– яблоко - фрукт• Меронимы (партонимы) и холонимы– колесо - машинаОбработка текстовМногозначность на практике• Text-to-Speech–омографы• Информационный поиск• Извлечение информации• Машинный перевод0,9000Frequency• Закон Ципфа (Zipf law)0,6750NounVerbAdjAdv0,4500SemCor0,22500,00001234567Sense number8910Обработка текстовWordNet• База лексических отношений––––содержит иерархиисочетает в себе тезаурус и словарьдоступен on-lineразрабатываются версии для языков кромеанглийского (в т.ч.
для русского)КатегорияУникальных формСуществительные117,097Глаголы11,488Прилагательные22,141Наречия4,601 h"p://h"p://wordnet.princeton.edu/ h"p://wordnet.ru/Обработка текстовФормат WordNetОбработка текстовWordNet: отношения междусловамиОбработка текстовИерархии WordNetОбработка текстовКак “зачение” определяется вWordNet• Множестно синонимов называется синсет• Примерfrom nltk.corpus import wordnetfor synset in wordnet.synsets('chick'):print synset.definitionprint [lemma.name for lemma in synset.lemmas]young bird especially of domestic fowl['chick', 'biddy']informal terms for a (young) woman['dame', 'doll', 'wench', 'skirt', 'chick', 'bird']Обработка текстовВычислительная лексическаясемантика• Разрешение лексической многозначности• Семантическая близость словОбработка текстовТрудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes26 11 4 8 5 4 10 8 3 sensessensessensessensessensessensessensessensessenses43,929,600sensesОбработка текстовРазрешение лексическоймногозначности (РЛМ)• Word Sense Disambiguation (WSD)– определение значения слова в контексте– обычно предполагается фиксированныйсписок значений (например WordNet)• Сводится к задаче классификации• Отличается от задачи разграничениязначений (word sense discrimination)Обработка текстовРЛМ: варианты• Определение значений только заранеевыбранных слов (lexical sample task)– line - hard - serve; interest– Ранние работы– Обучение с учителем• Определение значений всех слов (all-wordtask)– Проблема разреженности данных– Невозможно натренировать отдельныйклассификатор для каждого словаОбработка текстовПризнаки• Должны описывать контекст• Предварительная обработка текста–параграфы, предложения, части речи, леммы,синтаксический разбор?• Признаки в словосочетаниях с позициями• Множества соседей• Проблема разреженности языка– Использовать семантическую близость(далее)Обработка текстовПримерAn electric guitar and bass player stand off to one side, not really partof the scene, just as a sort of nod to gringo expectations perhaps.Collocational featuresBag-of-words featuresword_L3electricfishing0POS_L3JJbig0word_L2guitarsound0POS_L2NNplayer1word_L1andfly0POS_L1CCrod0word_R1playerpound0POS_R1NNdouble0word_R2standruns0POS_R2VBplaying0word_R3offguitar1POS_R3RBband0Обработка текстовАлгоритмы• Любые методы классификации–(Пример) Наивный байесовский классификаторОбработка текстовНаивный байесовскийклассификатор• Выбор наиболее вероятного значенияŝ = arg max P (s|f )s S• По правилу БайесаP (s)P (f |s)ŝ = arg max= arg max P (s)P (f |s)P (f )s Ss S• Наивное предположение об условнойнезависимости признаковnŝ = arg max P (s)s Sj=1P (fi |s)Обработка текстовОбучение наивногобайесовского классификатора• Метод максимального правдоподобия• Другими словам, просто считаем• Алгоритм прост в реализации, но– Исчезновение значащих цифр àиспользовать сумму логарифмов вместопроизведения– Нулевые вероятности à сглаживаниеОбработка текстовВопрос на засыпку• Как сделать классификатор для задачиопределения значений всех слов (all-wordtask)?Обработка текстовМетоды оценки• Внешние (in vivo)– Машинный перевод с/без РЛМ• Внутренние (in vitro)– Применение к размеченным данным (SemCor, SENSEVAL,SEMEVAL)– Измерение точности и полноты в сравнении со стандартнымизначениями• Нижняя граница– Выбор случайных значений работает плохо– Более сильные границы: наиболее частое значение, алгоритм Леска• Верхняя граница: согласие экспертов– 75-80 для задачи определения значений всех слов со значениями изWordNet– до 90% с менее гранулированными значениямиОбработка текстовНаиболее частое значение• Сравнение методов на SENSEVAL-2• McCarthy et.