Лекции-2016 (1126938), страница 8

Файл №1126938 Лекции-2016 (Лекции 2016 года) 8 страницаЛекции-2016 (1126938) страница 82019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 8)

. . , wn• Состояние парсера c = (s, b, A) :–стек s = [Root]–буфер b = [w1 , w2 , . . . , wn ]–множество дуг зависимостей A = ;Обработка текстовРазбор в грамматикузависимостей• Остановка–стек содержит один узел ROOT–и буфер пуст• На каждой итерации происходит выбородного из трех правил (для выбораиспользуется классификатор)–LEFT-ARC(label): добавление дуги s1 ! s2 с меткойlabel и удаление s2 из стека. Предусловие: |s| 2–RIGHT-ARC(label): добавление дуги s2 ! s1 с меткойlabel и удаление s1 из стека. Предусловие: |s| 2–SHIFT: перенос b1 из буфера в стек. |b| 1Обработка текстовПримерОбработка текстовВыбор правила• Обучение на размеченном корпусе(например, SynTagRus)• ПризнакиЧасть речиСловоtwЭлемент в стекеsiСамый левый lc1 (si )и самый правый rc1 (si )потомки siОбработка текстовОценка качества алгоритма• Метрика PARSEVAL: пусть P - дереворазбора, созданное алгоритмом, Т дерево разбора, созданное экспертами–Точность = (# правильных компонент в P) / (# компонент в T)–Полнота = (# правильных компонент в P) / (# компонент в P)–F-мера = 2PR / (P + R)• Современные алгоритмы показываютточность и полноту более 90%Обработка текстовОценка качества алгоритмаT - дерево, размеченноевручнуюP - вычисленное деревоSSVPVerbbookVPNPDetVPNominalthe NominalNounVerbPPPrepbookNPflight through Proper-NounHouston# компонент: 12Точность = 10/12= 83.3%Полнота = 10/12= 83.3%F1 = 83.3%NPDettheNominalPPNounPrepNPflight through Proper-NounHouston# компонент: 12# правильных компонент: 10Обработка текстовДелают ли люди синтаксическийразбор?• Психолингвистика• Алгоритмы синтаксического разбора могутбыть использованы для предсказаниявремени, которое потребуется человеку дляпрочтения каждого слова в предложении• Чем выше вероятность слова, тем скоростьчтения больше• Для моделирования этого эффекта требуетсяинкрементальный алгоритмОбработка текстовПредложения с временнойнеоднозначностью• Garden path sentence–Complex houses married students–The horse raced past the barn fell• Инкрементальные парсеры могут найти иобъяснить сложность таких предложенийОбработка текстовСложность языка• Является ли естественный языкрегулярным?–контр-пример был на прошлой лекции• Является ли естественный языкконтекстно-свободным?–Диалект немецкого языка в Швейцариисодержит контекстно-зависимые конструкциивида anbmcndm• Сложность понимания людьми–чем проще конструкция, тем легче пониманиесмысла текстаОбработка текстовЗаключение• Статистические модели, такие как СКСпозволяют разрешать многозначность• СКС может можно выучить на основебанка деревьев• Учет лексики и разделениенетерминальных символов позволяетразрешить дополнительныенеоднозначности• Точность современных алгоритмовсинтаксического разбора высока, но недостигает уровня экспертного разбораОбработка текстовСледующая лекция• Лексическая семантика и разрешениелексической многозначностиОбработка текстовОсновы обработкитекстовЛекция 9Лексическая семантикаОбработка текстовВозможные взгляды насемантику• Лексическая семантика–значение индивидуальных слов• Композиционная семантика–как значения комбинируются и определяютновые значения для словосочетаний• Дискурс или прагматика–как значения комбинируются между собой идругими знаниями, чтобы задать значениетекста или дискурсОбработка текстовПлан• Основные понятия– слова и отношения между ними– словари и тезаурусы• Вычислительная семантика– Разрешение лексической многозначности– Семантическая близость слов– Некоторые современные направленияОбработка текстовОсновные понятия• Значение слова и многозначность• Омонимия VS многозначность–ключ–платформа• Метонимия– Я три тарелки съел• Зевгма–За окном шел снег и рота красноармейцев• Типы омонимов–омофоны (луг-лук, плод-плот)–омографы (м’ука - мук’а, гв’оздик-гвозд’ик)Обработка текстовОтношения между словами• Синонимия– Машина / автомобиль• Антонимия– большой / маленький, вверх / вниз, ложь / истина• Обобщение и детализация (hyponym andhypernym/superordinate)– машина - транспорнтое средство– яблоко - фрукт• Меронимы (партонимы) и холонимы– колесо - машинаОбработка текстовМногозначность на практике• Text-to-Speech–омографы• Информационный поиск• Извлечение информации• Машинный перевод0,9000Frequency• Закон Ципфа (Zipf law)0,6750NounVerbAdjAdv0,4500SemCor0,22500,00001234567Sense number8910Обработка текстовWordNet• База лексических отношений––––содержит иерархиисочетает в себе тезаурус и словарьдоступен on-lineразрабатываются версии для языков кромеанглийского (в т.ч.

для русского)КатегорияУникальных формСуществительные117,097Глаголы11,488Прилагательные22,141Наречия4,601— h"p://h"p://wordnet.princeton.edu/ — h"p://wordnet.ru/Обработка текстовФормат WordNetОбработка текстовWordNet: отношения междусловамиОбработка текстовИерархии WordNetОбработка текстовКак “зачение” определяется вWordNet• Множестно синонимов называется синсет• Примерfrom nltk.corpus import wordnetfor synset in wordnet.synsets('chick'):print synset.definitionprint [lemma.name for lemma in synset.lemmas]young bird especially of domestic fowl['chick', 'biddy']informal terms for a (young) woman['dame', 'doll', 'wench', 'skirt', 'chick', 'bird']Обработка текстовВычислительная лексическаясемантика• Разрешение лексической многозначности• Семантическая близость словОбработка текстовТрудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes26
11
4
8
5
4
10
8
3
sensessensessensessensessensessensessensessensessenses43,929,600sensesОбработка текстовРазрешение лексическоймногозначности (РЛМ)• Word Sense Disambiguation (WSD)– определение значения слова в контексте– обычно предполагается фиксированныйсписок значений (например WordNet)• Сводится к задаче классификации• Отличается от задачи разграничениязначений (word sense discrimination)Обработка текстовРЛМ: варианты• Определение значений только заранеевыбранных слов (lexical sample task)– line - hard - serve; interest– Ранние работы– Обучение с учителем• Определение значений всех слов (all-wordtask)– Проблема разреженности данных– Невозможно натренировать отдельныйклассификатор для каждого словаОбработка текстовПризнаки• Должны описывать контекст• Предварительная обработка текста–параграфы, предложения, части речи, леммы,синтаксический разбор?• Признаки в словосочетаниях с позициями• Множества соседей• Проблема разреженности языка– Использовать семантическую близость(далее)Обработка текстовПримерAn electric guitar and bass player stand off to one side, not really partof the scene, just as a sort of nod to gringo expectations perhaps.Collocational featuresBag-of-words featuresword_L3electricfishing0POS_L3JJbig0word_L2guitarsound0POS_L2NNplayer1word_L1andfly0POS_L1CCrod0word_R1playerpound0POS_R1NNdouble0word_R2standruns0POS_R2VBplaying0word_R3offguitar1POS_R3RBband0Обработка текстовАлгоритмы• Любые методы классификации–(Пример) Наивный байесовский классификаторОбработка текстовНаивный байесовскийклассификатор• Выбор наиболее вероятного значенияŝ = arg max P (s|f )s S• По правилу БайесаP (s)P (f |s)ŝ = arg max= arg max P (s)P (f |s)P (f )s Ss S• Наивное предположение об условнойнезависимости признаковnŝ = arg max P (s)s Sj=1P (fi |s)Обработка текстовОбучение наивногобайесовского классификатора• Метод максимального правдоподобия• Другими словам, просто считаем• Алгоритм прост в реализации, но– Исчезновение значащих цифр àиспользовать сумму логарифмов вместопроизведения– Нулевые вероятности à сглаживаниеОбработка текстовВопрос на засыпку• Как сделать классификатор для задачиопределения значений всех слов (all-wordtask)?Обработка текстовМетоды оценки• Внешние (in vivo)– Машинный перевод с/без РЛМ• Внутренние (in vitro)– Применение к размеченным данным (SemCor, SENSEVAL,SEMEVAL)– Измерение точности и полноты в сравнении со стандартнымизначениями• Нижняя граница– Выбор случайных значений работает плохо– Более сильные границы: наиболее частое значение, алгоритм Леска• Верхняя граница: согласие экспертов– 75-80 для задачи определения значений всех слов со значениями изWordNet– до 90% с менее гранулированными значениямиОбработка текстовНаиболее частое значение• Сравнение методов на SENSEVAL-2• McCarthy et.

Характеристики

Тип файла
PDF-файл
Размер
7,46 Mb
Тип материала
Высшее учебное заведение

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6447
Авторов
на СтудИзбе
306
Средний доход
с одного платного файла
Обучение Подробнее