lecture8-2015 (1126927)

Файл №1126927 lecture8-2015 (Лекции 2015 года)lecture8-2015 (1126927)2019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Обработка текстовОсновы обработкитекстовЛекция 8Лексическая семантикаОбработка текстовВозможные взгляды насемантику• Лексическая семантика–значение индивидуальных слов• Композиционная семантика–как значения комбинируются и определяютновые значения для словосочетаний• Дискурс или прагматика–как значения комбинируются между собой идругими знаниями, чтобы задать значениетекста или дискурсОбработка текстовПлан• Основные понятия– слова и отношения между ними– словари и тезаурусы• Вычислительная семантика– Разрешение лексической многозначности– Семантическая близость слов– Некоторые современные направленияОбработка текстовОсновные понятия• Значение слова и многозначность• Омонимия VS многозначность–ключ–платформа• Метонимия– Я три тарелки съел• Зевгма–За окном шел снег и рота красноармейцев• Типы омонимов–омофоны (луг-лук, плод-плот)–омографы (м’ука - мук’а, гв’оздик-гвозд’ик)Обработка текстовОтношения между словами• Синонимия– Машина / автомобиль• Антонимия– большой / маленький, вверх / вниз, ложь / истина• Обобщение и детализация (hyponym andhypernym/superordinate)– машина - транспорнтое средство– яблоко - фрукт• Меронимы (партонимы) и холонимы– колесо - машинаОбработка текстовМногозначность на практике• Text-to-Speech–омографы• Закон Ципфа (Zipf law)Frequency• Информационный поиск• Извлечение информации• Машинный перевод• Эмоциональная окраска0,90000,6750NounVerbAdjAdv0,4500SemCor0,22500,00001234567Sense number8910Обработка текстовWordNet• База лексических отношений––––содержит иерархиисочетает в себе тезаурус и словарьдоступен on-lineразрабатываются версии для языков кромеанглийского (в т.ч.

для русского)КатегорияУникальных формСуществительные117,097Глаголы11,488Прилагательные22,141Наречия4,601— h"p://h"p://wordnet.princeton.edu/ — h"p://wordnet.ru/Обработка текстовФормат WordNetОбработка текстовWordNet: отношения междусловамиОбработка текстовИерархии WordNetОбработка текстовКак “зачение” определяется вWordNet• Множестно синонимов называется синсет• Примерfrom nltk.corpus import wordnetfor synset in wordnet.synsets('chick'):print synset.definitionprint [lemma.name for lemma in synset.lemmas]young bird especially of domestic fowl['chick', 'biddy']informal terms for a (young) woman['dame', 'doll', 'wench', 'skirt', 'chick', 'bird']Обработка текстовВычислительная лексическаясемантика• Разрешение лексической многозначности• Семантическая близость словОбработка текстовТрудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes26
11
4
8
5
4
10
8
3
sensessensessensessensessensessensessensessensessenses43,929,600sensesОбработка текстовРазрешение лексическоймногозначности (РЛМ)• Word Sense Disambiguation (WSD)– определение значения слова в контексте– обычно предполагается фиксированныйсписок значений (например WordNet)• Сводится к задаче классификации• Отличается от задачи разграничениязначений (word sense discrimination)Обработка текстовРЛМ: варианты• Определение значений только заранеевыбранных слов (lexical sample task)– line - hard - serve; interest– Ранние работы– Обучение с учителем• Определение значений всех слов (all-wordtask)– Проблема разреженности данных– Невозможно натренировать отдельныйклассификатор для каждого словаОбработка текстовПризнаки• Должны описывать контекст• Предварительная обработка текста–параграфы, предложения, части речи, леммы,синтаксический разбор?• Признаки в словосочетаниях с позициями• Множества соседей• Проблема разреженности языка– Использовать семантическую близость(далее)Обработка текстовПримерAn electric guitar and bass player stand off to one side, not really partof the scene, just as a sort of nod to gringo expectations perhaps.Collocational featuresBag-of-words featuresword_L3electricfishing0POS_L3JJbig0word_L2guitarsound0POS_L2NNplayer1word_L1andfly0POS_L1CCrod0word_R1playerpound0POS_R1NNdouble0word_R2standruns0POS_R2VBplaying0word_R3offguitar1POS_R3RBband0Обработка текстовАлгоритмы• Любые методы классификации–(Пример) Наивный байесовский классификаторОбработка текстовНаивный байесовскийклассификатор• Выбор наиболее вероятного значенияŝ = arg max P (s|f )s S• По правилу БайесаP (s)P (f |s)ŝ = arg max= arg max P (s)P (f |s)P (f )s Ss S• Наивное предположение об условнойнезависимости признаковnŝ = arg max P (s)s Sj=1P (fi |s)Обработка текстовОбучение наивногобайесовского классификатора• Метод максимального правдоподобия• Другими словам, просто считаем• Алгоритм прост в реализации, но– Исчезновение значащих цифр àиспользовать сумму логарифмов вместопроизведения– Нулевые вероятности à сглаживаниеОбработка текстовВопрос на засыпку• Как сделать классификатор для задачиопределения значений всех слов (all-wordtask)?Обработка текстовМетоды оценки• Внешние (in vivo)– Машинный перевод с/без РЛМ• Внутренние (in vitro)– Применение к размеченным данным (SemCor, SENSEVAL,SEMEVAL)– Измерение точности и полноты в сравнении со стандартнымизначениями• Нижняя граница– Выбор случайных значений работает плохо– Более сильные границы: наиболее частое значение, алгоритм Леска• Верхняя граница: согласие экспертов– 75-80 для задачи определения значений всех слов со значениями изWordNet– до 90% с менее гранулированными значениямиОбработка текстовНаиболее частое значение• Сравнение методов на SENSEVAL-2• McCarthy et.

al. 2004 ACL - поиск наиболеечастого значения по неразмеченному корпусуОбработка текстовМетоды основанные насловорях и тезаурусах• Алгоритм Леска (1986)–Взять все определения целевого слова из словаря–Сравнить с определениями слов в контексте–Выбрать значение с максимальным пересечением• Пример• pine1. a kind of evergreen tree with needle-shaped leaves2. to waste away through sorrow or illness• cone1. A solid body which narrows to a point2. Something of this shape, whether solid or hollow3.

Fruit of certain evergreen trees• Определить значение: pine coneОбработка текстовВарианты алгоритма Леска• Упрощенный (Simplified Lesk)–Взять все определения целевого слова из словаря–Сравнить со определениями словами в контексте–Выбрать значение с максимальным пересечением• Корпусный (Corpus Lesk)–Включить предложения из размеченного корпуса всигнатуру каждого значения–Взвесить слова через IDF–IDF(w) = -log P(w)–Показывает лучшие результаты–Использовался как нижняя граница на SENSEVALОбработка текстовСамонастройка (Bootstrapping)• Yarowsky (1995)––––Начать с маленького множества данных, размеченного вручнуюНатренировать список принятия решенийПрименить классификатор к неразмеченным даннымПереместить примеры в которых мы уверены в тренировочноемножество– Повторить!• Требует хорошей метрики уверенности– логарифмическое отношение правдоподобия• Эвристики для получения начальных данных– одно значение на словосочетание– одно значение на дискурсОбработка текстовАлгоритм YarowskyОбработка текстовСемантическая близость слов• Подходы на основе тезаурусов• Подходы на основе статистикиОбработка текстовМотивация• Хороший признак для многих задач• Позволяет бороться с разреженностьюязыка• Имеет прикладное применение– поиск опечаток (с учетом семантики)– поиск плагиата– извлечение информацииОбработка текстовПодход на основе тезаурусов• Близость по пути• Метод Резника• Метод Лина• Расширенный алгоритм ЛескаОбработка текстовСемантическая близость словв тезаурусах• Можно использовать любые отношениямежду словами• На практике используется иерархическаяструктура и иногда описания значений• Похожесть (similarity) VS связность(relatedness)– машина и топливо: не похожи но связаны– машина и велосипед: похожиОбработка текстовБлизость по пути в иерархии• Два понятия семантически близки, еслиони находятся рядом в иерархииОбработка текстовБлизость между словами• Только что мы посчитали близость междупонятиями• Перейдем ко словам— simpath(c1,c2) = -­‐log (pathlen(c1,c2)) — wordsim(w1,w2) = maxc1∈senses(w1),c2∈senses(w2) sim(c1,c2)Обработка текстовДругие методы• Сначала немного определений...–Информационное содержимое–Наименьший общий предокОбработка текстовВероятность класса• Определим P(C) как:–Вероятность, что случайно выбранное слово вкорпусе является экземпляром класса C–P(root)=1–Чем ниже узел в иерархии, тем нижевероятность∑ count(w)P(c) =€w ∈words(c )NОбработка текстовИнформационное содержимое• Расширяем иерархию WordNetвероятностями P(C)Обработка текстовОпределения• Информационное содержимое–IC(c)=-log(P(c))• Наименьший общий предок– LCS (c1,c2)Обработка текстовМетод Резника• Resnik (1995)–Чем больше общего между понятиями, темболее они похожи– simresnik(c1,c2) = IC(LCS(c1,c2)) = = -­‐log P(LCS(c1,c2))Обработка текстовМетод Лина• Dekang Lin (1998)–При вычислении близости также надоучитывать различие между понятиями• Идея может быть выражена как2 log(P (LCS(c1 , c2 )))simLin (c1 , c2 ) =log(P (c1 )) + log(P (c2 ))simLin (hill, coast) =2log(P (geological inf ormation))= 0.59log(P (hill)) + log(P (coast))Обработка текстовРасширенный алгоритм Леска• Две концепции похожи, если их описаниясодержат похожие слова— Drawing paper: paper that is specially prepared for use in draFing — Decal: the art of transferring designs from specially prepared paper to a wood or glass or metal surface • Каждому общему словосочетанию длиныn назначить вес n2 • paper + specially prepared: 1+4 = 5Обработка текстовРезюме: методы, основанныена тезаурусахОбработка текстовПроблемы с подходом,основанном на тезаурусе• Не доступен для многих языков• Много слов пропущено• Используются только обобщения идетализация–Хорошо работает для имен существительных–Для прилагательных и глаголов намного хужеОбработка текстовСемантическая близость• Нормализованное количество общих соседейPeter the greatAndreyKolmogorovMstislavKeldyshSergeySobolevYury OsipovMoscowInstitute forSystemProgrammingMarkov PrizeSergeyBulgakovAkademgorodokGraphiConVitus BeringRectorLandau Institutefor TheoreticalPhysicsFree EconomicSocietyTheoretical andMathematicalPhysicsNikolaySklifosovskiyMikhailLomonosovCatherine I ofRussiaSaint Petersburg StateUniversityMoscow Institute ofPhysics and TechnologyIvan SechenovCatherine II ofRussiaVladimir Arnold• Близкие концепции чаще встречаются вместеОбработка текстовСтатистический подход коценки близости слов• Firth (1957): “You shall know a word by thecompany it keeps!”• ПримерБутылка tezgüino стоит на столеВсе любят tezgüinoTezgüino делает тебя пьянымМы делаем tezgüino из кукурузы• Идея:– из контекста можно понять значение слова– надо взять контекст и посмотреть, какие ещеслова имеют такой же контекстОбработка текстовВекторное представление контекста• Для каждого слова из словаря определимбинарный признак, показывающийвстречаемость вместе с целевым словом w• w=(f1,f2,f3,...,fN)• w= tezgüino, v1=бутылка, v2=кукуруза,v3=матрица• w = (1,1,0,...)Обработка текстовИдея• Задать два слова через разреженныйвектор признаков• Применить метрику близости векторов• Два слова близки, если векторы близкиОбработка текстовСтатистический подход коценки близости слов• Необходимо определить 3 вещи:–совместная встречаемость–вес термина–близость между векторамиОбработка текстовСовместная встречаемость• Проблема разреженности–Нужны большие корпусаВес термина• Manning and Schuetze (1999)Обработка текстовБлизость между векторамиОбработка текстовСовременное направление• Использование нейронныхсетей для получения векторногопредставления слов–word2vec, GloVe–http://code.google.com/p/word2vec/• Близость к слову france ->• Задача поиска аналогий– v(king)-v(man)+v(woman)=?• Gensim: реализация наPythonОбработка текстовОценка качества• Внутренняя–Коэффициент корреляции между• результатами алгоритма и• значениями, поставленными людьми• Внешняя–Встроить в приложение• Поиск опечаток• Поиск плагиата• Разрешение лексической многозначностиОбработка текстовЗаключение• Лексическая семантика изучает значенияотдельных слов• WordNet содержит различные отношениямежду словами, синсеты задают значенияслов• Разрешение лексической многозначности- задача определения значений слов• Семантическая близость между словами полезный инструмент для монгихприложенийОбработка текстовЧто не было рассказано• Композиционная семантика• Представление знаний• Семантические поля и семантическиероли–PropBank–FrameNet• Задача разграничения значений• Автоматическое извлечение отношениймежду словами• ...Обработка текстовСледующая лекция• Информационный поиск• Вопросно-ответные системы• Автоматическое реферирование.

Характеристики

Тип файла
PDF-файл
Размер
1,33 Mb
Тип материала
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее