Слайды со всех лекций (1126919), страница 6
Текст из файла (страница 6)
для русского)КатегорияУникальных формСуществительные117,097Глаголы11,488Прилагательные22,141Наречия4,601 http://http://wordnet.princeton.edu/ http://wordnet.ru/21 ноября 2011 г.Формат WordNet21 ноября 2011 г.WordNet: отношения междусловами21 ноября 2011 г.Иерархии WordNet21 ноября 2011 г.Как “зачение” определяется вWordNet• Множестно синонимов называется синсет• Примерfrom nltk.corpus import wordnetfor synset in wordnet.synsets('chick'):print synset.definitionprint [lemma.name for lemma in synset.lemmas]young bird especially of domestic fowl['chick', 'biddy']informal terms for a (young) woman['dame', 'doll', 'wench', 'skirt', 'chick', 'bird']21 ноября 2011 г.Вычислительная лексическаясемантика• Разрешение лексической многозначности• Семантическая близость слов21 ноября 2011 г.Трудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes21 ноября 2011 г.Трудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes21 ноября 2011 г.261148541083sensessensessensessensessensessensessensessensessensesТрудность разрешениялексической многозначностиI saw a man who is 98 years old and can still walk and tell jokes261148541083sensessensessensessensessensessensessensessensessenses43,929,600senses21 ноября 2011 г.Разрешение лексическоймногозначности (РЛМ)• Word Sense Disambiguation (WSD)– определение значения слова в контексте– обычно предполагается фиксированныйсписок значений (например WordNet)• Сводится к задаче классификации• Отличается от задачи разграничениязначений (word sense discrimination)21 ноября 2011 г.РЛМ: варианты• Определение значений только заранеевыбранных слов (lexical sample task)– line - hard - serve; interest– Ранние работы– Обучение с учителем• Определение значений всех слов (all-wordtask)– Проблема разреженности данных– Невозможно натренировать отдельныйклассификатор для каждого слова21 ноября 2011 г.Признаки• Должны описывать контекст• Предварительная обработка текста–параграфы, предложения, части речи, леммы,синтаксический разбор?• Признаки в словосочетаниях с позициями• Множества соседей21 ноября 2011 г.ПримерAn electric guitar and bass player stand off to one side, not really partof the scene, just as a sort of nod to gringo expectations perhaps.Collocational features21 ноября 2011 г.Bag-of-words featuresword_L3electricfishing0POS_L3JJbig0word_L2guitarsound0POS_L2NNplayer1word_L1andfly0POS_L1CCrod0word_R1playerpound0POS_R1NNdouble0word_R2standruns0POS_R2VBplaying0word_R3offguitar1POS_R3RBband0Алгоритмы• Наивный байесовский классификатор• Классификатор на основе списковпринятий решений21 ноября 2011 г.Наивный байесовскийклассификатор• Выбор наиболее вероятного значенияŝ = arg max P (s|f )s∈S• По правилу БайесаP (s)P (f |s)ŝ = arg max= arg max P (s)P (f |s)P (f )s∈Ss∈S• Наивное предположение об условнойнезависимости признаковŝ = arg max P (s)s∈S21 ноября 2011 г.n!j=1P (fi |s)Обучение наивногобайесовского классификатора• Метод максимального правдоподобия• Другими словам, просто считаем• Алгоритм прост в реализации, но– Исчезновение значащих цифр использовать сумму логарифмов вместопроизведения– Нулевые вероятность сглаживание21 ноября 2011 г.Списки принятий решений• Последовательность тестов надпризнаками– аналогично условным выражениям впрограммировании– каждое условие определяет конкретное значение– по умолчанию: наиболее частое значение21 ноября 2011 г.Обучение списка принятиярешений• Yarowsky (1994) предложил метод:– считаем все пары признак-значение– сортируем в порядке убываниялогарифмического отношения правдоподобия! "#!!!P(Sense|f)1i!log!!P (Sense2 |fi !• Отличается от стандартного методаобучения списков принятия решений(Рассел, Норвиг 2006)21 ноября 2011 г.Методы оценки• Внешние (in vivo)– Машинный перевод с/без РЛМ• Внутренние (in vitro)– Применение к размеченным данным (SemCor, SENSEVAL,SEMEVAL)– Измерение точности и полноты в сравнении со стандартнымизначениями• Нижняя граница– Выбор случайных значений работает плохо– Более сильные границы: наиболее частое значение, алгоритм Леска• Верхняя граница: согласие экспертов– 75-80 для задачи определения значений всех слов со значениями изWordNet– до 90% с менее гранулированными значениями21 ноября 2011 г.Наиболее частое значение• Сравнение методов на SENSEVAL-2• McCarthy et.
al. 2004 ACL - поиск наиболеечастого значения по неразмеченному корпусу21 ноября 2011 г.Методы основанные насловорях и тезаурусах• Алгоритм Леска (1986)–Взять все определения целевого слова из словаря–Сравнить с определениями слов в контексте–Выбрать значение с максимальным пересечением• Пример• pine1.2.a kind of evergreen tree with needle-shaped leavesto waste away through sorrow or illness• cone1.2.3.A solid body which narrows to a pointSomething of this shape, whether solid or hollowFruit of certain evergreen trees• Определить значение: pine cone21 ноября 2011 г.Варианты алгоритма Леска• Упрощенный (Simplified Lesk)–Взять все определения целевого слова из словаря–Сравнить с определениями слов в контексте–Выбрать значение с максимальным пересечением• Корпусный (Corpus Lesk)–Включить предложения из размеченного корпуса всигнатуру каждого значения–Взвесить слова через IDF–IDF(w) = -log P(w)–Показывает лучшие результаты–Использовался как нижняя граница на SENSEVAL21 ноября 2011 г.Самонастройка (Bootstrapping)• Yarowsky (1995)––––Начать с маленького множества данных, размеченного вручнуюНатренировать список принятия решенийПрименить классификатор к неразмеченным даннымПереместить примеры в которых мы уверены в тренировочноемножество– Повторить!• Требует хорошей метрики уверенности– логарифмическое отношение правдоподобия• Эвристики для получения начальных данных– одно значение на словосочетание– одно значение на дискурс21 ноября 2011 г.Алгоритм Yarowsky21 ноября 2011 г.Семантическая близость слов• Подходы на основе тезаурусов• Подходы на основе статистики21 ноября 2011 г.Семантическая близость словв тезаурусах• Можно использовать любые отношениямежду словами• На практике используется иерархическаяструктура и иногда описания значений• Похожесть (similarity) VS связность(relatedness)– машина и топливо: не похожи но связаны– машина и велосипед: похожи21 ноября 2011 г.Близость по пути в иерархии• Два понятия семантически близки, еслиони находятся рядом в иерархии21 ноября 2011 г.Информационное содержимое• Information content• Определим P(C) как:–Вероятность, что случайно выбранное слово вкорпусе является экземпляром класса C–P(root)=1–Чем ниже узел в иерархии, тем нижевероятность∑ count(w)P(c) =w ∈words(c )N simpath(c1,c2) = -log (pathlen(c1,c2)) wordsim(w1,w2) = maxc1∈senses(w1),c2∈senses(w2) sim(c1,c2)€21 ноября 2011 г.Определение• Расширяем иерархию WordNetвероятностями P(C)21 ноября 2011 г.Определения• Информационное содержимое–IC(c)=-log(c)• Наименьший общий предок– LCS (c1,c2)21 ноября 2011 г.Метод Резника• Resnik (1995)–Чем больше общего между словами, тем болееони похожи– simresnik(c1,c2) = -log P(LCS(c1,c2))21 ноября 2011 г.Метод Лина• Dekang Lin (1998)–При вычислении близости также надоучитывать различие между концепциями• Идея может быть выражена как2 × log(P (LCS(c1 , c2 )))simLin (c1 , c2 ) =log(P (c1 )) + log(P (c2 ))2 × log(P (geological inf ormation))simLin (hill, coast) == 0.59log(P (hill)) + log(P (coast))21 ноября 2011 г.Расширенный алгоритм Леска• Две концепции похожи, если их описаниясодержат похожие слова Drawing paper: paper that is specially prepared for use in drafting Decal: the art of transferring designs from specially prepared paper to awood or glass or metal surface• Каждому словосочетанию длины nназначить вес n2• paper + specially prepared: 1+4 = 521 ноября 2011 г.Резюме: методы, основанныена тезаурусах21 ноября 2011 г.Проблемы с подходом,основанном на тезаурусе• Не доступен для многих языков• Много слов пропущено• Используются только обобщения идетализация–Хорошо работает для имен существительных–Для прилагательных и глаголов намного хуже• Альтернатива–статистические подходы21 ноября 2011 г.Статистический подход коценки близости слов• Firth (1957): “You shall know a word by thecompany it keeps!”• ПримерБутылка tezgüino стоит на столеВсе любят tezgüinoTezgüino делает тебя пьянымМы делаем tezgüino из кукурузы• Идея:– из контекста можно понять значение слова– надо взять контекст и посмотреть, какие ещеслова имеют такой же контекст21 ноября 2011 г.Векторное представление контекста• Для каждого слова из словаря определимбинарный признак, показывающийвстречаемость вместе с целевым словом w• w=(f1,f2,f3,...,fN)• w= tezgüino, v1=бутылка, v2=кукуруза,v3=матрица• w = (1,1,0,...)21 ноября 2011 г.Идея• Задать два слова через разреженныйвектор признаков• Применить метрику близости векторов• Два слова близки, если векторы близки21 ноября 2011 г.Статистический подход коценки близости слов• Необходимо определить 3 вещи:–совместная встречаемость–вес термина–близость между векторами21 ноября 2011 г.Совместная встречаемость• Проблема разреженности векторов• Идея решения: использовать толькослова, входящие в синтаксическиеотношения21 ноября 2011 г.Вес термина• Manning and Schuetze (1999)21 ноября 2011 г.Близость между векторами21 ноября 2011 г.Оценка качества• Внутренняя–Коэффициент корреляции между• результатами алгоритма и• значениями, поставленными людьми• Внешняя–Встроить в приложение• Поиск опечаток• Поиск плагиата• РЛМ21 ноября 2011 г.Современные направления• Использование контента,созданного пользователями–Википедия и вики-энциклопедии• Mihalcea and Csomai 2007• Milne and Witten 2008• Texterra (ИСП РАН)–Открытые данные, связанныессылками (Linked open data)• Melli and Ester 2010• Rusu, Fortuna, Mladenic 201121 ноября 2011 г.Заключение• Лексическая семантика изучает значенияотдельных слов• WordNet содержит различные отношениямежду словами, синсеты задают значенияслов• Разрешение лексической многозначности- задача определения значений слов• Семантическая близость между словами полезный инструмент для монгихприложений21 ноября 2011 г.Что не было рассказано• Композиционная семантика• Представление знаний• Семантические поля и семантическиероли–PropBank–FrameNet• Задача разграничения значений• Автоматическое извлечение отношениймежду словами• ...21 ноября 2011 г.Следующая лекция• Вопросно-ответные системы• Автоматическое реферирование21 ноября 2011 г.Введение в обработкутекстовЛекция 8Вопросно-ответные системы иавтоматическое реферирование2 декабря 2011 г.План• Вопросно-ответные системы• Автоматическое рефеферирование2 декабря 2011 г.Вопросно-ответные сиситемыКакой национальности папа римскийБенедикт XVI?Ватикан выступил во вторник, 12 мая, с опровержениеминформации о том, что Папа Римский Бенедикт XVI вюности состоял в гитлерюгенде.
"Йозеф Рацингер (имяпонтифика, немца по национальности) никогда не состоялв гитлерюгенде - идеологической нацистской организации.Короткий фрагмент текста, не URLОтвет: Немец2 декабря 2011 г.Примеры систем2 декабря 2011 г.Типы вопросовО фактахСпискиОпределения2 декабря 2011 г.Какая обычная высота жирафа?Где расположен главный офис Google ?Какие страны экспортируют нефть?Какие названи имеют штаты США?Кто такой Франсуа Томбалбай?Что такое квазар?Вопросы о фактах• Ответом служит простой факт– Примеры:• Где расположен Лувр?• Какая называется валюта Китая?• Какой оффициальный язык Алжира?• Существует большая разница междупостановкой вопроса и описанием ответа втексте– Какая компания является лидером по производствуоткрыток?– Компания "Арт и Дизайн" десять лет назад создала вРоссии практически новый рынок.