Слайды со всех лекций (1126919), страница 7
Текст из файла (страница 7)
Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.2 декабря 2011 г.Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаТри этапа:3. Обработка ответа2 декабря 2011 г.Веб2) Извлечениефрагментовтекста1. Обработка запроса2.
Извлечениефрагментов текстаIRТипответа3) ОбработкаответаОтветОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе• Формулирование запроса– Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа• Классификация вопроса2 декабря 2011 г.Фомулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых слов2 декабря 2011 г.Question (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value,Nobel, Peace, PrizeQ003: What does the Peugeotcompany manufacture?Peugeot, company,manufactureQ004: How much did Mercury spendon advertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of themanaging director of ApricotComputer?name, managing,director, Apricot,ComputerПереформулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер” “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B A verb-ed B• Where is A A is located in2 декабря 2011 г.Классификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.
Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?2 декабря 2011 г.PersonОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему Причина– Когда Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпус2 декабря 2011 г.Таксономия типов ответов• Может быть построена на основе WordNet(вручную)2 декабря 2011 г.Определение типов ответовPERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?2 декабря 2011 г.performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаIRВеб1.
Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответа2 декабря 2011 г.Типответа3) ОбработкаответаОтветИзвлечение фрагментовтекста• IR-система возвращает список документов• Необходимым фрагментом может бытьпредложение или параграф• Необходимо выбрать фрагменты,потенциально содержащие ответ1. Отсеять фрагменты не содержащие ответ– распознавание именованных сущностей иклассфикация ответов2.
Отранжировать оставршиеся фрагменты– Правила, составленные вручную– Машинное обучение2 декабря 2011 г.Извлечение фрагментовтекста (ранжирование)• Признаки– Число именнованных сущностей правильноготипа в фрагменте– Число ключевых слов из вопроса в фрагменте– Наиболее длинная последовательностьключевых слов запроса в фрагменте– Ранг документа (IR), содержашего фрагмент– Плотность ключевых слов из вопроса вфрагменте– Пересечение N-грамм вопроса и фрагмента2 декабря 2011 г.Извлечение фрагментов• Для извлечения ответа из Веба можнопропустить шаг извлечения фрагмента ииспользовать сниппеты, возвращаемыеинформационно-поисковыми системами2 декабря 2011 г.Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаIRВеб1. Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3.
Обработка ответа2 декабря 2011 г.Типответа3) ОбработкаответаОтветОбработка ответа• Извлечение специфичного ответа изфрагмента• Два основных класса алгоритмов– Основанные на шаблонах– Сбор ответа из N-грамм (N-gramm tiling)2 декабря 2011 г.Алгоритмы на основе шаблонов• Использование информации о типе врегулярных выражениях– Если тип ответа ЧЕЛОВЕК, извлечь именованныесущности ЧЕЛОВЕК из фрагмента• Некоторые типы ответов (например,определения) не подразумевают конкретноготипа именованной сущности в ответе– Использовать регулярные выражения (созданныевручную или автоматически)PatternQuestionAnswer<AP> such as <QP>What is autism?“, developmentaldisorders such asautism”2 декабря 2011 г.Сбор ответа из N-граммАрхитектура AskMSR2 декабря 2011 г.Сбор N-грамм• Назначить вес N-грамме равный колличествусниппетов, в которых она встретилась• Пример: “Who created the character of Scrooge?”– Dickens– Christmas Carol– Charles Dickens– Disney– Carl Banks– A Christmas– Christmas Carol– Uncle2 декабря 2011 г.11778757254414531Фильтрация и сбор ответа• Перевзвесить N-граммы с учетом типаответа• Собрать ответScores20Charles1510DickensDickensdiscardold n-gramsMr CharlesScore 452 декабря 2011 г.merged,Mr Charles DickensАвтоматическое реферирование• Часто ответом на вопрос должен бытьтекст• Пример:–Кто такой Франсуа Томбалбай?• Извлечение короткого фрагмента текстаявляется задачей автоматическогореферирования2 декабря 2011 г.Аннотирование иреферирование• Аннотация VS Реферат2 декабря 2011 г.Автоматическое реферированиеПриложения• Аннотации и рефераты к научным идругим статьям• Реферирование новостей (несколькодокументов)• Создание сниппетов• Текст для мобильные устройств• Реферат встречи• ...2 декабря 2011 г.Типичная архитектура!"#$% &$'"('")='" -#"./%0"&*6.%$)5"&(,?%$)5"&(2,34*"&*".%$)5"&(, &,-#"./%0"&*67(%4#,&&>"-#"./%0"&*67(4%#-#"./%0"&*18-%#6.%9"&*"*&:%#5,;**!"#"$%&'(#)*#%+,&*"-#"./%0"&*18-#%<"&*"-#"./%0"&*12 декабря 2011 г.2":"#,(Отбор контента• Без учителя– выбор предложений с ключевыми словами(tf-idf, логарифмическое отношениеправдоподобия)–Центральность!1• пример centrality(x) =K• C учителемtf-idf-cos(x, y)y– бинарная классификация предложений– признаки: позиция, обобщающие фразы (“insummary”, “in conclusion”,...), информативностьслов, длина предложения, связность2 декабря 2011 г.Упорядочение• Для одного документа–Использовать порядок внутри документа• Для коллекции документов– более сложные методы• кластеризация предложений2 декабря 2011 г.Переконструирование предложения• Упрощение предложений–When it arrives sometime new year in new TVsets, the V-chip will give parents a new andpotentially revolutionary device to block outprograms they don’t want their children to see.• Использование синтаксического разбора иудаление неинформативных частей–Zajic et al.
2007, Conroy et al. 20062 декабря 2011 г.Заключение• Вопросно-ответные системы–Обработка запроса–Извлечение фрагментов текста–Обработка ответа• Системы автоматического реферирования–Отбор контента–Упорядочение информации–Переконструирование предложений2 декабря 2011 г.Следующая лекция• Машинный перевод2 декабря 2011 г.Введение в обработкутекстовЛекция 9Машинный перевод2 декабря 2011 г.План• Применение машинного перевода• Сложности перевода– Типология– Различия языков• Классический подход• Статистический подход– Модель зашумленного канала– Выравнивание– Тренировка моделей– Декодирование– Методы оценки2 декабря 2011 г.Применение машинного перевода• Задачи, где достаточно грубого перевода– Задачи извлечения информации– Перевод Веб-страниц– e-mail• Задачи, где результат перевода можетбыть исправлен– Помощь переводчику• Перевод подмножеств языка– FAHQT (Fully Automatic High Quality Translation)2 декабря 2011 г.Где машинный переводнедостаточно хорош• Литература• Разговорный язык• Медицинский перевод в больницах• Звонки в службу спасения2 декабря 2011 г.Сложность перевода• Некоторые аспекты языков схожи,некоторые различны• Типология• Различия в–морфологиии–лексике–структуре2 декабря 2011 г.Морфология• Морфема–минимальная значимая еденица языка–слово = морфема + морфема + морфема + ...• Аффиксы–Префикс: undo–Суффикс: looking–Инфикс: hingi (занимать) - humingi (заемщик)(Тагальский язык)–Циркумфикс: sagen (сказать) - gesagt (сказал)(Немецкий)2 декабря 2011 г.Морфологические различия• Изолирующие языки– Каждое слово состоит из одной морфемы(Вьетнамский)• Полисинтетические языки– слово состоит из множества морфем (Чукотский:Тымэйӈылевтпыгтыркын - У меня сильно болитголова)• Аглютинативные– Морфемы несут определенные значения (Турецкий)• Флективные– Морфемы имеют несколько значений (Русский:“хороший” - им.