lecture9-2015 (1126928), страница 2
Текст из файла (страница 2)
Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовИзвлечение фрагментовтекста• IR-система возвращает список документов• Необходимым фрагментом может бытьпредложение или параграф• Необходимо выбрать фрагменты,потенциально содержащие ответ1. Отсеять фрагменты не содержащие ответ– распознавание именованных сущностей иклассификация ответов2.
Отранжировать оставшиеся фрагменты– Правила, составленные вручную– Машинное обучениеОбработка текстовИзвлечение фрагментовтекста (ранжирование)• Признаки– Число именованных сущностей правильноготипа в фрагменте– Число ключевых слов из вопроса в фрагменте– Наиболее длинная последовательностьключевых слов запроса в фрагменте– Ранг документа (IR), содержащего фрагмент– Плотность ключевых слов из вопроса вфрагменте– Пересечение N-грамм вопроса и фрагментаОбработка текстовИзвлечение фрагментов• Для извлечения ответа из Веба можнопропустить шаг извлечения фрагмента ииспользовать сниппеты, возвращаемыеинформационно-поисковыми системамиОбработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.
Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка ответа• Извлечение специфичного ответа изфрагмента• Два основных класса алгоритмов– Основанные на шаблонах– Сбор ответа из N-грамм (N-gramm tiling)Обработка текстовАлгоритмы на основе шаблонов• Использование информации о типе врегулярных выражениях– Если тип ответа ЧЕЛОВЕК, извлечь именованныесущности ЧЕЛОВЕК из фрагмента• Некоторые типы ответов (например,определения) не подразумевают конкретноготипа именованной сущности в ответе– Использовать регулярные выражения (созданныевручную или автоматически)PatternQuestionAnswer<AP> such as <QP>What is autism?developmentaldisorders such asautismОбработка текстовСбор ответа из N-граммАрхитектура AskMSRОбработка текстовСбор N-грамм• Назначить вес N-грамме равный количествусниппетов, в которых она встретилась• Пример: “Who created the character of Scrooge?”– Dickens– Christmas Carol– Charles Dickens– Disney– Carl Banks– A Christmas– Christmas Carol– Uncle11778757254414531Обработка текстовФильтрация и сбор ответа• Заново взвесить N-граммы с учетом типаответа• Собрать ответScores20CharlesDickens1510Dickensmerged,discard old n-gramsMr CharlesScore 45Mr Charles DickensОбработка текстовАвтоматическое реферирование• Часто ответом на вопрос должен бытьтекст• Пример:– Кто такой Франсуа Томбалбай?• Извлечение короткого фрагмента текстаявляется задачей автоматическогореферированияОбработка текстовАннотирование иреферирование• Реферат состоит из частей оригинальноготекста• Аннотация - главная мысль документа,сформулированная своими словами–Более компактная–Предполагает генерацию текстаОбработка текстовАвтоматическое реферированиеПриложения• Аннотации и рефераты к научным идругим статьям• Реферированное новостей (несколькодокументов)• Создание сниппетов• Текст для мобильных устройств• Реферат встречи• ...Обработка текстовТипичная архитектураОтбор контентаВсе предложениядокументаДокументРазбиениедокумента напредложенияОтобранныепредложенияОтборпредложенийУпорядочениеинформацииПереконструированиепредложенийУпрощениепредложенийРефератОбработка текстовОтбор контента• Без учителя– выбор предложений с ключевыми словами(tf-idf, логарифмическое отношениеправдоподобия, ...)–Центральность1• пример centrality(x) =K• C учителемtf-idf-cos(x, y)y– бинарная классификация предложений– признаки: позиция, обобщающие фразы (“insummary”, “in conclusion”,...), информативностьслов, длина предложения, связностьОбработка текстовУпорядочение• Для одного документа–Использовать порядок внутри документа• Для коллекции документов– более сложные методы• кластеризация предложенийОбработка текстовПереконструирование предложения• Упрощение предложений–When it arrives sometime new year in new TVsets, the V-chip will give parents a new andpotentially revolutionary device to block outprograms they don’t want their children to see.• Использование синтаксического разбора иудаление неинформативных частей–Zajic et al.
2007, Conroy et al. 2006Обработка текстовЗаключение• Информационный поиск– Обработка запроса и документа– Извлечение документов– Оценка систем• Вопросно-ответные системы– Обработка запроса– Извлечение фрагментов текста– Обработка ответа• Системы автоматического реферирования– Отбор контента– Упорядочение информации– Переконструирование предложенийОбработка текстовСледующая лекция• Машинный перевод.