Лекции-2016 (1126938), страница 10
Текст из файла (страница 10)
док.2ой рел. док.3ий рел. док.Обработка текстовТемы для дальнейшего изучения• Ранжирование– PageRank (Google), HITS, ...• Семантический поиск– ключевые слова VS ключевые понятия• IR для (полу-) структурированных данных• Сбор данных в Вебе• Мультимедийный поиск• Исследовательский поиск• Многоязычный поиск• Сжатие и хранение данных• Нечеткий поиск• Учет обратной связи от пользователей• Персонализация• Инструменты: Apache Lucene, ElasticSearch, Apache NutchОбработка текстовВопросно-ответные системыКакой национальности бывший папаримский Бенедикт XVI?Ватикан выступил во вторник, 12 мая, с опровержениеминформации о том, что Папа Римский Бенедикт XVI вюности состоял в гитлерюгенде.
"Йозеф Рацингер (имяпонтифика, немца по национальности) никогда не состоялв гитлерюгенде - идеологической нацистской организации.Короткий фрагмент текста, не URLОтвет: НемецОбработка текстовПримеры системОбработка текстовТипы вопросовО фактахСпискиОпределенияКакая обычная высота жирафа?Где расположен главный офис Google ?Какие страны экспортируют нефть?Какие названия имеют штаты США?Кто такой Франсуа Томбалбай?Что такое квазар?Обработка текстовВопросы о фактах• Ответом служит простой факт– Примеры:• Где расположен Лувр?• Какая называется валюта Китая?• Какой официальный язык Алжира?• Существует большая разница междупостановкой вопроса и описанием ответа втексте– Какая компания является лидером по производствуоткрыток?–Компания "Арт и Дизайн" десять лет назад создала вРоссии практически новый рынок.
Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопросаТри этапа:2) Извлечениефрагментовтекста1. Обработка запроса2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе(Формулирование запроса)–Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа(Классификация вопроса)Обработка текстовФормулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых словQuestion (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value, Nobel,Peace, Prize, 1989Q003: What does the Peugeot companymanufacture?Peugeot, company,manufactureQ004: How much did Mercury spend onadvertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of the managing name, managing,director of Apricot Computer?director, Apricot,ComputerОбработка текстовФормулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер” à “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B à A verb-ed B• Where is A à A is located in Обработка текстовКлассификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.
Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?PersonОбработка текстовОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему à Причина– Когда à Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпусОбработка текстовОпределение типов ответовТаксономия типов ответов (из Wordnet)PERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.
Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовИзвлечение фрагментовтекста• IR-система возвращает список документов• Необходимым фрагментом может бытьпредложение или параграф• Необходимо выбрать фрагменты,потенциально содержащие ответ1.
Отсеять фрагменты не содержащие ответ– распознавание именованных сущностей иклассификация ответов2. Отранжировать оставшиеся фрагменты– Правила, составленные вручную– Машинное обучениеОбработка текстовИзвлечение фрагментовтекста (ранжирование)• Признаки– Число именованных сущностей правильноготипа в фрагменте– Число ключевых слов из вопроса в фрагменте– Наиболее длинная последовательностьключевых слов запроса в фрагменте– Ранг документа (IR), содержащего фрагмент– Плотность ключевых слов из вопроса вфрагменте– Пересечение N-грамм вопроса и фрагментаОбработка текстовИзвлечение фрагментов• Для извлечения ответа из Веба можнопропустить шаг извлечения фрагмента ииспользовать сниппеты, возвращаемыеинформационно-поисковыми системамиОбработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.
Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка ответа• Извлечение специфичного ответа изфрагмента• Два основных класса алгоритмов– Основанные на шаблонах– Сбор ответа из N-грамм (N-gramm tiling)Обработка текстовАлгоритмы на основе шаблонов• Использование информации о типе врегулярных выражениях– Если тип ответа ЧЕЛОВЕК, извлечь именованныесущности ЧЕЛОВЕК из фрагмента• Некоторые типы ответов (например,определения) не подразумевают конкретноготипа именованной сущности в ответе– Использовать регулярные выражения (созданныевручную или автоматически)PatternQuestionAnswer<AP> such as <QP>What is autism?developmentaldisorders such asautismОбработка текстовСбор ответа из N-граммАрхитектура AskMSRОбработка текстовСбор N-грамм• Назначить вес N-грамме равный количествусниппетов, в которых она встретилась• Пример: “Who created the character of Scrooge?”– Dickens– Christmas Carol– Charles Dickens– Disney– Carl Banks– A Christmas– Christmas Carol– Uncle11778757254414531Обработка текстовФильтрация и сбор ответа• Заново взвесить N-граммы с учетом типаответа• Собрать ответScores20Charles1510DickensDickensmerged,discard old n-gramsMr CharlesScore 45Mr Charles DickensОбработка текстовАвтоматическое реферирование• Часто ответом на вопрос должен бытьтекст• Пример:– Кто такой Франсуа Томбалбай?• Извлечение короткого фрагмента текстаявляется задачей автоматическогореферированияОбработка текстовАннотирование иреферирование• Реферат состоит из частей оригинальноготекста• Аннотация - главная мысль документа,сформулированная своими словами–Более компактная–Предполагает генерацию текстаОбработка текстовАвтоматическое реферированиеПриложения• Аннотации и рефераты к научным идругим статьям• Реферированное новостей (несколькодокументов)• Создание сниппетов• Текст для мобильных устройств• Реферат встречи• ...Обработка текстовТипичная архитектураОтбор контентаВсе предложениядокументаДокументРазбиениедокумента напредложенияОтобранныепредложенияОтборпредложенийУпорядочениеинформацииПереконструированиепредложенийУпрощениепредложенийРефератОбработка текстовОтбор контента• Без учителя– выбор предложений с ключевыми словами(tf-idf, логарифмическое отношениеправдоподобия, ...)–Центральность1• пример centrality(x) =K• C учителемtf-idf-cos(x, y)y– бинарная классификация предложений– признаки: позиция, обобщающие фразы (“insummary”, “in conclusion”,...), информативностьслов, длина предложения, связностьОбработка текстовУпорядочение• Для одного документа–Использовать порядок внутри документа• Для коллекции документов– более сложные методы• кластеризация предложенийОбработка текстовПереконструирование предложения• Упрощение предложений–When it arrives sometime new year in new TVsets, the V-chip will give parents a new andpotentially revolutionary device to block outprograms they don’t want their children to see.• Использование синтаксического разбора иудаление неинформативных частей–Zajic et al.