lecture9-2015 (1126928)
Текст из файла
Обработка текстовОсновы обработки текстовЛекция 9 Приложения обработки текстов1Обработка текстовПлан• Информационный поиск• Вопросно-ответные системы• Автоматическое реферированиеОбработка текстовИнформационный поиск• Information retrieval (IR)• Поиск всех документов из заданногомножества, отвечающих запросампользователяинформационнаяпотребностьЗапросКоллекциядокументовпоискIRсистемаСписок ответовОбработка текстовПроблема информационногопоиска• Первое приложение в библиотечном делеISBN: 0-201-12227-8Author: Salton, GerardTitle: Automatic text processing: the transformation, analysis, and retrieval of information bycomputerEditor: Addison-WesleyDate: 1989Content: <Text>• Поиск по внешним аттрибутам - поиск в БД• IR: поиск по контентуОбработка текстовВозможные подходы• Поиск близких строк–Медленно–Тяжело улучшать• Индексирование–Быстро–Возможности для улучшенийОбработка текстовПримеры системОбработка текстовАрхитектура системЗапросДокументыОбработчикОбработчикРепрезентация запросаФункциясравненияРезультатыРепрезентация документаИндексОбработка текстовАрхитектура системЗапросДокументыОбработказапросаОбработкадокументаРепрезентация запросаИзвлечениедокументовРезультатыРепрезентация документаИндексОбработка текстовОсновные проблемы• Обработка запроса и документа–Какой наилучший способ представлениязапроса и документа• Извлечение документов–Как понять какой документ наилучшим образомудовлетворяет запросу• Оценка систем–Как понять что система работает хорошоОбработка текстовПредставление документа• Модель мешка слов (bag-of-words)• Взвешивание слов (терминов)– tf = term frequency• частота встречаемости термина в документе–df = document frequency• число документов, содержащих термин–idf = inverse document frequency• специфичность термина–weight(t,D) = tf(t,D) * idf(t)Обработка текстовВарианты tf-idf• tf(t, D)=freq(t,D)idf(t) = log(N/n)• tf(t, D)=log[freq(t,D)]n = # документов содержит t• tf(t, D)=log[freq(t,D)]+1N = # документов в корпусе• tf(t, D)=freq(t,d)/Max[f(t,d)]Обработка текстовПредварительная обработка• Стоп-слова - Функциональные слова ненесут полезной инорфмации для IRсистем• Удаление стоп-слов часто улучшаеткачество IR систем• Часто используются “стандартные”списки стоп-слов• Стемминг• ЛемматизацияОбработка текстовРезультат индексирования• Инвертированный индексDoc 1This is a sampledocumentwith one samplesentenceDoc 2This is anothersample documentTerm#docsTotalfreqThis22is22sample23another11………Doc idFreq11211121122121…………Обработка текстовИзвлечение документов• Запрос из одного слова– Берем инвертированый список для слова• Запрос из нескольких слов– Комбинирование нескольких списков– Как интерпретировать вес?– Модель информационного поискаОбработка текстовМодели информационногопоиска• Документ D = множество взвешенныхключевых слов• Запрос Q = множество невзвешенныхсловR(D, Q) =iti - слова запросаw(ti , D)Обработка текстовБулева модель• Документ - логическая конъюнкция слов• Запрос - Булево выражениеR(Q, D) = Q ! DD = t 1 ∧ t2 ∧ … ∧ tnQ = (t1 ∧ t2) ∨ (t3 ∧ ¬t4)Q → D, то есть R(D, Q) = 1.• Проблемы• R - либо 0, либо 1 (неупорядоченноемножество документов• Сложно писать запросыОбработка текстовВекторная модель• Векторное пространство всех слов<t1, t2, t3, …, tn>• ДокументD = < a1, a2, a3, …, an>ai = вес ti в D• ЗапросQ = < b1, b2, b3, …, bn>bi = вес ti в QОбработка текстовМатричное представление…tnD1a11 a12 a13 …a1nD2a21 a22 a23 …a2nD3a31 a32 a33 …a3n…Dm am1 am2 am3 …amnQbnПространстводокументовt1b1t2b2t3b3…Разреженная матрица!ПространствотерминовОбработка текстовПодсчет близостиСкалярноепроизведениеt1DQt2КосинусМера ДайсаМера ЖаккараОбработка текстовКакие еще бывают модели*http://en.wikipedia.org/wiki/Information_retrievalОбработка текстовОценка систем• Точность и полнотаНайденные релевантныеРелевантныедокументыНайденныедокументы–Точность = найденные релевантные /найденные документы–Полнота = найденные релевантные /релевантные документыОбработка текстовТочность и полнота• Общая форма зависимости– Точность и полнота зависимы– Системы нельзя сравнивать в одной точке– Вычисляют среднюю точность (в 11 точках сполнотой: 0.0, 0.1, ..., 1.0){0, 1} = 1, если k-й документрелевантен запросуrel(k)Обработка текстовMAP• Mean Average Precision• rij = ранг j-го релевантного документа для Qi• |Ri| = число релевантных документов для Qi• n = # тестовых запросовРанг1510481ый рел.
док.2ой рел. док.3ий рел. док.Обработка текстовТемы для дальнейшего изучения• Ранжирование– PageRank (Google), HITS, ...• Семантический поиск– ключевые слова VS ключевые понятия• IR для (полу-) структурированных данных• Сбор данных в Вебе• Мультимедийный поиск• Исследовательский поиск• Многоязычный поиск• Сжатие и хранение данных• Нечеткий поиск• Учет обратной связи от пользователей• Персонализация• Инструменты: Apache Lucene, ElasticSearch, Apache NutchОбработка текстовВопросно-ответные системыКакой национальности бывший папаримский Бенедикт XVI?Ватикан выступил во вторник, 12 мая, с опровержениеминформации о том, что Папа Римский Бенедикт XVI вюности состоял в гитлерюгенде.
"Йозеф Рацингер (имяпонтифика, немца по национальности) никогда не состоялв гитлерюгенде - идеологической нацистской организации.Короткий фрагмент текста, не URLОтвет: НемецОбработка текстовПримеры системОбработка текстовТипы вопросовО фактахСпискиОпределенияКакая обычная высота жирафа?Где расположен главный офис Google ?Какие страны экспортируют нефть?Какие названия имеют штаты США?Кто такой Франсуа Томбалбай?Что такое квазар?Обработка текстовВопросы о фактах• Ответом служит простой факт– Примеры:• Где расположен Лувр?• Какая называется валюта Китая?• Какой официальный язык Алжира?• Существует большая разница междупостановкой вопроса и описанием ответа втексте– Какая компания является лидером по производствуоткрыток?–Компания "Арт и Дизайн" десять лет назад создала вРоссии практически новый рынок.
Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопросаТри этапа:2) Извлечениефрагментовтекста1. Обработка запроса2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе(Формулирование запроса)–Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа(Классификация вопроса)Обработка текстовФормулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых словQuestion (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value, Nobel,Peace, Prize, 1989Q003: What does the Peugeot companymanufacture?Peugeot, company,manufactureQ004: How much did Mercury spend onadvertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of the managing name, managing,director of Apricot Computer?director, Apricot,ComputerОбработка текстовФормулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер” à “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B à A verb-ed B• Where is A à A is located in Обработка текстовКлассификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.
Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?PersonОбработка текстовОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему à Причина– Когда à Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпусОбработка текстовОпределение типов ответовТаксономия типов ответов (из Wordnet)PERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.