lecture9-2015 (1126928)

Файл №1126928 lecture9-2015 (Лекции 2015 года)lecture9-2015 (1126928)2019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Обработка текстовОсновы обработки текстовЛекция 9 Приложения обработки текстов1Обработка текстовПлан• Информационный поиск• Вопросно-ответные системы• Автоматическое реферированиеОбработка текстовИнформационный поиск• Information retrieval (IR)• Поиск всех документов из заданногомножества, отвечающих запросампользователяинформационнаяпотребностьЗапросКоллекциядокументовпоискIRсистемаСписок ответовОбработка текстовПроблема информационногопоиска• Первое приложение в библиотечном делеISBN: 0-201-12227-8Author: Salton, GerardTitle: Automatic text processing: the transformation, analysis, and retrieval of information bycomputerEditor: Addison-WesleyDate: 1989Content: <Text>• Поиск по внешним аттрибутам - поиск в БД• IR: поиск по контентуОбработка текстовВозможные подходы• Поиск близких строк–Медленно–Тяжело улучшать• Индексирование–Быстро–Возможности для улучшенийОбработка текстовПримеры системОбработка текстовАрхитектура системЗапросДокументыОбработчикОбработчикРепрезентация запросаФункциясравненияРезультатыРепрезентация документаИндексОбработка текстовАрхитектура системЗапросДокументыОбработказапросаОбработкадокументаРепрезентация запросаИзвлечениедокументовРезультатыРепрезентация документаИндексОбработка текстовОсновные проблемы• Обработка запроса и документа–Какой наилучший способ представлениязапроса и документа• Извлечение документов–Как понять какой документ наилучшим образомудовлетворяет запросу• Оценка систем–Как понять что система работает хорошоОбработка текстовПредставление документа• Модель мешка слов (bag-of-words)• Взвешивание слов (терминов)– tf = term frequency• частота встречаемости термина в документе–df = document frequency• число документов, содержащих термин–idf = inverse document frequency• специфичность термина–weight(t,D) = tf(t,D) * idf(t)Обработка текстовВарианты tf-idf• tf(t, D)=freq(t,D)idf(t) = log(N/n)• tf(t, D)=log[freq(t,D)]n = # документов содержит t• tf(t, D)=log[freq(t,D)]+1N = # документов в корпусе• tf(t, D)=freq(t,d)/Max[f(t,d)]Обработка текстовПредварительная обработка• Стоп-слова - Функциональные слова ненесут полезной инорфмации для IRсистем• Удаление стоп-слов часто улучшаеткачество IR систем• Часто используются “стандартные”списки стоп-слов• Стемминг• ЛемматизацияОбработка текстовРезультат индексирования• Инвертированный индексDoc 1This is a sampledocumentwith one samplesentenceDoc 2This is anothersample documentTerm#docsTotalfreqThis22is22sample23another11………Doc idFreq11211121122121…………Обработка текстовИзвлечение документов• Запрос из одного слова– Берем инвертированый список для слова• Запрос из нескольких слов– Комбинирование нескольких списков– Как интерпретировать вес?– Модель информационного поискаОбработка текстовМодели информационногопоиска• Документ D = множество взвешенныхключевых слов• Запрос Q = множество невзвешенныхсловR(D, Q) =iti - слова запросаw(ti , D)Обработка текстовБулева модель• Документ - логическая конъюнкция слов• Запрос - Булево выражениеR(Q, D) = Q ! DD = t 1 ∧ t2 ∧ … ∧ tnQ = (t1 ∧ t2) ∨ (t3 ∧ ¬t4)Q → D, то есть R(D, Q) = 1.• Проблемы• R - либо 0, либо 1 (неупорядоченноемножество документов• Сложно писать запросыОбработка текстовВекторная модель• Векторное пространство всех слов<t1, t2, t3, …, tn>• ДокументD = < a1, a2, a3, …, an>ai = вес ti в D• ЗапросQ = < b1, b2, b3, …, bn>bi = вес ti в QОбработка текстовМатричное представление…tnD1a11 a12 a13 …a1nD2a21 a22 a23 …a2nD3a31 a32 a33 …a3n…Dm am1 am2 am3 …amnQbnПространстводокументовt1b1t2b2t3b3…Разреженная матрица!ПространствотерминовОбработка текстовПодсчет близостиСкалярноепроизведениеt1DQt2КосинусМера ДайсаМера ЖаккараОбработка текстовКакие еще бывают модели*http://en.wikipedia.org/wiki/Information_retrievalОбработка текстовОценка систем• Точность и полнотаНайденные релевантныеРелевантныедокументыНайденныедокументы–Точность = найденные релевантные /найденные документы–Полнота = найденные релевантные /релевантные документыОбработка текстовТочность и полнота• Общая форма зависимости– Точность и полнота зависимы– Системы нельзя сравнивать в одной точке– Вычисляют среднюю точность (в 11 точках сполнотой: 0.0, 0.1, ..., 1.0){0, 1} = 1, если k-й документрелевантен запросуrel(k)Обработка текстовMAP• Mean Average Precision• rij = ранг j-го релевантного документа для Qi• |Ri| = число релевантных документов для Qi• n = # тестовых запросовРанг1510481ый рел.

док.2ой рел. док.3ий рел. док.Обработка текстовТемы для дальнейшего изучения• Ранжирование– PageRank (Google), HITS, ...• Семантический поиск– ключевые слова VS ключевые понятия• IR для (полу-) структурированных данных• Сбор данных в Вебе• Мультимедийный поиск• Исследовательский поиск• Многоязычный поиск• Сжатие и хранение данных• Нечеткий поиск• Учет обратной связи от пользователей• Персонализация• Инструменты: Apache Lucene, ElasticSearch, Apache NutchОбработка текстовВопросно-ответные системыКакой национальности бывший папаримский Бенедикт XVI?Ватикан выступил во вторник, 12 мая, с опровержениеминформации о том, что Папа Римский Бенедикт XVI вюности состоял в гитлерюгенде.

"Йозеф Рацингер (имяпонтифика, немца по национальности) никогда не состоялв гитлерюгенде - идеологической нацистской организации.Короткий фрагмент текста, не URLОтвет: НемецОбработка текстовПримеры системОбработка текстовТипы вопросовО фактахСпискиОпределенияКакая обычная высота жирафа?Где расположен главный офис Google ?Какие страны экспортируют нефть?Какие названия имеют штаты США?Кто такой Франсуа Томбалбай?Что такое квазар?Обработка текстовВопросы о фактах• Ответом служит простой факт– Примеры:• Где расположен Лувр?• Какая называется валюта Китая?• Какой официальный язык Алжира?• Существует большая разница междупостановкой вопроса и описанием ответа втексте– Какая компания является лидером по производствуоткрыток?–Компания "Арт и Дизайн" десять лет назад создала вРоссии практически новый рынок.

Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопросаТри этапа:2) Извлечениефрагментовтекста1. Обработка запроса2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе(Формулирование запроса)–Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа(Классификация вопроса)Обработка текстовФормулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых словQuestion (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value, Nobel,Peace, Prize, 1989Q003: What does the Peugeot companymanufacture?Peugeot, company,manufactureQ004: How much did Mercury spend onadvertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of the managing name, managing,director of Apricot Computer?director, Apricot,ComputerОбработка текстовФормулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер” à “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B à A verb-ed B• Where is A à A is located in
Обработка текстовКлассификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.

Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?PersonОбработка текстовОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему à Причина– Когда à Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпусОбработка текстовОпределение типов ответовТаксономия типов ответов (из Wordnet)PERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.

Характеристики

Тип файла
PDF-файл
Размер
1,55 Mb
Тип материала
Высшее учебное заведение

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее