Главная » Просмотр файлов » Слайды со всех лекций

Слайды со всех лекций (1126919), страница 7

Файл №1126919 Слайды со всех лекций (Слайды со всех лекций) 7 страницаСлайды со всех лекций (1126919) страница 72019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.2 декабря 2011 г.Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаТри этапа:3. Обработка ответа2 декабря 2011 г.Веб2) Извлечениефрагментовтекста1. Обработка запроса2.

Извлечениефрагментов текстаIRТипответа3) ОбработкаответаОтветОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе• Формулирование запроса– Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа• Классификация вопроса2 декабря 2011 г.Фомулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых слов2 декабря 2011 г.Question (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value,Nobel, Peace, PrizeQ003: What does the Peugeotcompany manufacture?Peugeot, company,manufactureQ004: How much did Mercury spendon advertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of themanaging director of ApricotComputer?name, managing,director, Apricot,ComputerПереформулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер”  “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B  A verb-ed B• Where is A  A is located in2 декабря 2011 г.Классификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.

Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?2 декабря 2011 г.PersonОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему  Причина– Когда  Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпус2 декабря 2011 г.Таксономия типов ответов• Может быть построена на основе WordNet(вручную)2 декабря 2011 г.Определение типов ответовPERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?2 декабря 2011 г.performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаIRВеб1.

Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответа2 декабря 2011 г.Типответа3) ОбработкаответаОтветИзвлечение фрагментовтекста• IR-система возвращает список документов• Необходимым фрагментом может бытьпредложение или параграф• Необходимо выбрать фрагменты,потенциально содержащие ответ1. Отсеять фрагменты не содержащие ответ– распознавание именованных сущностей иклассфикация ответов2.

Отранжировать оставршиеся фрагменты– Правила, составленные вручную– Машинное обучение2 декабря 2011 г.Извлечение фрагментовтекста (ранжирование)• Признаки– Число именнованных сущностей правильноготипа в фрагменте– Число ключевых слов из вопроса в фрагменте– Наиболее длинная последовательностьключевых слов запроса в фрагменте– Ранг документа (IR), содержашего фрагмент– Плотность ключевых слов из вопроса вфрагменте– Пересечение N-грамм вопроса и фрагмента2 декабря 2011 г.Извлечение фрагментов• Для извлечения ответа из Веба можнопропустить шаг извлечения фрагмента ииспользовать сниппеты, возвращаемыеинформационно-поисковыми системами2 декабря 2011 г.Типичная архитектура QA-системВопрос1) ОбработказапросаЗапросФормулированиезапросаКлассификация вопросаIRВеб1. Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3.

Обработка ответа2 декабря 2011 г.Типответа3) ОбработкаответаОтветОбработка ответа• Извлечение специфичного ответа изфрагмента• Два основных класса алгоритмов– Основанные на шаблонах– Сбор ответа из N-грамм (N-gramm tiling)2 декабря 2011 г.Алгоритмы на основе шаблонов• Использование информации о типе врегулярных выражениях– Если тип ответа ЧЕЛОВЕК, извлечь именованныесущности ЧЕЛОВЕК из фрагмента• Некоторые типы ответов (например,определения) не подразумевают конкретноготипа именованной сущности в ответе– Использовать регулярные выражения (созданныевручную или автоматически)PatternQuestionAnswer<AP> such as <QP>What is autism?“, developmentaldisorders such asautism”2 декабря 2011 г.Сбор ответа из N-граммАрхитектура AskMSR2 декабря 2011 г.Сбор N-грамм• Назначить вес N-грамме равный колличествусниппетов, в которых она встретилась• Пример: “Who created the character of Scrooge?”– Dickens– Christmas Carol– Charles Dickens– Disney– Carl Banks– A Christmas– Christmas Carol– Uncle2 декабря 2011 г.11778757254414531Фильтрация и сбор ответа• Перевзвесить N-граммы с учетом типаответа• Собрать ответScores20Charles1510DickensDickensdiscardold n-gramsMr CharlesScore 452 декабря 2011 г.merged,Mr Charles DickensАвтоматическое реферирование• Часто ответом на вопрос должен бытьтекст• Пример:–Кто такой Франсуа Томбалбай?• Извлечение короткого фрагмента текстаявляется задачей автоматическогореферирования2 декабря 2011 г.Аннотирование иреферирование• Аннотация VS Реферат2 декабря 2011 г.Автоматическое реферированиеПриложения• Аннотации и рефераты к научным идругим статьям• Реферирование новостей (несколькодокументов)• Создание сниппетов• Текст для мобильные устройств• Реферат встречи• ...2 декабря 2011 г.Типичная архитектура!"#$% &$'"('")='" -#"./%0"&*6.%$)5"&(,?%$)5"&(2,34*"&*".%$)5"&(, &,-#"./%0"&*67(%4#,&&>"-#"./%0"&*67(4%#-#"./%0"&*18-%#6.%9"&*"*&:%#5,;**!"#"$%&'(#)*#%+,&*"-#"./%0"&*18-#%<"&*"-#"./%0"&*12 декабря 2011 г.2":"#,(Отбор контента• Без учителя– выбор предложений с ключевыми словами(tf-idf, логарифмическое отношениеправдоподобия)–Центральность!1• пример centrality(x) =K• C учителемtf-idf-cos(x, y)y– бинарная классификация предложений– признаки: позиция, обобщающие фразы (“insummary”, “in conclusion”,...), информативностьслов, длина предложения, связность2 декабря 2011 г.Упорядочение• Для одного документа–Использовать порядок внутри документа• Для коллекции документов– более сложные методы• кластеризация предложений2 декабря 2011 г.Переконструирование предложения• Упрощение предложений–When it arrives sometime new year in new TVsets, the V-chip will give parents a new andpotentially revolutionary device to block outprograms they don’t want their children to see.• Использование синтаксического разбора иудаление неинформативных частей–Zajic et al.

2007, Conroy et al. 20062 декабря 2011 г.Заключение• Вопросно-ответные системы–Обработка запроса–Извлечение фрагментов текста–Обработка ответа• Системы автоматического реферирования–Отбор контента–Упорядочение информации–Переконструирование предложений2 декабря 2011 г.Следующая лекция• Машинный перевод2 декабря 2011 г.Введение в обработкутекстовЛекция 9Машинный перевод2 декабря 2011 г.План• Применение машинного перевода• Сложности перевода– Типология– Различия языков• Классический подход• Статистический подход– Модель зашумленного канала– Выравнивание– Тренировка моделей– Декодирование– Методы оценки2 декабря 2011 г.Применение машинного перевода• Задачи, где достаточно грубого перевода– Задачи извлечения информации– Перевод Веб-страниц– e-mail• Задачи, где результат перевода можетбыть исправлен– Помощь переводчику• Перевод подмножеств языка– FAHQT (Fully Automatic High Quality Translation)2 декабря 2011 г.Где машинный переводнедостаточно хорош• Литература• Разговорный язык• Медицинский перевод в больницах• Звонки в службу спасения2 декабря 2011 г.Сложность перевода• Некоторые аспекты языков схожи,некоторые различны• Типология• Различия в–морфологиии–лексике–структуре2 декабря 2011 г.Морфология• Морфема–минимальная значимая еденица языка–слово = морфема + морфема + морфема + ...• Аффиксы–Префикс: undo–Суффикс: looking–Инфикс: hingi (занимать) - humingi (заемщик)(Тагальский язык)–Циркумфикс: sagen (сказать) - gesagt (сказал)(Немецкий)2 декабря 2011 г.Морфологические различия• Изолирующие языки– Каждое слово состоит из одной морфемы(Вьетнамский)• Полисинтетические языки– слово состоит из множества морфем (Чукотский:Тымэйӈылевтпыгтыркын - У меня сильно болитголова)• Аглютинативные– Морфемы несут определенные значения (Турецкий)• Флективные– Морфемы имеют несколько значений (Русский:“хороший” - им.

Характеристики

Тип файла
PDF-файл
Размер
24,17 Mb
Тип материала
Высшее учебное заведение

Список файлов лекций

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее