Главная » Просмотр файлов » Презентации лекций

Презентации лекций (1126940), страница 8

Файл №1126940 Презентации лекций (Презентации лекций) 8 страницаПрезентации лекций (1126940) страница 82019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 8)

док.2ой рел. док.3ий рел. док.Обработка текстовТемы для дальнейшего изучения• Ранжирование– PageRank (Google), HITS, ...• Семантический поиск– ключевые слова VS ключевые понятия• IR для (полу-) структурированных данных• Сбор данных в Вебе• Мультимедийный поиск• Исследовательский поиск• Многоязычный поиск• Сжатие и хранение данных• Нечеткий поиск• Учет обратной связи от пользователей• Персонализация• Инструменты: Apache Lucene, ElasticSearch, Apache NutchОбработка текстовВопросно-ответные системыКакой национальности бывший папаримский Бенедикт XVI?Ватикан выступил во вторник, 12 мая, с опровержениеминформации о том, что Папа Римский Бенедикт XVI вюности состоял в гитлерюгенде.

"Йозеф Рацингер (имяпонтифика, немца по национальности) никогда не состоялв гитлерюгенде - идеологической нацистской организации.Короткий фрагмент текста, не URLОтвет: НемецОбработка текстовПримеры системОбработка текстовТипы вопросовО фактахСпискиОпределенияКакая обычная высота жирафа?Где расположен главный офис Google ?Какие страны экспортируют нефть?Какие названия имеют штаты США?Кто такой Франсуа Томбалбай?Что такое квазар?Обработка текстовВопросы о фактах• Ответом служит простой факт– Примеры:• Где расположен Лувр?• Какая называется валюта Китая?• Какой официальный язык Алжира?• Существует большая разница междупостановкой вопроса и описанием ответа втексте– Какая компания является лидером по производствуоткрыток?–Компания "Арт и Дизайн" десять лет назад создала вРоссии практически новый рынок.

Теперь она являетсялидером среди отечественных производителейпоздравительных открыток.Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопросаТри этапа:2) Извлечениефрагментовтекста1. Обработка запроса2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка запроса• Из вопроса на естественном языкеизвлекаем:– ключевые слова для запроса кинформационно-поисковой системе(Формулирование запроса)–Тип ответа, специфицирующий класссущности, возвращаемой в качестве ответа(Классификация вопроса)Обработка текстовФормулирование запроса• Извлечь ключевые термины из вопроса– возможно расширить вопрос лексически/семантически близкими словами• Вопрос моделируется как множествоключевых словQuestion (from TREC QA track)Lexical termsQ002: What was the monetary value ofthe Nobel Peace Prize in 1989?monetary, value, Nobel,Peace, Prize, 1989Q003: What does the Peugeot companymanufacture?Peugeot, company,manufactureQ004: How much did Mercury spend onadvertising in 1993?Mercury, spend,advertising, 1993Q005: What is the name of the managing name, managing,director of Apricot Computer?director, Apricot,ComputerОбработка текстовФормулирование запроса• Применение правил дляпереформулирования вопроса– к форме подстроки декларативного ответа– “когда был придуман лазер” à “лазер былпридуман”– Послать переформулированный запросинформационно-поисковой системе– Правила (Lin 07)• wh-word did A verb B à A verb-ed B• Where is A à A is located in
Обработка текстовКлассификация вопросов• Классификация вопросов по ожидаемомуответуВопросОсновавопросаWhatТип ответаQ654: What U.S.

Government agencyregisters trademarks?WhatOrganizationQ162: What is the capital of Kosovo?WhatCityQ661: How much does one ton ofcement cost?How muchQuantityQ555: What was the name of Titanic’scaptain?PersonОбработка текстовОпределение типа ответа• В некоторых случаях тип ответа можноопределить по вопросу– Почему à Причина– Когда à Дата• Для многозначных вопросов использоватьдополнительные понятия в вопросе–What was the name of Titanic’s captain?–What U.S. Government agency registers trademarks?–What is the capital of Kosovo?• Машинное обучение (если есть размеченныйкорпусОбработка текстовОпределение типов ответовТаксономия типов ответов (из Wordnet)PERSONinhabitant,dweller, denizenAmerican westernerislander,island-dwellerscientist,man of sciencechemistresearcheroceanographerWhatPERSONHepatitis-BresearcherdiscoveredvaccineWhat researcher discovered thevaccine against Hepatitis-B?performer,performing artistdanceractorballettragedianactressdancernamePERSONWhatoceanographerFrenchCalypsoownedWhat is the name of the Frenchoceanographer who owned Calypso?Обработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.

Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовИзвлечение фрагментовтекста• IR-система возвращает список документов• Необходимым фрагментом может бытьпредложение или параграф• Необходимо выбрать фрагменты,потенциально содержащие ответ1. Отсеять фрагменты не содержащие ответ– распознавание именованных сущностей иклассификация ответов2. Отранжировать оставшиеся фрагменты– Правила, составленные вручную– Машинное обучениеОбработка текстовИзвлечение фрагментовтекста (ранжирование)• Признаки– Число именованных сущностей правильноготипа в фрагменте– Число ключевых слов из вопроса в фрагменте– Наиболее длинная последовательностьключевых слов запроса в фрагменте– Ранг документа (IR), содержащего фрагмент– Плотность ключевых слов из вопроса вфрагменте– Пересечение N-грамм вопроса и фрагментаОбработка текстовИзвлечение фрагментов• Для извлечения ответа из Веба можнопропустить шаг извлечения фрагмента ииспользовать сниппеты, возвращаемыеинформационно-поисковыми системамиОбработка текстовТипичная архитектура QA-системВопрос1) ОбработказапросаФормулирование запросаЗапросIRВебКлассификация вопроса1.

Обработка запроса2) Извлечениефрагментовтекста2. Извлечениефрагментов текста3. Обработка ответаТипответа3) ОбработкаответаОтветОбработка текстовОбработка ответа• Извлечение специфичного ответа изфрагмента• Два основных класса алгоритмов– Основанные на шаблонах– Сбор ответа из N-грамм (N-gramm tiling)Обработка текстовАлгоритмы на основе шаблонов• Использование информации о типе врегулярных выражениях– Если тип ответа ЧЕЛОВЕК, извлечь именованныесущности ЧЕЛОВЕК из фрагмента• Некоторые типы ответов (например,определения) не подразумевают конкретноготипа именованной сущности в ответе– Использовать регулярные выражения (созданныевручную или автоматически)PatternQuestionAnswer<AP> such as <QP>What is autism?developmentaldisorders such asautismОбработка текстовСбор ответа из N-граммАрхитектура AskMSRОбработка текстовСбор N-грамм• Назначить вес N-грамме равный количествусниппетов, в которых она встретилась• Пример: “Who created the character of Scrooge?”– Dickens– Christmas Carol– Charles Dickens– Disney– Carl Banks– A Christmas– Christmas Carol– Uncle11778757254414531Обработка текстовФильтрация и сбор ответа• Заново взвесить N-граммы с учетом типаответа• Собрать ответScores20CharlesDickens1510Dickensmerged,discard
old n-gramsMr CharlesScore 45Mr Charles DickensОбработка текстовАвтоматическое реферирование• Часто ответом на вопрос должен бытьтекст• Пример:– Кто такой Франсуа Томбалбай?• Извлечение короткого фрагмента текстаявляется задачей автоматическогореферированияОбработка текстовАннотирование иреферирование• Реферат состоит из частей оригинальноготекста• Аннотация - главная мысль документа,сформулированная своими словами–Более компактная–Предполагает генерацию текстаОбработка текстовАвтоматическое реферированиеПриложения• Аннотации и рефераты к научным идругим статьям• Реферированное новостей (несколькодокументов)• Создание сниппетов• Текст для мобильных устройств• Реферат встречи• ...Обработка текстовТипичная архитектураОтбор контентаВсе предложениядокументаДокументРазбиениедокумента напредложенияОтобранныепредложенияОтборпредложенийУпорядочениеинформацииПереконструированиепредложенийУпрощениепредложенийРефератОбработка текстовОтбор контента• Без учителя– выбор предложений с ключевыми словами(tf-idf, логарифмическое отношениеправдоподобия, ...)–Центральность1• пример centrality(x) =K• C учителемtf-idf-cos(x, y)y– бинарная классификация предложений– признаки: позиция, обобщающие фразы (“insummary”, “in conclusion”,...), информативностьслов, длина предложения, связностьОбработка текстовУпорядочение• Для одного документа–Использовать порядок внутри документа• Для коллекции документов– более сложные методы• кластеризация предложенийОбработка текстовПереконструирование предложения• Упрощение предложений–When it arrives sometime new year in new TVsets, the V-chip will give parents a new andpotentially revolutionary device to block outprograms they don’t want their children to see.• Использование синтаксического разбора иудаление неинформативных частей–Zajic et al.

2007, Conroy et al. 2006Обработка текстовЗаключение• Информационный поиск– Обработка запроса и документа– Извлечение документов– Оценка систем• Вопросно-ответные системы– Обработка запроса– Извлечение фрагментов текста– Обработка ответа• Системы автоматического реферирования– Отбор контента– Упорядочение информации– Переконструирование предложенийОбработка текстовСледующая лекция• Машинный переводОбработка текстовОсновы обработки текстовЛекция 10 Машинный переводОбработка текстовПлан• Применение машинного перевода• Сложности перевода– Типология– Различия языков• Классический подход• Статистический подход– Модель зашумленного канала– Выравнивание– Тренировка моделей– Декодирование– Методы оценкиОбработка текстовПрименение машинного перевода• Задачи, где достаточно грубого перевода– Задачи извлечения информации– Перевод Веб-страниц– e-mail• Задачи, где результат перевода можетбыть исправлен– Помощь переводчику• Перевод подмножеств языка– FAHQT (Fully Automatic High Quality Translation)Обработка текстовГде машинный переводнедостаточно хорош• Художественная литература• Разговорный язык• Медицинский перевод в больницах• Звонки в службу спасенияОбработка текстовСложность перевода• Некоторые аспекты языков схожи,некоторые различны• Различия в–морфологии–лексике–структуреОбработка текстовМорфология• Морфема–минимальная значимая единица языка–слово = морфема + морфема + морфема + ...• Аффиксы–Префикс: undo–Суффикс: looking–Инфикс: hingi (занимать) - humingi (заемщик)(Тагальский язык)–Циркумфикс: sagen (сказать) - gesagt (сказал)(Немецкий)Обработка текстовМорфологические различия• Изолирующие языки–Каждое слово состоит из одной морфемы(Вьетнамский)• Полисинтетические языки–слово состоит из множества морфем (Чукотский:Тымэйӈылевтпыгтыркын - У меня сильно болитголова)• Аглютинативные– Морфемы несут определенные значения (Турецкий)• Флективные–Морфемы имеют несколько значений (Русский:“хороший” - им.

падеж, ед. число, муж. род)Обработка текстовЛексические различия• Семантические особенности:– В корейском нет слов брат/сестра, естьстарший/младший брат/сестра– В чукотском около 20 слов для снега• Английский vs французскийОбработка текстовСинтаксические различия• СГО (Субъект-Глагол-Объект)– Английский, Немецкий– I am in Moscow• СОГ– Японский, Корейский– 저는 모스크바에 있습니다 (Я в Москве нахожусь)• ГСО–Ирландский, классический АрабскийОбработка текстовГраницы• Языки в которых не выделены границыслов:–Китайский, Японский, Тайский, Въетнамский• Предложения в некоторых языках большепохожи на параграфы–Китайский, современный АрабскийОбработка текстовКлассические подходы• Прямой перевод• Преобразование• ИнтерлингвасемантическаякомпозициясемантическийанализсемантическаяструктурасинтаксическаяструктураСтруктурасловасемантическаядекомпозициясемантическаяструктурасинтаксическоепреобразованиесемантическаягенерациясинтаксическаяструктурасинтаксическийсинтаксическаяанализгенерацияпрямой переводморфологическийанализисходный текстнадъязыковаяструктураСтруктурасловаморфологическаягенерацияцелевой текстОбработка текстовПодход 1: Прямой переводТекст наисходномязыкеМорфологическийанализЛексическоепреобразованиес помощьюсловаряСортировкаМорфологичекаягенерация• Последовательный перевод каждогослова• Не используется никакие структурыкроме морфологии• После перевода слов, делаетсясортировкаТекст нацелевомязыкеОбработка текстовПримерОбработка текстовПроблемы• Сложные перестановки–термины–длинные дистанции• Немецкий• КитайскийОбработка текстовПодход 2: Преобразование• Применение знаний о различиях в языках• Шаги–Анализ: синтаксический разбор исходногопредложения–Преобразование: правила преобразованияразбора в разбор на целевом языке–Генерация предложения на целевом языкеОбработка текстовПример• Английский: прилагательное существительное• Французский: существительное прилагательное• Не всегда• ПравилоОбработка текстовПравила преобразованияОбработка текстовSystran: комбинированиеподходов• Анализ–Морфологический, определение частей речи–Группировка (chunking)–Разбор некоторых зависимостей• Преобразование–перевод идиом–Разрешение лексической многозначности–назначение предлогов на основе моделей управленияглаголов• Синтез–Применения большого двуязычного словаря–сортировка–морфологическая генерацияОбработка текстовПроблемы• Грамматика и лексика содержат многоспецифики• Трудно сделать и еще труднееподдерживатьОбработка текстовИнтерлингва• Пример системы: ABBYY Compreno• Идея: Вместо использования правилпреобразования между языкамииспользовать значение предложения• Шаги–Перевести исходное предложение впредставление его значения–Сгенерировать целевое предложение иззначенияОбработка текстовИнтерлингваMary did not slap the green witchОбработка текстовПроблемы• Разные понятия в языках– 20 типов снега в Чукотском– Не нужны для англо-русского перевода• Всесторонний анализ семантики ипредставление знаний–Возможно сделать только для специфичныхподмножеств языкаОбработка текстовСтатистический машинныйперевод• Идеи:–Использованиепараллельных текстов–Перевод по фразам–Сортировка результатаРозеттский камень:•древнегреческий•древнеегипетский•древнеегипетские иероглифыОбработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a.

Характеристики

Тип файла
PDF-файл
Размер
18,26 Mb
Тип материала
Высшее учебное заведение

Список файлов лекций

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее