Главная » Просмотр файлов » Презентации лекций

Презентации лекций (1126940), страница 10

Файл №1126940 Презентации лекций (Презентации лекций) 10 страницаПрезентации лекций (1126940) страница 102019-05-11СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 10)

ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b.

wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Родственноеслово?Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Задание: упорядочить: {jjat, arrat, mat, bat, oloat, at-yurp}1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a.

ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a.

lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовВ действительности это англо-испанский переводClients do not sell pharmaceuticals in Europe => Clientes no venden medicinas en Europa1a. Garcia and associates .1b. Garcia y asociados .7a. the clients and the associates are enemies .7b. los clients y los asociados son enemigos .2a. Carlos Garcia has three associates .2b. Carlos Garcia tiene tres asociados .8a.

the company has three groups .8b. la empresa tiene tres grupos .3a. his associates are not strong .3b. sus asociados no son fuertes .9a. its groups are in Europe .9b. sus grupos estan en Europa .4a. Garcia has a company also .4b. Garcia tambien tiene una empresa .10a.

the modern groups sell strong pharmaceuticals .10b. los grupos modernos venden medicinas fuertes .5a. its clients are angry .5b. sus clientes estan enfadados .11a. the groups do not sell zenzanine .11b. los grupos no venden zanzanina .6a. the associates are also angry .6b. los asociados tambien estan enfadados .12a. the small groups are not modern .12b. los grupos pequenos no son modernos .Обработка текстовМодель зашумленного каналазашумленныйканалИсходноепредложениеЗашумленноепредложениеThis is the housethat Jack built.Это дом, которыйпостроил Джэк.Предпологаетсяисходным:This is the housethat Jack built.декодерЯзыковая модель P(E) xМодель перевода P(F|E)• Байесовская модельÊ = arg max P (F |E)P (E)E EnglishМодельпереводаЯзыковаямодельОбработка текстовМашинный перевод• Языковая модель–N-граммы–СКС грамматики• Модель перевода• ДекодерОбработка текстовМодель перевода на основефраз• P(F|E)• Разбиваем E на фразы• Переводим каждую фразу из Е во фразуна другом языке, запоминая вероятностьперевода• Находим наиболее вероятнуюпоследовательность фраз FОбработка текстовВероятность перевода• Пусть есть параллельные тексты суказанием соответствия между фразами вE и F (см.

далее).• Тогда вероятность перевода можнооценить на основе метода максимальногоправдоподобияcount(f , e)(f , e) =(f,e)fОбработка текстовВыравнивание слов• Сначала выравнивают слова• Вход: пары предложение-переводОбработка текстовВыравнивание один ко многим• Для простоты предположим что–слово из F соответствует одному слову в E–но слово из E может соответствоватьнескольким словам в F• Некоторые слова в F могутсоответствовать элементу NULL в E• Тогда выравнивание можно задаватьвектором0NULL123456Mary didn’t slap the green witch.Maria no dió una bofetada a la bruja verde.123330465Обработка текстовМодель IBM Model 1• Первая самая простая модельпредложенная в основополагающейстатье [Brown et. al. 1993]• Предлагает простую генерирующуюмодель для получения F из E=e1, e2, …eI– Выбрать длину J предложения F=f1, f2, …fJ– Выбрать выравнивание A=a1, a2, …aJ–Получить F из EОбработка текстовПример0NULL123456Mary didn’t slap the green witch.Maria no dió una bofetada a la bruja verde.123330 465Обработка текстовПодсчет P(F|E)• Обозначения–Длина предложения на языке E равна I–Длина предложения на языке F равна J–Вероятность длины предложения в F равнаP(J|E)• Model 1: Предположим что всевыравнивания A равновероятныJ(их (I + 1) )• Тогда условная вероятность(выравниваний):Обработка текстовПодсчет P(F|E)• Пусть t(fx,ey) вероятность перевода словаey в слово fx• Определим P(F|E)Обработка текстовДекодирование• Цель: найти наиболее вероятноевыравнивание• Так как различные переводы для каждой позиции jнезависимы, максимум произведения достигаетсяпри максимуме каждого терминаОбработка текстовТренировка моделейвыравнивания• Если есть выровненный вручную корпус, томожно оценить параметры модели IBM 1через метод максимальногоправдоподобия• Часто такого корпуса нет.

В этом случаеприменяют EM-алгоритмОбработка текстовEM-алгоритм для выравнивания• Выбираем начальные параметры• Пока не сойдется выполняем:–E-шаг: Вычисляем вероятность всехвыравниваний с помощью текущей модели–M-шаг: Используем эти вероятности дляпереоценки значений всех параметров моделиДля сокращения времени работы используетсяалгоритм динамического программированияОбработка текстовПримерthe housela casaТренировочный green housecasa verdeкорпусverdeВероятностипереводаВычисляемвероятностивыравниванияP(A, F | E)casagreen 1/3house 1/31/31/31/31/3the 1/31/31/3green housecasa verdegreen housecasa verdeПредполагаем начальныевероятности равнымиthe housela casathe housela casa1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9 1/3 X 1/3 = 1/9НормализуемP(A | F, E)P (A|E, F ) =laP (A, F |E)A P (A, F |E)Обработка текстовПримерgreen housecasa verde1/2green housecasa verde1/2verdeСчитаемвесапереводовcasalagreen 1/2house 1/21/20the 01/21/2casalagreen 1/2house 1/41/201/21/4the 01/21/2verdeНормализуеми получаемP(f | e)the housela casa1/21/2 + 1/2 1/2the housela casa1/2Обработка текстовПримерverdeВероятностипереводаcasalagreen 1/2house 1/41/201/21/4the 01/21/2Пересчитываем green houseвероятностиcasa verdeвыравнивания1/2 X 1/4=1/8P(A, F | E)green housethe housethe housecasa verdela casala casa1/2 X 1/2=1/4 1/2 X 1/2=1/4 1/2 X 1/4=1/8JP (A, F |E) =j=1t(fj |eaj )Нормализуеми получаемP(A | F, E)Продолжаем алгоритм до сходимостиили ограниченное число шаговОбработка текстовВыравнивание фраз• Мы обсудили как выравнивать слова ипереводить текст по словам• Теперь перейдем к фразамОбработка текстовВыравнивание фразОбработка текстовВыравнивание фраз• Существует несколько эвристическихметодов выравнивания фраз по матрицепересеченийОбработка текстовИзвлечение фразGoogle (Slav Petrov, SYRCoDIS’11):Выбираем все консистентные выравниванияОбработка текстовДекодирование• Аналог Витерби: выбрать предложение eмаксимизирующее P(e) x P( f | e )Обработка текстовОценка моделей• Оценка людьми– плавность– достоверность• адекватность (по фиксированной шкале)• информативность (ответ на вопрос по переводу)• Автоматическая оценка– сравнение с одним или несколькими экспертнымипереводами– Меры качества• BLUE• NIST• TER• METEORОбработка текстовОценка моделей: BLEU• Определить число N-грамм из машинногоперевода в экспертных переводах• Вычислить модифицированную меруточностиОбработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch greenCand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 1-граммам: 5/6Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 1 точность по 2-граммам: 1/5Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Для каждой N-граммы счетчик не долженпревышать максимального количества этойn-граммы в любом предложенииCand 2 точность 1-грамм: 7/10Обработка текстовОценка моделей: BLEUCand 1: Mary no slap the witch green.Cand 2: Mary did not give a smack to a green witch.Ref 1: Mary did not slap the green witch.Ref 2: Mary did not smack the green witch.Ref 3: Mary did not hit a green sorceress.Cand 2 точность 2-грамм: 4/9Обработка текстовМодифицированная точность• Среднее геометрическое всех N-граммам(обычно N < 5)Cand 1:Cand 2:Обработка текстовШтраф за краткость• Сложно посчитать полноту (recall) из-занескольких экспертных мнений• Вместо этого используется штраф закраткость• Пусть r - длина экспертного предложенияс наибольшим количеством совпадающихN-грамм.

Характеристики

Тип файла
PDF-файл
Размер
18,26 Mb
Тип материала
Высшее учебное заведение

Список файлов лекций

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее