lecture10-2015 (1126929)
Текст из файла
Обработка текстовОсновы обработки текстовЛекция 10 Машинный переводОбработка текстовПлан• Применение машинного перевода• Сложности перевода– Типология– Различия языков• Классический подход• Статистический подход– Модель зашумленного канала– Выравнивание– Тренировка моделей– Декодирование– Методы оценкиОбработка текстовПрименение машинного перевода• Задачи, где достаточно грубого перевода– Задачи извлечения информации– Перевод Веб-страниц– e-mail• Задачи, где результат перевода можетбыть исправлен– Помощь переводчику• Перевод подмножеств языка– FAHQT (Fully Automatic High Quality Translation)Обработка текстовГде машинный переводнедостаточно хорош• Художественная литература• Разговорный язык• Медицинский перевод в больницах• Звонки в службу спасенияОбработка текстовСложность перевода• Некоторые аспекты языков схожи,некоторые различны• Различия в–морфологии–лексике–структуреОбработка текстовМорфология• Морфема–минимальная значимая единица языка–слово = морфема + морфема + морфема + ...• Аффиксы–Префикс: undo–Суффикс: looking–Инфикс: hingi (занимать) - humingi (заемщик)(Тагальский язык)–Циркумфикс: sagen (сказать) - gesagt (сказал)(Немецкий)Обработка текстовМорфологические различия• Изолирующие языки–Каждое слово состоит из одной морфемы(Вьетнамский)• Полисинтетические языки–слово состоит из множества морфем (Чукотский:Тымэйӈылевтпыгтыркын - У меня сильно болитголова)• Аглютинативные– Морфемы несут определенные значения (Турецкий)• Флективные–Морфемы имеют несколько значений (Русский:“хороший” - им.
падеж, ед. число, муж. род)Обработка текстовЛексические различия• Семантические особенности:– В корейском нет слов брат/сестра, естьстарший/младший брат/сестра– В чукотском около 20 слов для снега• Английский vs французскийОбработка текстовСинтаксические различия• СГО (Субъект-Глагол-Объект)– Английский, Немецкий– I am in Moscow• СОГ– Японский, Корейский– 저는 모스크바에 있습니다 (Я в Москве нахожусь)• ГСО–Ирландский, классический АрабскийОбработка текстовГраницы• Языки в которых не выделены границыслов:–Китайский, Японский, Тайский, Въетнамский• Предложения в некоторых языках большепохожи на параграфы–Китайский, современный АрабскийОбработка текстовКлассические подходы• Прямой перевод• Преобразование• ИнтерлингвасемантическаякомпозициясемантическийанализсемантическаяструктурасинтаксическаяструктураСтруктурасловасемантическаядекомпозициясемантическаяструктурасинтаксическоепреобразованиесемантическаягенерациясинтаксическаяструктурасинтаксическийсинтаксическаяанализгенерацияпрямой переводморфологическийанализисходный текстнадъязыковаяструктураСтруктурасловаморфологическаягенерацияцелевой текстОбработка текстовПодход 1: Прямой переводТекст наисходномязыкеМорфологическийанализЛексическоепреобразованиес помощьюсловаряСортировкаМорфологичекаягенерация• Последовательный перевод каждогослова• Не используется никакие структурыкроме морфологии• После перевода слов, делаетсясортировкаТекст нацелевомязыкеОбработка текстовПримерОбработка текстовПроблемы• Сложные перестановки–термины–длинные дистанции• Немецкий• КитайскийОбработка текстовПодход 2: Преобразование• Применение знаний о различиях в языках• Шаги–Анализ: синтаксический разбор исходногопредложения–Преобразование: правила преобразованияразбора в разбор на целевом языке–Генерация предложения на целевом языкеОбработка текстовПример• Английский: прилагательное существительное• Французский: существительное прилагательное• Не всегда• ПравилоОбработка текстовПравила преобразованияОбработка текстовSystran: комбинированиеподходов• Анализ–Морфологический, определение частей речи–Группировка (chunking)–Разбор некоторых зависимостей• Преобразование–перевод идиом–Разрешение лексической многозначности–назначение предлогов на основе моделей управленияглаголов• Синтез–Применения большого двуязычного словаря–сортировка–морфологическая генерацияОбработка текстовПроблемы• Грамматика и лексика содержат многоспецифики• Трудно сделать и еще труднееподдерживатьОбработка текстовИнтерлингва• Пример системы: ABBYY Compreno• Идея: Вместо использования правилпреобразования между языкамииспользовать значение предложения• Шаги–Перевести исходное предложение впредставление его значения–Сгенерировать целевое предложение иззначенияОбработка текстовИнтерлингваMary did not slap the green witchОбработка текстовПроблемы• Разные понятия в языках– 20 типов снега в Чукотском– Не нужны для англо-русского перевода• Всесторонний анализ семантики ипредставление знаний–Возможно сделать только для специфичныхподмножеств языкаОбработка текстовСтатистический машинныйперевод• Идеи:–Использованиепараллельных текстов–Перевод по фразам–Сортировка результатаРозеттский камень:•древнегреческий•древнеегипетский•древнеегипетские иероглифыОбработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a.
ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a.
lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b.
at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b.
wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a. ok-voon ororok sprok .7a.
lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b.
totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .???5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a.
ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b.
iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a. ok-voon ororok sprok .7a.
lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a.
ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a.
lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Обработка текстовПеревод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.