Слайды со всех лекций (1126919), страница 8
Текст из файла (страница 8)
падеж, ед. число, муж. род)2 декабря 2011 г.Лексические различия• Семантические особенности:– В корейском нет слов брат/сестра, естьстарший/младший брат/сестра– В чукотском около 20 слов для снега• Английский vs французский2 декабря 2011 г.Синтаксические различия• СГО (Субъект-Глагол-Объект) (42%)– Английский, Немецкий– I am in Moscow• СОГ (45%)– Японский, Корейский– 저는 모스크바에 있습니다 (Я в Москве нахожусь)• ГСО (9%)–Ирландский, классический Арабский2 декабря 2011 г.Границы• Языки в которых не выделены границыслов:–Китайский, Японский, Тайский, Въетнамский• Предложения в некоторых языках большепохожи на параграфы–Китайский, современный Арабский2 декабря 2011 г.Классические подходы• Прямой перевод• Преобразование• Интерлингва'.0&,"+-.'%&/%)0:)3+7+/'.0&,"+-.'%+6&,&(+3'.0&,"+-.'%&/'"#$%"$#&'+,"&%'+-.'%&/'"#$%"$#&!"#$%"$#&'()*&2 декабря 2011 г.'.0&,"+-.'%&/1.%)0:)3+7+/'.0&,"+-.'%&/'"#$%"$#&'+,"&%'+-.'%).:#.);#&3)*&,+.'.0&,"+-.'%&/9.,.#&7+/'+,"&%'+-.'%&/'"#$%"$#&'+,"&%'+-.'%+6'+,"&%'+-.'%&/&,&(+39.,.#&7+/:#/0)6 :.#.*)10)#8)()9+-.'%+6&,&(+3+'5)1,46 ".%'",&12/34%)*&/'"#$%"$#&!"#$%"$#&'()*&0)#8)()9+-.'%&/9.,.#&7+/7.(.*)6 ".%'"Прямой перевод!"#$% &'($)*+&*,-./#"3*45*1*6(7"$#(8'&'1(.9"#$(7"$#*":4"*;4'.*2'&("$ :*,*<=>$1*2'4-?*4%(4*2#'3*45*1*6(7"#'6"&"4'0(-• Последовательный перевод каждогослова• Не используется никакие структурыкроме морфологии• После перевода слов, делаетсясортировка2 декабря 2011 г.!"#$% &'0"1"2*,-./#"Пример2 декабря 2011 г.Проблемы• Немецкий• Китайский2 декабря 2011 г.Преобразования• Применение знаний о различиях в языках• Шаги–Анализ: синтаксический разбор исходногопредложения–Преобразование: правила преобразованияразбора в разбор на целевом языке–Генерация предложения на целевом языке2 декабря 2011 г.Английский в Французский••••Английский: прилагательное существительноеФранцузский: существительное прилагательноеНе всегдаПравило2 декабря 2011 г.Правила преобразования2 декабря 2011 г.Systran: комбинированиеподходов• Анализ– Морфологический, определение частей речи– Фрагментирование– Разбор некоторых зависимостей• Преобразование– перевод идиом– Разрешение лексической многозначности– назначение предлогов на основе моделей управленияглаголов• Синтез– Применения большого двуязычного словаря– сортировка– морфологическая генерация2 декабря 2011 г.Проблемы• N2 правил преобразования• Граматика и лексика содержат многоспецифики• Трудно сделать и еще труднееподдерживать2 декабря 2011 г.Интерлингва• Вместо использования правилпреобразования между языкамииспользовать значение предложения• Шаги–Перевести исзходное предложение впредставление его значения–Сгенерировать целевое предложение иззначения2 декабря 2011 г.ИнтерлингваMary did not slap the green witch2 декабря 2011 г.Проблемы• Разные понятия в языках– 20 типов снега в Чукотском– Не нужны для англо-русского перевода• Всесторонний анализ семантики ипредставление знаний–Имеет смысл только для специфичныхподмножеств языка2 декабря 2011 г.Статистический машинныйперевод• Идеи:–Использование параллельных текстов–Перевод по фразам–Сортировка результатаРозетский камень2 декабря 2011 г.Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a.
ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a.
lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a.
ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b.
totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a.
ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a.
lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .???5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a.
lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b.
wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b.
wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b. wat jjat bichat wat dat vat eneat .2a.
ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b. totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b.
wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b. wat nnat forat arrat vat gat .Перевод на основепараллельных корпусовПеревод с Центаврианского на Арктуранский [Knight, 1997]Перевести: farok crrrok hihok yorok clok kantok ok-yurp2 декабря 2011 г.1a. ok-voon ororok sprok .7a. lalok farok ororok lalok sprok izok enemok .1b. at-voon bichat dat .7b.
wat jjat bichat wat dat vat eneat .2a. ok-drubel ok-voon anok plok sprok .8a. lalok brok anok plok nok .2b. at-drubel at-voon pippat rrat dat .8b. iat lat pippat rrat nnat .3a. erok sprok izok hihok ghirok .9a. wiwok nok izok kantok ok-yurp .3b. totat dat arrat vat hilat .4a. ok-voon anok drok brok jok .9b.
totat nnat quat oloat at-yurp .10a. lalok mok nok yorok ghirok clok .4b. at-voon krat pippat sat lat .5a. wiwok farok izok stok .10b. wat nnat gat mat bat hilat .11a. lalok nok crrrok hihok yorok zanzanok .5b. totat jjat quat cat .6a. lalok sprok izok jok stok .11b. wat nnat arrat mat zanzanat .12a. lalok rarok nok izok hihok mok .6b. wat dat krat quat cat .12b.