Искусство программирования на Си (984073), страница 78
Текст из файла (страница 78)
Хиагалгс>а А>/гп лисса/! Са>)л шипи Етгйед Ьсигсг 11Х агд(аг нии может быль только один глагол, слсдоватсльно Ьсаг— ( ° Нсдопустимыми, так как они являются порожденн/ая геиг Гсгг(/>га!ег как сдиный тсрмин — эквивалент глагол, а в дру!ом предложении есть два во!можных з( (я(х1/=1(1)) ем !рсха одного слова — в том контексте, в ко~ором он нсполь- !пагода, но только одно поллсжзшсс, слсдова!стыю,Ьеаг— зовался сушсств>тельное).
ч = и / 2; Независимо от того, можно заставить машины дуКоличсство тсрминов в языке /пикс большее. чем Но машинному перевалу написано много кн г. пс овалу написано много книг. ) лаа>ь нли нет, исследования в области искусствснного количество с:>ов, и. кроме того, сеть >же упоминзвши- Я рскоменд)ю в качестве хорошего вводною источни- гесигп г; интеллекта лают болывс простора лля Рабаты ма!лпн Да«ел«итти«ые теляти«тки« ра«де~и зв — ' 1 Часть п! Обработка ест ел и и « и« ыг и ты«и« г 1 Глава 25 1ае ваха (ЫШ агдс, сЬаг«агдч[)) ( Электронные игрушки Ев 1ас сЬаг' сЬаг 1о1 сЫаг [ос сЬаг хае сьаг 1ае сЬаг [ос 1«ве 1 ЕЫзясхве прочитайтс разлсл морФология лалсс в этой ~лавах й листинге 25 2 пРивслсн код, котоРыс ФоРмиРУст еы[зе[ае = е]ае(впьь)[ мышления отдельного автора его наиболее часто употребляемые слова будут олними и теми же. Отношение количества вхожлсний паиболес часто употребляемых слов к общему количеству слов является достаточно точным показателем авторства.
Этот могол используется в качестве основы лля определения авторства. Например. анализ Посланий от Павла на языке оригинала (грсческом) показал, что они написаны разными авторами (что было известно уже давно). Определение отношений количества вхо:кдений определенных слов нс говорит о содержании текста, но имеет смысл спросить, в каком соотношении эта пара (илн тройка) слов входят в лексикон И это может дать некоторое прслставлснис о сушсствовании терминов, состоящих из нсскольких слов, в которых рассматриваемые слова разлелены.
Если вы хотитс написать код, который производит подсчет слов в тексте и выдаст частоту их вхождения, На прошлое Рожлество мне подарили игрушку Ферби (гпгбу). Это привлекательная говорящая электронная игрушка. Она реагирует на звук и свет, может определить. когда она находится вверх ногами или когла се гладят, шекочут или кормят. Фсрби можно кормить только воображаемой едой, нажимая ложкой на язык.
Моя Ферби говорит по-английски (немного). Я знаю, что есть Фсрби, говоря~лис по-испански н по-французски, н нет никакой приппипижтьной причины, по которои она нс могла бы говорить на любом другом языке Язык. на котором говорит Ферби, лостаточно гибок и основан на словаре, который состоит примерно изота слов, нс все и«которых являются английскими Эти слова объединяются в словосочетания О ~еченисм времени длина словосочстаний растет — структура предложении усложняется 0; 0; рз; «Возов[] = ( еабуе", "сЬагг, "Ьоу", 01г1, бод", сая", "Ьо111е , "с1аг1аес", "сааб1е", "яо(а", Еасьег", вогьег", Ее1ечуягоа , "Ее1ерЬоае", Е1очег", "Ьоок , "сор ); Соаоскооая = 177 «ЧегЬя[] = ( *еася , *11явез", "1очея", 'огбегя , "яеея", 'оабегясаобз", "еакея , ааячегя", "аочея", -хдаогея" )7 Соопсуегья = 107 «Аб)есе[чез[] = ( «Еа11", ваа11 , "ргее1у , 11ае", еоое1еяя" *б[ЕЕегеае", дгееа", р1аяс1с , "бе1[саее", "роврооя Сооохдб)ессхчея = 10; 'Оесегагаегя[) = ( "а", "ЕЬе", "по , "ечегу" Сооо1ве1егахаегя = 4; «абчегЬя[) = [ *догсх1у , я1оч1у , "ее[се"« ечеп1у", "еьоя" ) Сооо1абчегЬя = ЕЫ йй Дииознинюьиь тематисссли<расдть Оссризот<ис сио>ииосиьх>>оксо ффЕОВ 1 се — — ЯЯф Часть Я1 Глава 25 ло 45 звуков.
Эти звуки называются фаиемами. Написан- Распознавание слов Листинг 25.3. Морфологические изменения. При работе программы наз словом Риге в резулыатс ныс буквы являются только приближением этих звуков. получаем лишние буквы е. Эту ошибку можно нспраКазалось бы, после разделения звукового потока нз от- $(пс1зде <ивето.Ь> вить, провсряя послсднни символ глагола: если послсРаслознаваиие фонем дсльныс фонемы и после примснсния правил сандхи 11лс1иае <зтг(но.ь> чохе ИагрЬЧегЫ (сЬзг* чегЬ) дний символ е, добавляем только д, если послслннй лля данлого языка распознавание слов будет уже нсЧтобы распознать произносимые знукн, нсобходимо ( символ нс е, добавляем ед, а при добавлении Ься консчслоа,ной задачей. гхзст "Вн Взеа Взеа иметь модель звуков языка.
Эта модель булст отличать- ную г необходимо убрать. Это учтсно в лнспснгс 25.4. Уны, сабит. В рзспознанснни слов есть свои сложнос- Вз(в91в",чегЬ,чегЬ,чегЬ,чегЬ)1 ся даже в самых похожих но своей природе языках и в Эта просрзмма будст пронзволить правильныс морги, среди которых — определение начала и окончания гееагн; раззичных диалектах одного и того жс языка. Амсрикан- фологические изменения для глаголов т орел и ги (асе, слова н морФология. ) ский акцент очень сильно отличается от юз;но-англии- но для глагола в гар ответ будет содержать ошибку Мы Во фразе мх гидагс гее1 сигг(е дня получения правяльского, но говоряшие с разными акцснтамн люди хоро- 1зс вз1н(зне згос, сьзг< зоч1)) должны добавить правило, согласно которому, если глзной комбинации система должна быть способна отклошо распознают соотвстствуюшие звуки.
( гол заканчивается на одну согласную, перса козорой нить варианты с(с1 гидаг гее гис уе и .пх зис( аг,сеа-сис уе. ИогрЬЧегЫ ("орез"); Чтобы показать, насколько важен акцент, рассмотстоит одна гласная, то согласная удваивается — гар, В лапном случае мы знаем, что уе не является англнйс- ИогрЬЧегЫ ( "1оче ); рим стандартнос австралийскос произношсннс слова еот 01 гирред. Если жс нсрсд консчнои согласной сзоят лвс кнм слоном, н это знание позволяет правильно проанагетого ''Ьаэ(п" (бассейн), которос точно соотвстствуст стандар- гласныс, то согласная нс удваивается — г(еио, с/еиоед. лизировать поток звуков.
А как насчет фразы. Сао Ье Ье тному амсрикзнскому произношснию слова "Ь(ноп" (би- Это правило учтено в листинге 25ьй 1итаис?, которая состоит точно из тех з.с звуков, что и зон). Любая система обработки речи, которая нс может ф ... справиться с такими варнацннми, будет бссполсзнои. фраза сиону Ьееу" а тиисе.
В действительности разница Л 25.4. Мо фологические изменения, вторая попытка. истинг .. рф есть — она в удирелии. Псрвыи слог слова ?иисаис нахоРассмотрим предложение Тйе сиг гас аи где тал Ка- Вхзс1оае <згехо Ь> дится пол упаренном, а и слове таите под удареннсм кнс с)юнемы присутствуют н дзнном предложении? (1ас1оае <зегсзо.Ь> находится все слово.
И хотя ны об этом, может быть, н * дапаенип1юнные теиаепинеение рюде1ы яв — ''— ! ! Часть Ш Оарабатне~ еетеопненныо неынаа ° ! глава 25 11 (четЫЬавсровтттоп)т='е') р ' ( в !Во ьве) Ъ . В1ВЧ>п ,чегЬ,четЬ, четЬ, проеденное действие, либо пать недостаточно информа- Методы сннтэкснческого энэлнээ ЬавЕРов1Е(оп,ьавсров1Е(оп,чегЬ в Ыоп,четЬ); ции для выполнения команды„ либо в игре просит вые1ве 11 ((! 1ВЧоче1(чегЬ[ЬВВЕРов(С(оп))) Как и в алгоритмических языках, лля синтаксического ьв ( твЧоче1(чегЬ[ЬавЕРовтшоп-1))) полнить еде у !мое действие из.п. Каждую из этих азбо а естс в о- зыкового Ввода с шеста' т н'- а! ( ! хвчоче1(четЫьавсРов1ы оп-2) ) ) ) ошибок следует обрабатывать с учетом назначения си-, ь и н ..Вя зи гв1 тич сколько мстодов.
Олна грамматическая н лингвнстичсс- рг1ВЬ(( вв Ъввеео !в!сея тъ!е(пч>п ,чегЬ е стемь!. Можно, например, произвести поиск похожего кая молель люжет бьыь реализована несколькилш мето- чегЬ,четЬ[ьавГРов(11оп), корректного выражения, предложить свой вариант, о!- четь, четЫ ьв веров(11оп ), дали! клонить команд>. или выполнить лаков-либо лругое со- чвгЬ,чегЬ[ьавЕРов1Е1оп))! Как правило, мы считаем, что анализ лозжен проответств юшее действие. отве ству шее д "с ходить сверх> вниз, но окончательное дерево анализа не геьогп; ) Распознавание текста всегда строится именно таким образом, его можно построить н снизу вверх.
Это относится и к анализу алго- 1ВЕ пвгп(зпс агяе, сЬвг* ачч[)) Очень важно иметь как можно более полное представ- ритмического языка, н к анализу естественно-языково( ление о распознавании текста, так как большинство го ввола. Лнализаторы лля анализа сверлу вниз лсгчс НотрЬЧегЫ *о еп" РЬЧегЫ ( *орел" ) ! систем обработки естественных языков принимают впол со!лапать.
но работают онн медленнее, а анализаторы НотрЬЧегЫ ("1оче ); в письменном ниле такой ввод имеет г[юмалныс про д:и аназиза снизу вверх сложнее создать, но работают МотрЬЧетЫ("Еар") ! могрЬчегЫ ( с1еап ). имущества хотя бы !олько потому, что система ~очно гни быстрее НогрЬЧетЫ [ 1оок"); уверена в правильности распознавания входных данных Для обработки естественно-языкового ввода можно МогрЬЧетЫ ( вее ); (хотя ошибок в обработке все сшс хватаез). К таким созвать так называемые синтаксические анализаторы тееогп О; системам предъявляются не столь жссзкис требования столлннаенип островов.
Отдельные составляющие естс) Обработка ггтган кено ыкяэыл ок Глава 25 <пемот кгологрок!гоы сколько хтодно раз. В первый раз опрелеляется эта пред- Второе изменение вызвано тел<, что лля выражения об- Вывод звука Вывод текста яазкеиие, в слслуюший раз — эта очень пакаже на предло- шнх случаев в английском языке часто используется Вывод звука намного легче распознавания звука Тем не Процесс вывод текста тоже является довольно сложным.
жение, далее — эпи< немного пакаже на предло ксение и тл. форма множественного числа, поэтому Ьапаиа становит- мснсс, эта нс такая уж простая задача. поскольку трс- Мы привыкли к определенному стилю документов, и ся Ьипапиз. Таким образом, получаем буст использования нескольких срслств. Прежде всего различно<о рола программы обработки текстов помогаСпожности вывода естественных нсоблодилю иметь средство, которос булет пыбирать, ют нам забиться требуемого стиля.