Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 34
Текст из файла (страница 34)
С одной стороны,семантический анализ уточняет связи, которые не смог уточнить постсинтаксическийанализ, так как многие роли выражаются не только при помощи средств языка, но и сучетом значения слова. С другой стороны, семантический анализ позволяетотфильтровать некоторые значения слов или даже целые варианты разбора как«семантически несвязные».Этапом семантического анализа заканчивается анализ входного текста.Последующие этапы требуются для генерации отклика, например, в ходе диалога спользователем или при переводе документов с иностранного языка для ихдальнейшей обработки аналитиком. Сам отклик может, например, выбираться изнекоторого корпуса текстов или генерироваться «на лету».
В случае генерации ответанеобходимо провести следующие этапы синтеза.Генерация внутреннего представления отклика. Прежде, чем давать какой-либоотклик, диалоговая система должна сформулировать ответ. Для этого ей, например,может потребоваться собрать и проанализировать какую-то информацию. Отклик107системы будет зависеть от состояния диалога и других параметров. После этогонеобходимо определить форму ответа (или вопроса), подставить в него конкретныеслова и значения и лишь затем приступать к синтаксическому синтезу текста отклика.Предсинтаксический синтез.
Задачи данного этапа прямо противоположнызадачам постсинтаксического анализа. Здесь мы обязаны вернуть в предложениеязыкозависимые конструкции, пытаясь раскрыть роль слов средствами языка. Взависимости от контекста необходимо выбрать ту или иную форму выражения ролислов и основных идей предложения, расшифровать словосочетания, развернутьнормализованное дерево.Синтаксический синтез превращает дерево предложения в линейный порядокслов. При этом осуществляется согласование параметров слов между собой.Предморфологический синтез разъединяет слова, объединенные в целяхэкономии смысла в единую лексическую единицу. Здесь же может осуществлятьсяобратная задача: слияния отдельных слов в одно, если того требуют правила языка.Морфологический синтез по нормальной форме слова и его параметрам находитсоответствующую словоформу.Графематический синтез объединяет слова в единый текст, следит засоответствием фрагментов входного текста фрагментам выходного.
На этом синтезотклика заканчивается.Генерация отклика в разной мере присуща всем видам диалоговых систем,некоторым видам систем составления рефератов текста, статистического анализатекста, генерации текстов. Вопросно-ответные системы могут генерировать откликкак результат обработки запроса пользователя, системы общения обязаны делать этопо определению, исполнительные системы могут комментировать происходящее илигенерировать ответ на запрос пользователя.
Но действия систем не ограничиваютсятолько генерацией ответов. Вопросно-ответные системы должны сконвертироватьзапрос пользователя в какой-либо запрос на формальном языке (например, SQL припоиске в базе данных) и на основании полученных результатов решить, какой видответа необходимо выбрать. Исполнительная система должна определить алгоритмвыполнения запроса пользователя и реализовать его. Но эти вопросы не входят сейчасв наше рассмотрение.Кратко изложив последовательность этапов, в той или иной степенинеобходимых для обработки текста, рассмотрим теперь более подробно особенностиреализации каждого из этих этапов.108Глава 2.§ 2.1.Морфологический анализ и синтезСловарный морфологический анализ и синтезДля того чтобы подчеркнуть различия в употреблении слов люди придумалиформы слов или словоформы.
Однако какова бы ни была словоформа, она выражаетодно и то же понятие. Обсуждая понятие само по себе, принято использовать егонормальную форму – просто одну из словоформ, выделенную для обозначенияпонятия. Т.е., если у нас есть слово «мама», то для него существует несколько форм:мамы, маме, маму и т.д. К каждой форме приписывается ряд характеристик илипараметров (род, падеж, число), характеризующих данную словоформу. Такжекаждому слову приписывается часть речи, показывающая, какого рода понятием мыоперируем.
В речи мы привыкли к тому, что в данном месте должно стоять слово сзаданной частью речи в определенной форме, но при машинной обработке подобныеинтуитивные рассуждения должны быть формализованы. Кроме того, подобноеразнообразие вносит известные проблемы при анализе текста. Вместо того, чтобыработать с единственным словом, мы вынуждены обрабатывать все его словоформы.Для того чтобы избежать подобной ситуации были введены этапы морфологическогоанализа и синтеза.Задачей морфологического анализа является определение по словоформенормальной формы, от которой была образована данная словоформа, и наборапараметров, приписанных к данной словоформе. При этом может оказаться, чтоодной словоформе может быть сопоставлено несколько таких пар.Задача морфологического синтеза прямо противоположная. Здесь необходимопо нормальной форме и набору параметров получить словоформу.Дадим более формальные определения, необходимые для рассмотрения этихэтапов.Нормальная форма слова – это форма слова (строка), принятая для обозначенияпонятия, связанного с данным словом.
Обычно считается, что от нормальной формыобразуются все остальные формы слова. Однако в таких случаях, как «идти – шел»,связь между нормальной формой и словоформой не прослеживается. В связи с этимбудем считать, что нормальная форма всего лишь одна из словоформ данного слова,выделенная согласно традиции данного языка. Словоформа – это форма слова(строка), связанная с нормальной формой слова и указывающая на особенностиупотребления данного слова. Будем считать, что словоформа характеризуетсяпятеркой – строкой словоформы; частью речи; нормальной формой, от которой былаобразована данная словоформа; частью речи нормальной формы; наборомморфологических параметров, приписываемых к данной словоформе. Часть речинормальной формы нам необходима, так как, например, деепричастие удобно считатьформой глагола, а не выводить в отдельное слово.Список основных частей речи в целом уже устоялся, хотя различныеисследователи всё еще спорят о составе служебных частей речи.
При реализацииконкретного морфологического словаря важно с самого начала определиться с ихсписком, так как его изменение потом может оказаться дорогостоящей операцией.Для практических задач удобна любая из имеющихся логически обоснованныхсистем деления слов на части речи. В связи с этим мы не будем обсуждать здесьразличные подходы к классификации слов.109Морфологический параметр – это пара <имя параметра, значение параметра>.Именем параметра может служить род, число, время, склонение, краткость формыприлагательного и другие признаки слов, принятые в данном языке. Значениепараметра – это конкретное значение, которое может принимать данный признак.Так, например, падеж может быть именительным, родительным, местным,аккузативным; род может быть мужским, женским, средним; число – единственным,множественным, двойственным и т.д.Параметры равны между собой, если равны их имена и значения.
Параметрыравны по имени, если совпадают их имена.В ряде случаев значение параметра определить невозможно или в этом нетнеобходимости. Например, в русском языке существительным во множественномчисле не приписывают род. Также существуют слова, которые имеют только формумножественного числа.
Если словам, обладающим единственным числом значениерода может быть приписано из единственного числа, то слова, не обладающиеединственным числом (очки, часы), такой информации лишены полностью. В этомслучае будем считать, что значение параметра принимает фиксированное значение,обозначаемое «0». Примем, что параметр со значением «0» равен другому параметру,если равны их имена.Подобный подход при хранении параметров может быть хорош в целом рядеслучаев. Так, например, мы можем просто проверять наличие параметра с каким-либозначением.
Это может пригодиться для того, чтобы убедиться, что параметр принялзначение, отличное от заданного. Кроме того, мы можем приписать параметр словудля того, чтобы как-то выделить его среди других слов. В этом случае само наличиепараметра у слова будет нести важную информацию.Однако если нам необходимо просто провести морфологический анализ слов втексте, может использоваться другой подход.
Мы можем составить полный переченьвсех значений параметров и дать им уникальные имена. В этом случае мы можемсэкономить место, так как хранится только имя параметра, сохраняя при этомразличительную силу параметров. Но так как имена обычно даются символьные, тостепень экономии зависит от фантазии разработчиков.Вместо символьных имен параметров может использоваться цифровоепредставление.