И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208), страница 6
Текст из файла (страница 6)
Например, для известного примераЛ.В. Щербы «Глокая куздра штеко будланула бокра и кудрячит бокренка», есливыбирать наиболее вероятный вариант синтаксической интерпретации первых четырехслов, то получим следующее: кто — куздра, куздра какая — глокая, куздра чтосделала — будланула, будланула как — штеко. Но возможны также и другие варианты:кто — куздра, куздра какая — глокая, куздра что сделала — будланула, куздра чья —штеко или кто — штеко, штеко что сделала — будланула, будланула как — глокая(деепричастие), глокая кого — куздра. Правда, в последнем варианте должен бытьотмечен пропуск запятой после деепричастного оборота.3.5.3.Стратегия детерминированного анализаАлгоритм синтаксического анализа работает таким образом, что ни однасинтаксическая связь, установленная в процессе анализа предложения не может впоследствии быть отвергнута, т.е.
она обязательно присутствует в одной изсинтаксических структур, являющихся результатом работы синтаксическогоанализатора.При использовании стратегии детерминированного анализа вся языковая информация,которая в принципе может повлиять на установление связи между синтаксическимиединицами предложения, привлекается одновременно. Причем, при установлениикаждой связи должны соблюдаться такие условия, которые гарантировали быполучение связной синтаксической структуры предложения на выходе.
Т.е. дляокончательного вывода о наличии связи между двумя синтаксическими единицаминеобходимо проверить (кроме условий на сочетаемость) некоторые контекстныеусловия (наличие или отсутствие в фиксированной позиции других синтаксическихединиц с заданными характеристиками, наличие или отсутствие в фиксированнойпозиции тех или иных знаков препинания и т.п.). Набор таких условий,сформулированных, для больших классов пар синтаксических единиц, описываетсинтаксическую ситуацию, диагностичную для расстановки связей.В основе стратегии детерминированного анализа лежит инвентарь синтаксическихситуаций, которые учитываются выбранной моделью синтаксиса ЕЯ. Описание каждойситуации может быть задано декларативно или в процедурном виде — это зависит отязыка программирования. Каждая синтаксическая ситуация привязана к какому-либограмматическому явлению: наличие в предложении однородных членов, наличиепричастного или деепричастного оборота, наличие конкретной грамматической формыподлежащего или сказуемого и т.п.В целом, стратегия детерминированного анализа ориентирована на однозначныйграмматический разбор (и в этом его слабое место).
Однако, не исключены ситуации, в20Практические аспекты создания лингвистических процессоров. Учебное пособие.которых синтаксический анализатор не имеет достаточной информации дляоднозначного выбора. Тогда либо все-таки как-то выбирается один из вариантовграмматического разбора, либо строятся несколько альтернативных вариантов.Анализаторы, основанные на стратегии детерминированного анализа, являютсядостаточно быстродействующими и эффективными. Однако, для достиженияэффективности синтаксического анализа произвольных (даже только синтаксическиправильных) предложений ЕЯ требуется создать адекватный и полный инвентарьсинтаксический ситуаций, что крайне трудоемко и принципиально сложно.3.6. Синтаксические отношения (связи,зависимости)Наборы синтаксических отношений в разных синтаксических моделях различны иотличаются степенью дифференцированности и уровнем интерпретации.
Например,существуют модели, в которых различаются только сочинительные и подчинительныесвязи без их дальнейшей дифференциации. Особенности используемого наборасинтаксических отношений зависят, в частности, от того, предусмотрен ли дальнейшийсемантический анализ, каковы его функции и способ взаимодействия с синтаксическиманализатором.Среди множества синтаксических отношений выделяется особая группа,соответствующая актантным отношениям предикатного слова.Предикат — слово, подчиняющее себе другие слова и синтаксические конструкциипредложения и определяющее их грамматическую форму, а иногда и значение.Предикат можно рассматривать как фрейм (шаблон): сам предикат — имя фрейма(вершина фрейма), а подчиненные ему синтаксические конструкции — слоты фрейма(валентности предиката). Для каждой валентности предиката определены условиязаполнения этой валентности (значения грамматических характеристик, семантическоезначение) и конкретное синтаксическое отношение.
Синтаксические отношения частозадаются с помощью вопросительного слова (кто?, куда?, и т.п.). Совокупностьсинтаксических отношений, задаваемых предикатом (фрейм предиката), частоназывают моделью управления предиката. Отметим, что у одного предиката можетбыть несколько разных моделей управления.Актант — слово или синтаксическая конструкция, заполняющая валентностьпредиката.Предикатами в русском языке являются глаголы, глагольные формы, отглагольныесуществительные и прилагательные и предлоги.Например, описание модели управления для предлога к (предложной группы предлогак) может выглядеть так:к → [куда?, к кому/чему?] существительное с зависящими от него словами иконструкциями (группа существительного): одушевленность – любая, род – любой,число – любое, падеж - дательный;а для глагола идти так:идти → [кто?] — группа существительного: одушевленное, род – любой, число –любое, падеж – именительный;[куда?] — предложная группа предлога в (существительное неодушевленное),предлога к или предлога на (существительное неодушевленное);[откуда?] — предложная группа предлога из (существительноенеодушевленное) или предлога от;21Волкова И.А.
Введение в компьютерную лингвистику.Актанты предиката могут быть обязательными (т.е. они должны в том или ином видеобязательно присутствовать в предложении, содержащем данный предикат) инеобязательными (т.е. они могут в реальном предложении отсутствовать).Информацию об обязательности актанта также целесообразно хранить в описаниимодели управления предиката. Кроме того, полезно указывать и информацию опредпочтительном или обязательном взаимном линейном расположении в текстепредиката и его актантов, о невозможной или желательной сочетаемости актантов.Модели управления предикатов являются формализованной записью ограничений награмматические и/или семантические характеристики и, возможно, на способысовместного использования в тексте зависящих от них слов и конструкций.
Вообщеговоря, в языке у всех слов (не только у предикатов) могут быть зависящие от нихдругие слова, на которые могут быть наложены соответствующие ограничения(правила сочетаемости отдельных слов и синтаксических групп). Составление такихобобщенных моделей управления можно использовать как средство описания ЕЯ.При использовании МУ в качестве основы описания языка можно достичьпроизвольной гибкости и детальности, становятся непринципиальными ограничения настепень грамматичности языка, не разделяется явно семантическая и синтаксическаяинформация. Ожидается, что при наличии МУ, описывающих язык, задачусинтаксического анализа можно считать решенной без каких-либо уточнений,ограничений на входной язык, сферу применимости и прочее.
Т.е., задачасинтаксического анализа сводится к задаче построения множества моделей управления.Задача эта, безусловно, очень непроста и трудоемка. Кроме того, для эффективностииспользования обобщенных моделей управления необходимо учитывать их частотныехарактеристики и контекст (категория текстов, для которой является специфичнымупотребление определенных слов и грамматических конструкций).3.7.
О многовариантности синтаксическогоанализаПринципиальная многовариантность синтаксического анализа — узловая проблема дляразработчиков синтаксических анализаторов.Многовариантность возникает не только в связи с наличием морфологическойомонимии (см.
выше), но и синтаксической омонимии.Синтаксическая омонимия — возможность выделения разных смыслов у одногопредложения, обусловленная наличием у него разных синтаксических структур.Примеры предложений, для которых принципиально невозможно разрешитьсинтаксическую омонимию:«Мать любит дочь».«Молодые мужчины и женщины…».«Письмо отцу друга…».«Тощая торговка вяленой воблой торчала среди ящиков».«Сплочение рабочих бригад вызвало осуждение товарища министра».«Привет освободителям Харькова от немецко-фашистских захватчиков».«Школьники из Старицы поехали в Торжок».«Это потрясло до глубины души оскорбленного брата».«Девочка вытерла тщательно вымытую посуду».22Практические аспекты создания лингвистических процессоров. Учебное пособие.«Я вижу только два дерева».«Таблица допустимых размеров …».«Я видел его молодым».23Волкова И.А.
Введение в компьютерную лингвистику.4. Семантический компонент ЕЯ-системСемантика — раздел языкознания, изучающий все содержание, информацию,передаваемые языком или какой-либо его единицей.Понятие — мысль, отражающая в обобщенной форме предметы и явлениядействительности посредством фиксации их свойств и отношений.Концепт — понятие.Значение языкового выражения(ЯВ):— синтаксическое — система, ассоциированных с данным ЯВ эталонныхпарадигматических, синтагматических и иерархических связей с другимизнаками языка;— сигматическое — класс реальных объектов, в соответствие которым можетбыть поставлено ЯВ;— семантическое — класс эталонных психических моделей реальных объектов(или класс концептов), в соответствие которым может быть поставлено ЯВ;— прагматическое — класс нормативно соотнесенных с ЯВ действийпотенциальных реципиентов или же класс действий и целей потенциальногоавтора сообщения, побуждающих его к речевой деятельности.Смысл ЯВ — соотнесенная с ЯВ в реальном процессе речевой деятельностиподсистема значения.Понимание ЯВ — процесс раскрытия смысла ЯВ реципиентом, т.е.
установление техсторон значения, которые наиболее существенны в текущей ситуации с его точкизрения и которые, как он предполагает, имел в виду автор сообщения.Однако не всегда смысл, соотнесенный с сообщением реципиентом, совпадает сосмыслом, вкладываемым в сообщение автором, а любой их них может не совпадать снаиболее вероятной в языке интерпретацией сообщения (нормативно выделеннойподсистемой значения ЯВ), т.е.
смыслом относительно языка, критерии выделениякоторого должны быть объективными, например, синтаксическими. В качествепримеров возможно различного понимания ЯВ автором, реципиентом и относительноязыка (объективно) можно привести следующие ЯВ:Этого просто не вынести!«А что вам нужно вынести?» — спросила Алиса (Л. Кэрролл);За безбилетный проезд и провоз одного места багажа взимается штраф…(объявление в общественном транспорте).4.1.
Теория концептуальной зависимостиР. ШенкаКлассическим примером экспериментальной системы интегрального типа, в которойподробно исследован семантический аспект ЕЯ и предлагается интересный подход крешению проблемы понимания текста на ЕЯ (английском), является система MARGIEР. Шенка [8]. В основе MARGIE лежит представление смысла фраз ЕЯ в терминахтеории концептуальной зависимости (ТКЗ), т.е. оно состоит из понятий, объединенныхопределенными отношениями между ними.