И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208), страница 2
Текст из файла (страница 2)
Особенночетко это проявляется в фонологии и морфологии.Парадигматические отношения, в отличие от синтагматических, не линейны и неодновременны в потоке речи или тексте, они представляют собой соотношения междуэлементами языка, объединяемыми в сознании говорящего некими ассоциациями (всилу общности их формы и/или содержания).
В случае парадигматических отношенийприсутствие одного из членов парадигматического ряда в синтагматической цепочкеисключает наличие другого, но делает возможной их взаимозамену. Т.е.синтагматические отношения проявляются в совместной встречаемости языковыхединиц, а парадигматические — в их взаимоисключении и взаимозамене.Синтагматика организована по принципу логической конъюнкции, отношения «и–и»,парадигматика же — по принципу логической дизъюнкции, отношения «или–или».Первый тип отношений характеризует речь, процесс, второй — систему языка.
Одна ита же сущность, входя в систему языка, осуществляет функцию дизъюнкции, но, входяв текст, проявляет функцию конъюнкции. В тексте языковые единицы сосуществуют, всистеме образуют парадигмы.4Практические аспекты создания лингвистических процессоров. Учебное пособие.2. Морфологический компонентлингвистического процессора ЕЯМорфологический компонент ЛП — комплекс программ, обеспечивающихморфологический анализ и синтез лексем ЕЯ.Морфология (словоизменение) — раздел науки, изучающий части речи, их категориии формы слов.Морфема — минимальная значащая часть слова (корень, приставка, суффикс,окончание, постфикс).Основа — часть слова без окончания (постфикса).Флексия — окончание (постфикс).Лексема — слово, рассматриваемое как единица словарного состава языка всовокупности его конкретных грамматических форм и выражающих их флексий, атакже возможных конкретных смысловых вариантов.Словоформа — лексема в некоторой грамматической форме.Морфологическая парадигма — система форм одного слова (обычно задаетсятаблицей).Омонимия — звуковое совпадение различных языковых единиц, значения которых несвязаны друг с другом.Лексические омонимы — одинаково звучащие и пишущиеся слова, не имеющиеобщих элементов смысла и не связанные ассоциативно.
Например, лук (растение) — лук(для стрельбы), flaw (трещина) — flaw (порыв ветра), брак (изъян) — брак (женитьба).Различаются полная омонимия, когда совпадают все формы слов, и частичнаяомонимия, при которой совпадают только отдельные формы слов, называемыеомоформами. Например, стих (глагол в прошедшем времени, единственном числемужского рода) — стих (существительное в единственном числе, именительномпадеже), saw (пила) — saw (2-я форма глагола «to see»).Омографы — слова, имеющие одинаковое написание, но различное произношение.Например, мука-мука, lead [led] (свинец) — lead [li:d] (вести), tear [te ] (рвать) — tear[ti ] (слеза).Омофоны — слова, которые произносятся одинаково, но различаются в написании.Например, косный – костный, write — right, week — weak.2.1. Морфологическая модельестественного языка.«Создание модели естьдоказательство ясности понимания»Существующие в настоящее время морфологические модели различаются в основномпо следующим параметрам.Во-первых, морфологические модели отличаются по результатам работы основанныхна них морфологических анализаторов.
На вход морфологический анализатор получаетсловоформу некоторого ЕЯ, а на выходе может выдавать все значения грамматических5Волкова И.А. Введение в компьютерную лингвистику.характеристик (род, число, падеж, вид, лицо и т.п.) заданной словоформы, а можетпросто отвечать на вопрос, принадлежит ли заданная словоформа некоторому ЕЯ илинет (в этом случае морфологические анализаторы называют акцепторами).Во-вторых, морфологические модели могут ориентироваться на полное покрытиелексики (т.е.
все лексемы, которые могут обрабатывать программы морфологическогоуровня находятся в базе данных) или частичное покрытие лексики (морфологическаямодель учитывает возможность появления лексемы, не занесенной в базу данных).В-третьих, морфологические модели различаются по способу представления ичленения словоформ. Существует два основных способа представления лексем.1) В базе данных хранятся все словоформы всех лексем (возможно, с набором ихграмматических характеристик), и каким-то образом определяются словоформы,принадлежащие одной лексеме.
Такой способ представления лексем удобен иэффективен для малофлективных языков, в которых различные грамматическиекатегории реализуются, в основном, не с помощью вариации флексий, анекоторым грамматическим способом, например, с помощью предлогов. Кмалофлективным языкам относится, например, английский язык.2) В базе данных хранятся основы лексем и списки флексий (возможно, сприписанными им значениями грамматических характеристик), которыеприсоединяются к основе для получения какой-либо словоформы. Такой способпредставления лексем эффективен для флективных языков, в которыхразличные грамматические категории реализуются путем вариации флексий.Флективным является, например, русский язык.
Модели, в которых принятданный способ представления лексем подразделяются еще на две группы: водной учитываются чисто орфографические основы и флексии, в другой — такназываемые псевдоосновы (неизменяемая начальная часть слова) ипсевдофлексии (варьируемая при словоизменении конечная часть слова). Выбортого или иного варианта определения основы связан, в основном, сэффективностью реализации и назначением морфологического компонента вцелом.В любой морфологической модели, учитывающей значения грамматическиххарактеристик лексем, с каждой лексемой связаны: синтаксический класс (часть речи),словоизменительный (парадигматический) класс и значения грамматическихкатегорий, или грамматических переменных (ГП), соответствующих синтаксическомуклассу.
Различаются свободные и связанные ГП. Связанные ГП — ГП, присущиелексеме в целом (всем ее словоформам), например, одушевленность и род длясуществительных. Свободные ГП — совокупность ГП, по которым лексема изменяется,например, число и падеж для существительных.В один синтаксический класс объединяются лексемы, имеющие— общий набор ГП,— общий набор свободных ГП,— общее множество значений ГП,— общие синтаксические функции.В грамматике (русского языка) выделяются следующие синтаксические классы, скоторыми связаны следующие ГП (для классов неизменяемых лексем ГП не указаны).— Существительные. ГП — одушевлённость, род, число, падеж.
СвободныеГП — число, падеж.— Прилагательные. ГП — одушевлённость, род, число, падеж, степень.Свободные ГП для полных форм — одушевленность, род, число, падеж.6Практические аспекты создания лингвистических процессоров. Учебное пособие.Свободные ГП для кратких форм — род, число. Свободные ГП длясравнительной степени — степень.— Глаголы. ГП личных форм глагола - возвратность, вид, наклонение-время,лицо, род, число; кроме того, переходные глаголы имеют формы страдательногозалога. Свободные ГП личных форм глагола — наклонение-время, лицо, род,число, залог.
Причастия и деепричастия являются глагольными формами ивходят в парадигму глагола. ГП причастий — возвратность, вид, время, залог,одушевленность, род, число, падеж. Парадигма причастий совпадает спарадигмой прилагательных, но у причастий нет форм сравнительной степени.Свободные ГП для полных форм причастий — одушевленность, род, число,падеж. Свободные ГП для кратких форм причастий — род, число. ГПдеепричастий — возвратность, вид, время. Свободные ГП деепричастий —время.
Иногда удобно связать с глагольной лексемой чисто синтаксическуюхарактеристику — переходность.— Наречия.— Личные местоимения. ГП — одушевленность, род, число, падеж, лицо.Свободная ГП личных местоимений — падеж.— Предлоги.— Союзы.— Числительные.— Частицы.— Междометия.— Предикативы.— Вводные слова.Иногда в морфологических моделях выделяются синтаксические подклассы лексем,имеющие определенные морфологические и/или синтаксические особенности.Например, в русском языке в классе прилагательных можно выделить местоименныеприлагательные («который»), притяжательные прилагательные («дядин»), порядковыечислительные («второй»).2.2.
Некоторые особенности и закономерностиморфологии русского языка.В парадигме существительных (кроме существительных с неопределенным родом) иприлагательных единственного числа мужского и среднего рода, а также любыхсуществительных и прилагательных множественного числа форму винительногопадежа (В.п.) можно определить т.о.:— форма В.п. одушевленных существительных мужского рода единственногочисла совпадает с формой родительного падежа (Р.п.);— форма В.п. неодушевленных существительных мужского рода единственногочисла совпадает с формой именительного падежа (И.п.);— форма В.п.