И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208), страница 3
Текст из файла (страница 3)
всех существительных среднего рода единственного числа совпадаетс формой И.п.;— форма В.п. одушевленных существительных любого рода множественного числасовпадает с формой Р.п.;— форма В.п. неодушевленных существительных любого рода множественногочисла совпадает с формой И.п.7Волкова И.А. Введение в компьютерную лингвистику.В парадигме всех существительных и прилагательных женского рода единственногочисла форма предложного падежа всегда совпадает с формой дательного падежа.В морфологической модели русского языка необходимо учесть наличие неизменяемыхсуществительных, т.е.
существительных, у которых все формы совпадают (например,«кофе», «метро»).Почти в каждом склоняемом или спрягаемом синтаксическом классе существуютлексемы, у которых не существуют некоторые формы соответствующей парадигмы(например, существительное «ножницы» не имеет форм единственного числа,прилагательное «рад» не имеет полных форм).
Такая морфологическая особенностьдолжна быть учтена в морфологической модели.Прилагательные русского языка имеют две сравнительные степени сильную(«краснее») и слабую («покраснее»), которая образуется путем прибавления и флексиисравнительной степени, и префикса.Самое большое количество форм имеют переходные глаголы несовершенного вида соследующими значениями ГП (на примере глагола делать):— инфинитив (делать),— настоящее время, ед. число, 1 лицо (делаю),— настоящее время, ед. число, 2 лицо (делаешь),— настоящее время, ед.
число, 3 лицо (делает),— настоящее время, мн. число, 1 лицо (делаем),— настоящее время, мн. число, 2 лицо (делаете),— настоящее время, мн. число, 3 лицо (делают),— прошедшее время, ед. число, мужской род (делал),— прошедшее время, ед. число, женский род (делала),— прошедшее время, ед.
число, средний род (делало),— прошедшее время, мн. число (делали),— повелительное наклонение, ед. число, 2 лицо (делай),— повелительное наклонение, мн. число, 2 лицо (делайте),— действительное причастие настоящего времени (делающий),— страдательное причастие настоящего времени (делаемый),— действительное причастие прошедшего времени (делавший),— страдательное причастие прошедшего времени (деланный),— деепричастие настоящего времени (делая),— деепричастие прошедшего времени (делав/делавши),— возвратные формы (с –ся/–сь): инфинитив (делаться); настоящее время, 3 лицо(делается, делаются); прошедшее время (делался, делалась, делалось, делались);действительное причастие настоящего времени (делающийся), действительноепричастие прошедшего времени (делавшийся).У всех непереходных глаголов нет никаких возвратных форм и форм страдательногозалога.У всех глаголов совершенного вида нет никаких форм настоящего времени (нопоявляются личные формы будущего времени) и страдательных форм.Существуют еще некоторые подклассы глаголов со своим набором форм (возвратные,многократные, двувидовые и безличные), но в рамках данного задания их можно нерассматривать.8Практические аспекты создания лингвистических процессоров.
Учебное пособие.Значения ГП:ГПЗначение ГПодушевленность одушевленностьнеодушевленность;род мужской,женский,средний;число единственное,множественное;падеж именительный,родительный, второй родительный,дательный,винительный,творительный,предложный, второй предложный;вид совершенный,несовершенный;лицо первое,второе,третье;залог действительный,страдательный;возвратность возвратность,невозвратность;время настоящее,прошедшее;наклонение-время настоящее,будущее,прошедшее,сослагательное,повелительное,инфинитив;степень сильная,слабая.2.3. Морфологическая база данныхМорфологическая база данных должна содержать всю информацию, необходимую дляработы процедур морфологического анализа и синтеза.9Волкова И.А.
Введение в компьютерную лингвистику.Если в выбранной морфологической модели принят словарь словоформ, то база данныхдолжна содержать все словоформы учитываемых лексем с указанием ихграмматических характеристик и принадлежности определенной лексеме.Если же в морфологической модели принят словарь основ (псевдооснов), то базаданных помимо основ учитываемых лексем должна содержать словарь списковфлексий (псевдофлексий), соответствующих каждому парадигматическому классу.С каждой флексией должен быть связан набор значений ГП, приписываемый основе сданной флексией.
Если в морфологической модели учитываются какие-либо типичныеособенности словоизменения (например, чередование букв в основе), то информация оних также должна храниться в базе данных.Морфологическая БД помимо лексем с регулярным словоизменением должнасодержать лексемы с отсутствующими формами («ножницы», «рад»), с супплетивнымиформами («лучше» для прилагательного «хороший»), неизменяемые существительные(«метро»).
Кроме того, БД обязательно должна содержать омонимичные лексемы(с полной и частичной омонимией).2.4. Морфологические анализаторы исинтезаторы ЕЯНа вход программе морфологического анализа поступает словоформа.Если программа работает со словарем словоформ, то задача морфологического анализасводится к задаче поиска заданной словоформы в базе данных, где с каждойсловоформой связаны ее грамматические характеристики.
Если словоформа в словаренаходится, то результатом морфологического анализа будут являться приписанные ейграмматические характеристики и начальная форма исходной лексемы, если жесловоформа в словаре не находится, значит она не принадлежит выбранномуподмножеству лексического состава ЕЯ.Если же программа работает со словарями основ и флексий или псевдооснов ипсевдофлексий, то имеет смысл все равно поискать исходную словоформу в словаре(она будет найдена, если соответствующая лексема неизменяемая или если даннаясловоформа имеет пустую флексию).Если словоформа в словаре не нашлась, то можно, например, отщепить от неепоследнюю букву (предположительно таким образом поделив словоформу на основу ифлексию) и поискать оставшуюся часть в словаре.
Если поиск опять оказалсянеуспешным, нужно отщепить две последние буквы и т.д. Процесс завершается, когдапроизведен поиск последнего варианта расщепления словоформы на основу и флексию.А это происходит, либо когда отщеплено столько последних букв, какова максимальнаядлина флексии (с учетом постфикса, например, –ся/–сь) в соответствующем ЕЯ (вслучае словаря основ и флексий), либо когда проанализирована пустая основа и всясловоформа как флексия (в случае словаря псевдооснов и псевдофлексий).При этом, если ни один из вариантов основы или псевдоосновы в словаре не находится,то заданная словоформа не принадлежит выбранному подмножеству лексическогосостава ЕЯ.
Если же какой-либо (или какие-либо, например, для словоформы «дома» —«дом-а» (сущ.) и «дома» (наречие)) вариант предположительной основы нашелся всловаре, надо проверить, может ли у данной основы быть предположительная флексия.Если да — результатом анализа словоформы являются грамматическиехарактеристики, связанные с флексией и начальная форма соответствующей лексемы,если нет — надо продолжить процесс расщепления исходной словоформы на основу ифлексию.10Практические аспекты создания лингвистических процессоров.
Учебное пособие.Отметим, что при использовании любого словаря результат морфологического анализав общем случае неоднозначен в силу наличия в ЕЯ морфологической омонимии.На вход программе морфологического синтеза поступают: а) лексема в начальнойформе и б) значения свободных грамматических переменных (в некотором заранееоговоренном виде), соответствующих запрашиваемой словоформе данной лексемы илизапрос на синтез всех форм заданной лексемы.Результатом работы программы морфологического синтеза является либо словоформа сзапрашиваемыми грамматическими характеристиками, либо все формы заданнойлексемы. Морфологический синтез также может оказаться неоднозначным в случаевариативности флексии в какой-либо форме слова или при морфологическойомонимии.11Волкова И.А.
Введение в компьютерную лингвистику.3. Синтаксический компонентлингвистического процессора ЕЯСинтаксис — раздел грамматики, изучающий процессы порождения речи:сочетаемость и порядок следования слов внутри предложения, а также общие свойствапредложения как автономной единицы языка и высказывания как части речи.Одним из центральных дискуссионных вопросов в области компьютерной лингвистикиявляется вопрос о том, каковы задачи и место синтаксического этапа анализа впроцессе определения смысла текста: речь идёт прежде всего о соотношениисинтаксического и семантического уровней анализа и вообще о целесообразностиразделения этих уровней в модели понимания ЕЯ. Существуют два принципиальноразличных подхода: модульный и интегральный.Системы модульного типа.
В этих системах каждому уровню лингвистическогоанализа соответствует отдельный компонент системы. Системы модульного типадопускают разные схемы взаимодействия компонентов (последовательная работа,параллельный перемежающийся анализ). Это не меняет существа дела: синтаксис исемантика обрабатываются в системе разными механизмами. При этом синтаксическийуровень понимания входного текста выделен в отдельный блок, преобразующий текст вего синтаксическое представление.Системы интегрального типа. В таких системах синтаксический и семантическийанализаторы (а часто и анализатор прагматического уровня) слиты в отдельный блок.Система ориентируется сразу на формирование (на основе текста) достаточно богатыхконцептуальных структур, а не на постепенную «глубинизацию» понимания, как этоимеет место в системах модульного типа. Здесь не предусматривается формированиесинтаксического представления входного текста.
Синтаксическая информацияиспользуется фрагментарно и лишь как вспомогательная.Системы интегрального типа успешно применяются пока только в ЕЯ-системах,работающих в предельно узкой проблемной области, и остается открытым вопрос отом, насколько они эффективны при обработке больших и разнообразных по тематикемассивов текстов. Наиболее интересными и перспективными представляются системымодульного типа. И в данной работе рассматриваются, в основном, именно такиесистемы.Среди сторонников систем модульного типа также нет полного единодушия, например,в вопросе о том, насколько развитым и «семантизированным» должен бытьсинтаксический этап анализа. Это находит отражение в разной степенидифференцированности синтаксических отношений, в разной глубине интерпретациисинтаксических отношений, а также в широте привлечения семантической информациипри построении синтаксической структуры входного предложения.3.1.