47763 (665904), страница 2
Текст из файла (страница 2)
Например сочетание “The man” может быть либо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом работы вероятностно-статистического алгоритма.
Представленная выше информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила, собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:
-
Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
-
Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализе текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация лексико-грамматического анализа достигла практически такой же точности.
Синтаксический анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический анализ — развивающаяся область прикладной лингвистики. Цель синтаксического анализа — автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных подходов к синтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается в построении элементарных смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю синтаксическую и семантическую информацию о конкретном слове или группе слов. К этим деревьям могут быть применены операции примыкания и подстановки. Подстановка является простой операцией – подстановкой дерева к висящей вершине другого дерева. Примыкание является более сложной операцией – присоединение некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического анализа предложения.
Синтаксический разбор предложения происходит путем набора последовательных преобразований:
-
поиск грамматических идиом;
-
лексико-грамматический анализ предложения с устранением неоднозначности в определении частей речи;
-
нахождение именной группы объекта и субъекта;
-
нахождение глагольной группы;
-
выделение главных и придаточных предложений.
Приведем пример синтаксического разбора предложения рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Обозначения:
[…] – группа существительного;
(…) – группа дополнения;
{…} – глагольная группа;
/…\ и - главные и придаточные предложения;
+ - окончание глагольного окружения.
Рис.5
В данной обзорной работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме автоматической обработки естественно-языковых текстов.
Сегодня в области компьютерной лингвистики ежегодно проводится более 40 конференций по всему миру, посвященных проблемам обработки естественного языка. Постоянно растет количество программных продуктов, связанных с данной темой, повышается их качество. Но, несмотря на это, те системы перевода, реферирования и экспертные системы, которые на сегодняшний день считаются лучшими, далеко не идеальны и требуют серьезных доработок. Все это говорит о необходимости продолжения исследований вопросов, связанных с обработкой естественного языка в задачах ДО и разработки новых подходов и алгоритмов, основанных на методах искусственного интеллекта.
6