Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 31
Текст из файла (страница 31)
Для каждой из указанных частей речи слова сгруппированыв группы синонимов (синсеты), между которыми установлены отношенияантонимии, гипонимии (отношение род-вид), меронимии (отношение часть-целое).Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения родвид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формируетобщую онтологию – систему основных понятий о мире.По схеме английского WordNet были построены аналогичные лексическиересурсы для других европейских языков, объединенные под общим названиемEuroWordNet.Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ, типкоторых зависит от используемой в процессоре модели синтаксиса. В первомприближении грамматика представляет собой набор правил, выражающих общиесинтаксические свойства слов и групп слов.
Общее число правил грамматики такжезависит от модели синтаксиса, изменяясь от нескольких десятков до несколькихсотен. По существу, здесь проявляется такая проблема, как соотношение в моделиязыка грамматики и лексики: чем больше информации представлено в словаре, темкороче может быть грамматика и наоборот.98Отметим, что построение компьютерных словарей, тезаурусов и грамматик –объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработкалингвистической модели и соответствующего процессора. Поэтому одной изподчиненных задач КЛ является автоматизация построения лингвистическихресурсов [10, 15].Компьютерные словари часто формируются конвертацией обычных текстовыхсловарей, однако нередко для их построения требуется гораздо более сложная икропотливая работа. Обычно это бывает при построении словарей и тезаурусов длябыстро развивающися научных областей – молекулярной биологии, информатики идр.
Исходным материалом для извлечения необходимой лингвистическойинформации могут быть коллекции и корпуса текстов.Корпус текстов – это коллекция текстов, собранная по определенномупринципу представительности (по жанру, авторской принадлежности и т.п.), вкоторой все тексты размечены, т.е. снабжены некоторой лингвистической разметкой(аннотациями) – морфологической, акцентной, синтаксической и т.п. [3].В настоящеевремя существует не менее сотни различных корпусов – для разных ЕЯ и с различнойразметкой, в России наиболее известным является Национальный корпус русскогоязыка [43].Размеченные корпуса создаются лингвистами и используются как длялингвистических исследований, так и для настройки (обучения) используемых в КЛмоделей и процессоров с помощью известных математических методов машинногообучения.
Так, машинное обучение применяется для настройки методов разрешениялексической неоднозначности, распознавания части речи, разрешения анафорическихссылок.Поскольку корпуса и коллекции текстов всегда ограничены по представленнымв них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), впоследнее время все чаще в качестве более полного лингвистического ресурсарассматриваются тексты сети Интернет [13, 35].
Безусловно, Интернет являетсясамым представительным источником образцов современной речи, однако егоиспользование как корпуса требует разработки специальных технологий.Глава 6.Приложения компьютерной лингвистикиОбласть приложений компьютерной лингвистики постоянно расширяется, такчто охарактеризуем здесь наиболее известные прикладные задачи, решаемые ееинструментами.Машинный перевод [21] – самое раннее приложение КЛ, вместе с которымвозникла и развивалась сама эта область. Первые программы перевода былипостроены более 50 лет назад и были основаны на простейшей стратегии пословногоперевода. Однако довольно быстро было осознано, что машинный перевод требуетполной лингвистической модели, учитывающей все уровни языка, вплоть досемантики и прагматики, что неоднократно тормозило развитие этого направления.Достаточно полная модель использована в отечественной системе ЭТАП [26],выполняющей перевод научных текстов с французского на русский язык.Заметим, однако, что в случае перевода на родственный язык, например, припереводе с испанского на португальский или же с русского на украинский (у которыхмного общего в синтаксисе и морфологии), процессор может быть реализован на99основе упрощенной модели, например, на основе все той же стратегией пословногоперевода.В настоящее время существует целый спектр компьютерных систем перевода(разного качества), от больших интернациональных исследовательских проектов докоммерческих автоматических переводчиков.
Существенный интерес представляютпроекты многоязыкового перевода, с использованием промежуточного языка, накотором кодируется смысл переводимых фраз. Другое современное направление –статистическая трансляция [5], опирающаяся на статистику перевода слов исловосочетаний (эти идеи, к примеру, реализованы в переводчике поисковикаGoogle).Но несмотря на многие десятилетия развития всего этого направления, в целомзадача машинного перевода еще весьма далека до полного решения.Еще одно довольно старое приложение компьютерной лингвистики – этоинформационный поиск и связанные с ним задачи индексирования, реферирования,классификации и рубрикации документов [1, 20, 22].Полнотекстовый поиск документов в больших базах документов (в первуюочередь – научно-технических, деловых), проводится обычно на основе их поисковыхобразов, под которыми понимается набор ключевых слов – слов, отражающихосновную тему документа.
Сначала в качестве ключевых слов рассматривалисьтолько отдельные слова ЕЯ, а поиск производился без учета их словоизменения, чтонекритично для слабофлективных языков типа английском. Для флективных языков,например, для русского потребовалось использование морфологической модели,учитывающей словоизменение.Запрос на поиск также представлялся в виде набора слов, подходящие(релевантные) документы определялись на основе похожести запроса и поисковогообраза документа.
Создание поискового образа документа предполагаетиндексирование его текста, т.е. выделение в нем ключевых слов [12] . Посколькуочень часто гораздо точнее тему и содержание документа отображают не отдельныеслова, а словосочетания, в качестве ключевых слов стали рассматриватьсясловосочетания. Это существенно усложнило процедуру индексирования документов,поскольку для отбора значимых словосочетаний текста потребовалось использоватьразличные комбинации статистических и лингвистических критериев.По сути, в информационном поиске в основном используется векторная модельтекста (называемая иногда bag of words – мешок слов), при которой документпредставляется вектором (набором) своих ключевых слов. Современные интернетпоисковики также используют эту модель, выполняя индексирование текстов поупотребляемым в них словам (в то же время для выдачи релевантных документов онииспользуют весьма изощренные процедуры ранжирования).Указанная модель текста (с некоторыми усложнениями) применяется и врассматриваемых ниже смежных задачах информационного поиска.Реферирование текста – сокращение его объема и получение его краткогоизложения – реферата (свернутого содержания), что делает более быстрым поиск вколлекциях документов.
Общий реферат может составляться также для несколькихблизких по теме документов.Основным методом автоматического реферирования до сих пор является отборнаиболее значимых предложений реферируемого текста, для чего обычно сначалавычисляются ключевые слова текста и рассчитывается коэффициент значимости100предложений текста. Выбор значимых предложений осложняется анафорическимисвязями предложений, разрыв которых нежелателен – для решения этой проблемыразрабатываются определенные стратегии отбора предложений.Близкая к реферированию задача – аннотирование текста документа, т.е.составление его аннотации. В простейшей форме аннотация представляет собойперечень основных тем текста, для выделения которых могут использоватьсяпроцедуры индексирования.При создании больших коллекций документов актуальны задачиклассификации и кластеризации текстов с целью создания классов близких по темедокументов [31].