Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 32
Текст из файла (страница 32)
снабжены некоторой лингвистической разметкой(аннотациями) – морфологической, акцентной, синтаксической и т.п. [3].В настоящеевремя существует не менее сотни различных корпусов – для разных ЕЯ и с различнойразметкой, в России наиболее известным является Национальный корпус русскогоязыка [43].Размеченные корпуса создаются лингвистами и используются как длялингвистических исследований, так и для настройки (обучения) используемых в КЛмоделей и процессоров с помощью известных математических методов машинногообучения. Так, машинное обучение применяется для настройки методов разрешениялексической неоднозначности, распознавания части речи, разрешения анафорическихссылок.Поскольку корпуса и коллекции текстов всегда ограничены по представленнымв них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), впоследнее время все чаще в качестве более полного лингвистического ресурсарассматриваются тексты сети Интернет [13, 35].
Безусловно, Интернет являетсясамым представительным источником образцов современной речи, однако егоиспользование как корпуса требует разработки специальных технологий.Глава 6.Приложения компьютерной лингвистикиОбласть приложений компьютерной лингвистики постоянно расширяется, такчто охарактеризуем здесь наиболее известные прикладные задачи, решаемые ееинструментами.Машинный перевод [21] – самое раннее приложение КЛ, вместе с которымвозникла и развивалась сама эта область.
Первые программы перевода былипостроены более 50 лет назад и были основаны на простейшей стратегии пословногоперевода. Однако довольно быстро было осознано, что машинный перевод требуетполной лингвистической модели, учитывающей все уровни языка, вплоть досемантики и прагматики, что неоднократно тормозило развитие этого направления.Достаточно полная модель использована в отечественной системе ЭТАП [26],выполняющей перевод научных текстов с французского на русский язык.Заметим, однако, что в случае перевода на родственный язык, например, припереводе с испанского на португальский или же с русского на украинский (у которыхмного общего в синтаксисе и морфологии), процессор может быть реализован на99основе упрощенной модели, например, на основе все той же стратегией пословногоперевода.В настоящее время существует целый спектр компьютерных систем перевода(разного качества), от больших интернациональных исследовательских проектов докоммерческих автоматических переводчиков.
Существенный интерес представляютпроекты многоязыкового перевода, с использованием промежуточного языка, накотором кодируется смысл переводимых фраз. Другое современное направление –статистическая трансляция [5], опирающаяся на статистику перевода слов исловосочетаний (эти идеи, к примеру, реализованы в переводчике поисковикаGoogle).Но несмотря на многие десятилетия развития всего этого направления, в целомзадача машинного перевода еще весьма далека до полного решения.Еще одно довольно старое приложение компьютерной лингвистики – этоинформационный поиск и связанные с ним задачи индексирования, реферирования,классификации и рубрикации документов [1, 20, 22].Полнотекстовый поиск документов в больших базах документов (в первуюочередь – научно-технических, деловых), проводится обычно на основе их поисковыхобразов, под которыми понимается набор ключевых слов – слов, отражающихосновную тему документа.
Сначала в качестве ключевых слов рассматривалисьтолько отдельные слова ЕЯ, а поиск производился без учета их словоизменения, чтонекритично для слабофлективных языков типа английском. Для флективных языков,например, для русского потребовалось использование морфологической модели,учитывающей словоизменение.Запрос на поиск также представлялся в виде набора слов, подходящие(релевантные) документы определялись на основе похожести запроса и поисковогообраза документа. Создание поискового образа документа предполагаетиндексирование его текста, т.е.
выделение в нем ключевых слов [12] . Посколькуочень часто гораздо точнее тему и содержание документа отображают не отдельныеслова, а словосочетания, в качестве ключевых слов стали рассматриватьсясловосочетания. Это существенно усложнило процедуру индексирования документов,поскольку для отбора значимых словосочетаний текста потребовалось использоватьразличные комбинации статистических и лингвистических критериев.По сути, в информационном поиске в основном используется векторная модельтекста (называемая иногда bag of words – мешок слов), при которой документпредставляется вектором (набором) своих ключевых слов.
Современные интернетпоисковики также используют эту модель, выполняя индексирование текстов поупотребляемым в них словам (в то же время для выдачи релевантных документов онииспользуют весьма изощренные процедуры ранжирования).Указанная модель текста (с некоторыми усложнениями) применяется и врассматриваемых ниже смежных задачах информационного поиска.Реферирование текста – сокращение его объема и получение его краткогоизложения – реферата (свернутого содержания), что делает более быстрым поиск вколлекциях документов. Общий реферат может составляться также для несколькихблизких по теме документов.Основным методом автоматического реферирования до сих пор является отборнаиболее значимых предложений реферируемого текста, для чего обычно сначалавычисляются ключевые слова текста и рассчитывается коэффициент значимости100предложений текста.
Выбор значимых предложений осложняется анафорическимисвязями предложений, разрыв которых нежелателен – для решения этой проблемыразрабатываются определенные стратегии отбора предложений.Близкая к реферированию задача – аннотирование текста документа, т.е.составление его аннотации. В простейшей форме аннотация представляет собойперечень основных тем текста, для выделения которых могут использоватьсяпроцедуры индексирования.При создании больших коллекций документов актуальны задачиклассификации и кластеризации текстов с целью создания классов близких по темедокументов [31]. Классификация означает отнесение каждого документа копределенному классу с заранее известными параметрами, а кластеризация –разбиение множества документов на кластеры, т.е. подмножества тематическиблизких документов.
Для решения этих задач применяются методы машинногообучения, в связи с чем эти прикладные задачи называют Text Mining и относят кнаучному направлению, известному как Data Mining, или интеллектуальный анализданных [27].Очень близка к классификации задача рубрицирования текста – его отнесение кодной из заранее известных тематических рубрик (обычно рубрики образуютиерархическое дерево тематик).Задача классификации получает все большее распространение, она решается,например, при распознавании спама, а сравнительно новое приложение –классификация SMS-сообщений в мобильных устройствах. Новое и актуальноенаправление исследований для общей задачи информационного поиска –многоязыковой поиск по документам.Еще одна относительно новая задача, связанная с информационным поиском –формирование ответов на вопросы (Question Answering) [9]. Эта задача решаетсяпутем определения типа вопроса, поиском текстов, потенциально содержащих ответна этот вопрос, и извлечением ответа из этих текстов.Совершенно иное прикладное направление, которое развивается хотя имедленно, но устойчиво – это автоматизация подготовки и редактированиятекстов на ЕЯ.
Одним из первых приложений в этом направлении были программыавтоматической определения переносов слов и программы орфографическойпроверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простотузадачи переносов, ее корректное решение для многих ЕЯ (например, английского)требует знания морфемной структуры слов соответствующего языка, а значит,соответствующего словаря.Проверка орфографии уже давно реализована в коммерческих системах иопирается на соответствующий словарь и модель морфологии. Используется такженеполная модель синтаксиса, на основе которой выявляются достаточно частотныевсе синтаксические ошибки (например, ошибки согласования слов).
В то же время вавтокорректорах не реализовано пока выявление более сложных ошибок, к примеру,неправильное употребление предлогов. Не обнаруживаются и многие лексическиеошибки, в частности, ошибки, возникающие в результате опечаток или неверногоиспользования схожих слов (например, весовой вместо весомый). В современныхисследованиях КЛ предлагаются методы автоматизированного выявления иисправления подобных ошибок, а также некоторых других видов стилистических101ошибок [25, 29]. В этих методах используется статистика встречаемости слов исловосочетаний.Близкой к поддержке подготовки текстов прикладной задачей является обучениеестественному языку, в рамках этого направления часто разрабатываютсякомпьютерные системы обучения языку – английскому, русскому и др. (подобныесистемы можно найти в Интернете).