Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 91
Текст из файла (страница 91)
Для этой процедурыпонадобилосьрасширитьОбщественно-политическийтезаурусвнекоторыепрофессиональные подобласти сферы общественных отношений, такие какналогообложение, таможенное дело, бухгалтерский учет, международные отношения идругие.341С 2001 года Общественно-политический тезаурус переводится на английский язык.Перевод позволил увидеть сделанные описания с точки зрения другого языка, что привелок значительному уточнению некоторых описаний. Например, выяснилось, что некоторыезначения многозначных слов, которые, казалось, можно представить как одно понятиетезауруса, на самом деле имеют два совершенно отличных друг от друга английскихперевода.
Кроме того, естественно, нашлись фрагменты тезауруса, плохо переводимые наанглийский язык, и были выполнены исследования по поводу того, как можно сделатьпредставление менее зависимым от конкретного языка, то есть было сделано движение оттезауруса конкретного языка к лингвистической онтологии.В настоящее время онтологический комплекс Общественно-политическийтезаурус- Тезаурус РуТез продолжает уточняться и пополняться.Имеется несколько основных источников уточнений и пополнения тезауруса.Во-первых, уточнение и пополнение тезаурусных описаний происходят в процессеанализа результатов работы тезауруса в реальных приложениях автоматическойобработки текстов, информационного поиска, проектов, выполняемых в конкретныхпредметных областях широкой общественно-политической сферы.Во-вторых, тезаурус пополняется за счет анализа упорядоченного по частотностисписка лемм, полученных по документам Университетской информационной системыРОССИЯ.В-третьих, тезаурус уточняется и пополняется за счет анализа упорядоченного почастотности списка англоязычных словоформ, полученных для коллекций газетных статейGlasgo Gerald и Los Andgeles Times, полученных в процессе участия в конференции помногоязычному поиску CLEF.Кроме того, по модели тезауруса РуТез создаются другие лингвистическиеонтологии.
Развитие одного из таких ресурсов Онтологии по естественным наукам итехнологиям будет рассмотрено в следующей главе.В июле 2009 года тезаурус РуТез имеет следующий объем:- 51.5 тысяч понятий,- 141.7 тысяч разных русскоязычных слов и словосочетаний,- 159.5 тысяч отношений понятие – русское языковое выражение, то есть сучетом разных значений языковых единиц,- 126.7 тысяч разных англоязычных слов и словосочетаний,- 137 тысяч отношений понятие – английское языковое выражение,- 204.5 тысяч отношений между понятиями.В следующих разделах рассмотрим подробнее разные этапы развития тезауруса РуТез.23.2. Первичное наполнение Общественно-политического тезаурусаПостроение любого тезауруса начинается с накопления слов и словосочетаний –кандидатов в тезаурусные единицы. Одним из методов формирования исходнойсовокупности терминов-кандидатов является автоматическое извлечение слов исловосочетаний из текстов предметной области. Поскольку отбор терминов в тезауруспредполагалось осуществлять вручную, важно, чтобы этот автоматическисформированный списокслов и словосочетаний, с одной стороны, представлялпредметную область достаточно полно, с другой стороны, число словосочетаний,извлеченных с ошибками, было минимально.Анализ имеющихся тезаурусов показывает, что основную массу тезаурусныхединиц составляют слова-существительные, а также словосочетания из двух-трех слов.Наиболее часто структура словосочетаний основывается на зависимых от главногосуществительного прилагательных и существительных в родительном падеже.В то же время, именно такие виды словосочетаний наиболее качественно, сминимальным числом ошибок, извлекаются из текстов.
Большой процентнеоднозначности при выделении предложных конструкций и относительно небольшое342количество терминов среди таких конструкций обусловили решение отказаться отавтоматического извлечения предложных конструкций на первом этапе наполненияОбщественно-политического тезауруса.Таким образом, автоматически из текстов документов извлекались следующиетипы словосочетаний (обозначим А - прилагательное, N - существительное):NСуществительноеA+Nсогласованные прилагательное+ существительноеN+Nсуществительное+ существительное в род. падежеA+A+Nсогласованные прилагательное+ прилагательное+ существительноеN+A+Nсуществительное+ согласованное прилагательное+ существительное в родительном падежеКроме ограничений натипы синтаксических конструкций извлекаемыхсловосочетаний, были еще введены лексические ограничения. Это было связано с тем, чтодостаточно большое количество слов, употребляемых в текстах, практически неучаствовают в образовании терминов.
В число таких слов входят разного рода оценочныеслова, эмоциональная лексика и др., Для описания возможности образования терминов сприлагательными и именными группами в родительном падеже был создан специальныйсловарь сочетаемости (в определенной степени аналогичная система учета сочетаемостислов используется в программе).На основе категорий, приписанных словам, работают правила, которыеприписывают словосочетанию категорию "+" или "-" . Категория "+" для словосочетанияозначает, что словосочетание будет предъявляться эксперту, "-" - словосочетание экспертупредъявляться не будет. Категория словосочетания со словом категории "0" зависит откатегорий других слов, входящих в словосочетание.Обозначим G - группа "прилагательное + существительное", примеры правил:A(-)+N(-)=G(-)важная проблемаA(+)+N(-)=G(+)внешнеполитическая деятельностьА(-)+N(+)=N(+) (G=N)вчерашняя продажаСозданный словарь сочетаемости включал около 30000 слов.
При этом считалось,что всякое новое относительно словаря слово, появившееся в тексте, имеет категорию "+".По отношению к зависимой конструкции в родительном падеже новое существительноеимеет категорию "-".В 1994-1997 гг. в системе автоматизированной разработки тезауруса былообработано около 50 тысяч нормативных документов Российской федерации, чтосоставляет порядка 200 Мбайт текстовой информации. Было выявлено более 300 тысячслов и словосочетаний, которые были просмотрены экспертами.
На основе этихсловосочетаний была создана первая версия Общественно-политического тезауруса около 28 тысяч тезаурусных входов.34323.3. Пополнение тезауруса в результате работы вкомпьютерных приложенияхВажным источником пополнения и исправления тезаурусных описаний в течениевсего срока существования тезауруса являлся анализ результатов автоматическойобработки текстов, произведенной с использованием тезауруса.Было создано специальное интерфейсное средство, обеспечивающее возможностидля удобного анализа результатов обработки текстов.Рис. 23.1. Форма просмотра результатов обработки текстов на основе тезауруса.Показано, что полученная для текста рубрика «Кредитование юридических лиц» былавыведена на основе терминов реальный сектор и кредиты.Интерфейсное средство позволяет (см.
рис.23.1):- подсвечивать все обнаруженные в тексте текстовые входы тезауруса. Темсамым легко находятся слова и словосочетания, которые еще не внесены втезаурус;- показывать значения слов или словосочетаний, описанные в тезаурусе, изначение в конкретном месте текста, выбранное в процессе автоматическойобработки текста.- При процедуре рубрикации может быть показан список понятий, по которымбыла выведена данная рубрика, а также могут быть подсвеченысоответствующие слова и словосочетания в тексте,- Может быть просмотрена структурная аннотация текста, по которой могут бытьвыявлены неправильно разрешенные значения слов или неточные отношениямежду понятиями.23.4.
Пополнение тезауруса на основе анализа списка русскоязычных леммВ 2001 был выгружен список лемм коллекции Университетской системы РОССИЯ,употреблявшихся в более чем 10 документах. Величина списка составила около 200 тысячлемм.Далее производилась вычитка этого списка:- исключалось из списка то, что уже описано в тезаурусе,- исключалось то, что не нужно описывать в тезаурусе (личные имена, ошибки идр.),- вносились описания слов, которые еще не были включены в тезаурус,344- вносились описания значений слов, которые отсутствовали в тезаурусе.В настоящее время величина данного списка составляет около 22 тысяч лемм.Основная работа идет на первых 8 тысячах лемм, которые в момент выгрузки встречалиськак минимум в 100 текстах.
В исходном списке этим 8 тысячам соответствовали 43тысячи наиболее частотных лемм.Для подавляющего большинства этих оставшихся 8 тысяч лемм на текущиймомент не представлены некоторые из основных значений, в связи с чем работапродолжается.При анализе очередного слова для пополнения описания его значений можновстретиться со следующими ситуациями:- все значения слова, на самом деле, описаны, за счет того, что они были введеныпри работе с каким-либо другим словом: синонимом, дериватом - тогда этослово просто исключается из списка,- у слова имеются значения, для которых непонятно, насколько онипредставлены в тексте современной деловой прозы.
В таких случаяхпроизводятся проверки употребления данного слова в таком значении вколлекции УИС РОССИЯ и Интернете. Проверки производятся посредством,например, поиска по примерам, приводимым в толкованиях словарных статейтолковых словарей,- у слова имеется несколько значений, между которыми очень труднопочувствовать и описать разницу. В таких случаях помогает поисксинонимичныходнозначныхсловосочетаний,видовыхпонятийкгипотетическим понятиям, введенным по каждому из значений,- у слова имеется значение с подзначениями, для адекватного отражения которыхвозможно нужно будет ввести несколько понятий. Здесь работа производитсякак в предыдущем пункте.
В разделе 16.4.1 мы приводили пример анализазначения слова покрывало, для описания которого были введены два отдельныхпонятия ПОКРЫВАЛО (ПОКРЫВАЮЩАЯ ТКАНЬ) и ПОСТЕЛЬНОЕПОКРЫВАЛО.- в некоторых случаях слово в данном значении имеет очень узкую сочетаемость.В таких случаях в тезаурус могут вводиться конкретные словосочетания,соответствующие этому значению слова, а отдельно для данного словазначение не описывается.