Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 60
Текст из файла (страница 60)
Это различиеможно также эффективно использовать при автоматической обработке текстов, используя,например, комбинированную обработку текстов и запросов при решении информационнопоисковых задач, а именно пытаться разрешать многозначность для слов и терминов,относящихся к общественно-политической области, и использовать пословную обработкудля остальной общеупотребительной лексики (подробнее см. разделы 18.2, 20.4).Таким образом, мы считаем, что описание общей лексики должно сочетаться сописанием терминологии предметных областей общественно-политической области.В настоящее время Общественно-политический тезаурус интегрирует в себезначительную долю терминологии следующих предметных областей, которая былавведена в него в течение деятельности в ряде проектов по автоматической обработкетекстов: экономика, право, социология, демография, банковское дело, государственныйфинансовый контроль, выборы.15.4.
Общественно-политический тезаурус в сравнении с традиционнымиинформационно-поисковыми тезаурусамиК началу 2010 года объем тезауруса РуТез составляет 52.5 тысяч понятий, 143тысячи разных русскоязычных слов и словосочетаний, 209 тысяч отношений междупонятиями. Общественно-политический тезаурус составляет более двух третей от объематезауруса РуТез и включает в себя 37 тысяч понятий, около 100 тысяч разных русскихслов и словосочетаний (рис.
15.2).Как мы увидим в дальнейшем, Общественно-политический тезаурус в ряде задачприменяется отдельно от остального тезауруса и может рассматриваться какинформационно-поисковый тезаурус, созданный для автоматического индексированиятекстов в широкой общественно-политической области. По широте предметной областиОбщественно-политический тезаурус соответствует таким тезаурусам как Тезаурусисследовательской службы Конгресса США LIV (LIV, 1994) или тезаурус Европейскогосообщества EUROVOC (EUROVOC, 2001).
Однако наш Общественно-политическийтезаурус во много раз больше упомянутых тезаурусов.Такое различие связано с тем, что Общественно-политический тезаурус изначальносоздавался как ресурс для автоматической обработки текстов, когда человека-посредникамежду информационно-поисковым тезаурусом и языком документов нет. Поэтомудостаточно большой объем информации должен быть представлен непосредственно втезаурусе (см. п. 1.7.).Общественно-политический тезаурус включает не только термины, которыепредставляют важные понятия в текстах данной предметной области, но также охватываетширокий круг более специфических терминов, обнаружение которых в конкретном текстесделает этот текст релевантным запросу по понятиям более высокого уровня.221СинонимическиерядыпонятийОбщественно-политическоготезаурусазначительно богаче, чем совокупности вариантов дескриптора в тезаурусах LIV илиEUROVOC, поскольку синонимы должны описывать различные способы выраженияданного понятия в тексте для автоматического процесса, а не для человека.
Рядысинонимов включают в себя не только существительные и именные группы, а такжеприлагательные, глаголы, глагольные группы.Расширение терминологической базы Общественно-политического тезауруса ведетк необходимости описания многозначных терминов. Общественно-политический тезауруссодержит около 4.5 тысяч многозначных слов и выражений. В традиционныхинформационно-поисковых тезаурусах нет необходимости аккуратно описыватьмногозначность употребляемых в текстах слов и выражений, поскольку понимание текста,его основной темы возложено на человека-индексатора.Расширение понятийной базы Общественно-политического тезауруса ведет кувеличению и усложнению функций отношений между понятиями тезауруса: возникаетнеобходимость логического вывода на отношениях.Заключение к главе 15.В данной главе мы представили особенности структуры Тезауруса русского языкаРуТез.
При разработке тезауруса как ресурса для автоматической обработки текстов былииспользованы принципы различных традиций и методологий, а именно, методологииразработки традиционных информационно-поисковых тезаурусов, методологииразработки лингвистических ресурсов типа WordNet, методологии созданий формальныхонтологий.Особенностью тезауруса РуТез является то, что в нем выделяются две составныечасти Общий лексикон и Общественно-политический тезаурус, который содержиттематическую лексику и терминологию, значимую для общества в целом. Такоесочетание в одном ресурсе обычно разделяемых языковых сущностей связано с тем, чтограница между лексикой и терминологией представляет собой широкую промежуточнуюзону.
Она содержит лексемы, значения которых совпадают с понятиями конкретныхпредметных областей, и термины, понятные носителям языка.Эта зона включает в себя понятия, значимые для общества в целом, поэтому мыназываем ее Общественно-политической областью. Лексико-терминологические ресурсы,разработанные для общественно-политической области, полезны для приложений поавтоматической обработке разнообразных типов текстов. Знания об общественнополитической области очень важны как для создания лингвистических ресурсов вконкретных предметных областях, так и как основа для описания абстрактной лексикиязыка.Общественно-политический тезаурус может рассматриваться как примеринформационно-поискового тезауруса в широкой предметной области, созданныйспециально как ресурс для автоматической обработки текстов в приложенияхинформационного поиска и поэтому обладающий рядом специфических характеристик посравнению с традиционными информационно-поисковыми тезаурусами.222Глава 16.
Единицы тезауруса: понятия и их текстовые входыТезаурус РуТез является лингвистической онтологией, то есть подавляющеебольшинство понятий в тезаурусе РуТез связаны со значениями реально существующихязыковых выражений. В то же время, поскольку тезаурус РуТез является онтологией, тоединицы тезауруса должны отвечать правилам представления понятий в онтологиях.Как мы уже указывали в разделе 5.1, важными принципами представления понятийв онтологии являются следующие:- необходимо отличать понятие и его имя, разные названия одной и той жесущности не должны приводить к введению отдельных понятий,- нижестоящие понятия должны отчетливо отличаться от вышестоящих понятий,то есть, например, иметь специфическое отношение или атрибут,- каждое понятие должно отчетливо отличаться от понятий того же уровняиерархии (понятий-сестер).Эти рекомендации введения понятий онтологии не просто реализовать, еслионтология основывается на значениях реально существующих языковых выражений.Имеется несколько источников таких трудностей.Во-первых, в некоторых случаях может быть сложно отличить понятие и егоразличные имена.
Как мы видели, в ресурсах типа WordNet отдельные синсеты вводятсядля разных частей речи, которые являются деривативами, то есть называют одну и ту жесущность или явление посредством разных частеречных единиц. Также отдельныеединицы в ресурсах типа WordNet часто вводятся, чтобы отразить стилистические,географические или диалектные особенности употребления слов.Во-вторых, серьезную сложность представляет собой представление в видесовокупности понятий значений многозначных слов, особенно в тех случаях, когда этизначения являются очень близкими друг к другу. Часто в таких случаях возникает вопрос,что правильнее с точки зрения как качества описания, так и с точки зрения приложенийавтоматической обработки текстов: представить такие близкие значения как отдельные,возможно связанные между собой понятия или соединить близкие значения в одно и то жепонятие.В-третьих, непростой проблемой является описание близких значений разных слов.Такие слова могут отличаться посредством множества разных характеристик,особенностей употребления.
Разбиение такой совокупности взаимосвязанных значений насовокупность дискретных понятий, каждое из которых должно быть отличимо от другихблизких понятий, является достаточно сложной процедурой. Но именно такие понятия(несмотря на то, что они мотивированы значениями языковых единиц конкретного языка),приобретают некоторые свойства независимости от конкретного языка: если понятиеотличимо от близких понятий, то особенности данного понятия могут тем или инымобразом быть сформулированы на разных языках (Nirenburg, Raskin, 2004).Наконец, непростой вопрос возникает, в каких случаях необходимо или полезновводить в онтологию понятия, основанные на значениях словосочетаний.
Посколькусловосочетаний в языке может быть бесконечное количество, то важным является вопрос,посредством каких принципов должно регулироваться введение в тезаурус понятий,отражающих значения словосочетаний.В следующих разделах мы подробно рассмотрим решения, принимаемые по всемэтим вопросам при разработке тезауруса РуТез.22316.1. Понятия vs. синсеты как единицы тезаурусаСоздавая тезаурус РуТез, мы не стремимся отделить лексические знания от знанийо мире, как провозглашалось такими исследователями, как И.А. Мельчук (Мельчук, 1974)или Дж.