Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 97
Текст из файла (страница 97)
Авторы книгинеоднократно слышали на различных конференциях, обсуждениях, высказывания, чтоглобальным поисковикам специально не занимаются применениям онтологическихресурсов, чуть ли не о заговоре по отношению к этим ресурсам.На основе рассмотрения особенностей существующих онтологических ресурсов,экспериментов и систем, применяющих их для решения задач информационного поиска, атакже на основе создания наших собственных ресурсов и реального применения их врешении практических задач, мы хотели бы сделать следующие выводы.Во-первых, мы считаем, что невозможно создать такой онтологический ресурс,применение которого в задачах информационного поиска, давало резкое преимущество посравнению с существующими статистическими пословными методами.
Это связано с тем,что любой ресурс всегда неполон, всегда недостаточно настроен на коллекцию.Однако применение комбинированных методов, сочетающих лучшие современныестатистические подходы с использованием знаний, описанных в ресурсах, может давать10-15 процентов улучшения качества обработки текстов, которые уже невозможнодостигнуть на текущем уровне развития статистических пословных методов.Кроме того, в конкретных предметных областях для обработки поступающихдокументов, для создания информационно-аналитических систем специалистамнеобходимы онтологические ресурсы разных типов (рубрикаторы, тезаурусы, формальныеонтологии), исследования в этих направлениях безусловно будут активно продолжаться.Наши собственные решения и эксперименты в сфере разработки и использованияонтологических ресурсов в сфере информационного поиска могут быть сформулированыследующим образом:1) Предложена модель информационно-поискового тезауруса - лингвистическойонтологии, предназначенного для автоматического индексирования текстов иавтоматического расширения информационно-поискового запроса.Модель построена на сочетации принципов трех различных традиций иметодологий разработки компьютерных ресурсов:- методологии разработки традиционных информационно-поисковых тезаурусов;- методологии разработки лингвистических ресурсов типа WordNet(Принстонский университет);- методологии созданий формальных онтологий.Предложенная модель позволяет в короткие сроки создавать онтологическиересурсы в неструктурированных предметных областях.
При этом созданный ресурс, с364одной стороны, будет содержать подробное описание терминологии предметной области,а также необходимые общелексические единицы, и, с другой стороны, будет иметьвнутреннюю структуру, соответствующую современным онтологическим принципамразработки онтологий в виде отличимых понятий и формальных отношений междупонятиями. Особенностью предлагаемой модели описания предметной области являетсято, что она построена с учетом эффективного применения в различных задачахинформационного поиска, что показано в целом ряде экспериментов.На основе этой модели построен Тезаурус русского языка РуТез, Онтология поестественным наукам и технологиям ОЕНТ и некоторые другие.
Используемую модельпостроения ресурсов мы называем РуТез* Онтология.Особенностью Тезауруса РуТез является также сочетание в одномлингвистическом ресурсе общеязыковых лексических единиц и терминов широкойпредметной области современной общественной жизни.2) Предложена модель разрешения лексической многозначности на основетезаурусных знаний, сочетающая информацию о локальном и глобальном контекстеупотребления многозначного слова.
Для задачи «все слова текста» результаты алгоритмасопоставимы с результатами лучших систем, достигаемых комбинированными методами сиспользованием семантически размеченных корпусов и информации о наиболеечастотном значении. Для тематической лексики точность разрешения лексическоймногозначности достигает 75%.3) Предложена модель лексической цепочки в форме тематического узла какпроявление глобальной связности текста. Такая лексическая цепочка имеет следующиесвойства:- лексическая цепочка имеет внутреннюю структуру узла – к одномувыделенному элементу относятся все другие элементы лексической цепочки,- лексическая цепочка не должна содержать слова и словосочетания, которыечасто встречались в одних и тех же предложениях текста с главным элементомэтой цепочки;- значимость цепочки для отражения содержания текста определяется не столькодлиной, покрытием и другими характеристиками цепочки, а тем, насколькочасто элементы этой цепочки встречались с элементами других цепочек в однихи тех же предложениях текста, то есть насколько много пропозицийконкретных предложений текста было посвящено обсуждению отношениймежду элементами лексических цепочек4) Предложена и реализована модель тематического представления содержаниятекстов, учитывающая свойства глобальной тематической связности текста и лексическойсвязности текста.
Тематическое представление моделирует основное содержание текстапосредством выделения тематических узлов – совокупностей близких по смыслу понятийтекста. Выделяются основные тематические узлы, соответствующие основной темедокумента и локальные тематические узлы, соответствующие подтемам документа.Построение тематического представления базируется на знаниях о понятиях иотношениях между ними, описанных в ресурсах типа РуТез* Онтология.5) Предложена модель концептуального индексирования документов дляинформационно-поисковой системы, базирующаяся на знаниях тезауруса и построенномтематическом представлении документов.
Концептуальный индекс по тезаурусу русскогоязыка РуТез используется в Университетской информационной системе РОССИЯ(www.cir.ru).3656) Предложена модель автоматической рубрикации документов, основанная наиспользовании тематического представления документов и описании рубрик в видебулевских выражений над понятиями тезауруса и способная рубрицировать текстыразличных типов (официальные документы, сообщения информационных агентств,газетные статьи). Модель можно легко настроить на новый рубрикатор и новые типытекстов, рубрицирование можно осуществлять сразу по нескольким рубрикаторам.На основе предложенной модели было реализованооколо 20 системавтоматической рубрикации текстов с количеством тематических рубрик от 35 до 3000.Возможности быстрой настройки системы рубрикации на новый рубрикатор идостигаемый при этом уровень качества рубрикации был продемонстрирован на семинарепо информационному поиску РОМИП-2007.
Создание системы рубрикации заняло 8часов, качество рубрикации было оценено как более чем 70% F-меры.7) Предложена и реализована модель автоматического многошагового построениябулевского выражения по длинному запросу на естественном языке, включающаярасширение запроса по тезаурусным отношениям, подтвержденным поисковой выдачей.8) Предложена модель автоматического аннотирования отдельного документа исовокупности тематически близких документов на базе выделения из текстов наиболеесодержательных предложений. Модель базируется на тематическом представлениисодержания текстов, что позволяет повысить связность создаваемой аннотации.Реализованная система автоматического аннотирования одного документа получиланаилучший результат в одной из номинаций на конференции SUMMAC в 1998 году.9) Предложена модель автоматического аннотирования новостного кластера наоснове тематического представления кластера, моделировании лексической связности, чтопозволяет улучшить связность и полноту аннотации, а также снизить повторы.366ЛитератураAdvances in Automatic Text Summarization.
Ed: I. Mani, Inderjeet, Maybury, Mark T.,The MIT Press Cambridge, Massachusetts, 1999.Ageev M., Dobrov B., Loukachevitch N. Text Categorization Tasks for Large HierarchialSystems of Categories. In Proceedings of SIGIR 2002 Workshop on Operational TextClassification Systems / Eds. F.Sebastiani, S.Dumas, D.D.Lewis, T.Montgomery, I.Moulinier —Univ. of Tampere.
2002 — p.49-52.Ageev M., Dobrov B. Support Vector Machine Parameter Optimization for TextCategorization Problems. In Proceedings of Information Systems Technology and itsApplications (ISTA‘2003).Vol 30. 2003. – pp. 165-176.Agirre E., Rigau G. A Proposal for Word Sense Disambiguation using ConceptualDistance. - In : Proceedings of the First International Conference on Recent Advances in NLP.
-Tzigov Chark, Bulgaria. 1995.Agirre E., Rigau G. Word Sense Disambiguation Using Conceptual Density. InProceedings of COLING'96, Copenhagen, Danmark. 1996. – pp.16 – 22.Agirre E., Lacalle Lopez O. Clustering Wordnet word senses. In Proceedings of RANLP2003. 2003.Agirre E., Aldezabal I., Pociello E. Lexicalization and multiword expressions in theBasque WordNet. Proceedings of Third International WordNet Conference. ISBN 80-2103915-9. Jeju Island (Korea). 2006.
– pp. 131-138.Agirre E., Magnini B., Lacalle O., Otegi A., Rigau G., Vossen P. SemEval –2007 Task01: Evaluating WSD on Cross-Language Information Retrieval. Proceedings of the 4thInternational Workshop on Semantic Evaluations (SemEval-2007), in conjunction with ACL.2007.AGROVOC Multilingual Agricultural Thesaurus. Fourth Edition.
1999.Aitchinson Y., Gilchrist A. Thesaurus construction: a practical manual. – 2nd ed. –L.:Aslib, 1987.Alonge, A., N. Calzolari, P. Vossen, L. Bloksma, I. Castellon, T. Marti, W. Peters. TheLinguistic Design of the EuroWordNet Database. In: Nancy Ide, Daniel Greenstein, Piek Vossen(eds), Special Issue on EuroWordNet. Computers and the Humanities, Volume 32, Nos. 2-3.1998. - pp. 91-115.Art and Architecture Thesaurus. Second Edition. Toni Petersen, Director. New York:Oxford University Press, 1994. 5 vols.Artale A., Franconi E., Guarino N., Pazzi L. Part-Whole Relations in Object-CenteredSystems: An Overview.