Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 97

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 97 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 972020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 97)

Авторы книгинеоднократно слышали на различных конференциях, обсуждениях, высказывания, чтоглобальным поисковикам специально не занимаются применениям онтологическихресурсов, чуть ли не о заговоре по отношению к этим ресурсам.На основе рассмотрения особенностей существующих онтологических ресурсов,экспериментов и систем, применяющих их для решения задач информационного поиска, атакже на основе создания наших собственных ресурсов и реального применения их врешении практических задач, мы хотели бы сделать следующие выводы.Во-первых, мы считаем, что невозможно создать такой онтологический ресурс,применение которого в задачах информационного поиска, давало резкое преимущество посравнению с существующими статистическими пословными методами.

Это связано с тем,что любой ресурс всегда неполон, всегда недостаточно настроен на коллекцию.Однако применение комбинированных методов, сочетающих лучшие современныестатистические подходы с использованием знаний, описанных в ресурсах, может давать10-15 процентов улучшения качества обработки текстов, которые уже невозможнодостигнуть на текущем уровне развития статистических пословных методов.Кроме того, в конкретных предметных областях для обработки поступающихдокументов, для создания информационно-аналитических систем специалистамнеобходимы онтологические ресурсы разных типов (рубрикаторы, тезаурусы, формальныеонтологии), исследования в этих направлениях безусловно будут активно продолжаться.Наши собственные решения и эксперименты в сфере разработки и использованияонтологических ресурсов в сфере информационного поиска могут быть сформулированыследующим образом:1) Предложена модель информационно-поискового тезауруса - лингвистическойонтологии, предназначенного для автоматического индексирования текстов иавтоматического расширения информационно-поискового запроса.Модель построена на сочетации принципов трех различных традиций иметодологий разработки компьютерных ресурсов:- методологии разработки традиционных информационно-поисковых тезаурусов;- методологии разработки лингвистических ресурсов типа WordNet(Принстонский университет);- методологии созданий формальных онтологий.Предложенная модель позволяет в короткие сроки создавать онтологическиересурсы в неструктурированных предметных областях.

При этом созданный ресурс, с364одной стороны, будет содержать подробное описание терминологии предметной области,а также необходимые общелексические единицы, и, с другой стороны, будет иметьвнутреннюю структуру, соответствующую современным онтологическим принципамразработки онтологий в виде отличимых понятий и формальных отношений междупонятиями. Особенностью предлагаемой модели описания предметной области являетсято, что она построена с учетом эффективного применения в различных задачахинформационного поиска, что показано в целом ряде экспериментов.На основе этой модели построен Тезаурус русского языка РуТез, Онтология поестественным наукам и технологиям ОЕНТ и некоторые другие.

Используемую модельпостроения ресурсов мы называем РуТез* Онтология.Особенностью Тезауруса РуТез является также сочетание в одномлингвистическом ресурсе общеязыковых лексических единиц и терминов широкойпредметной области современной общественной жизни.2) Предложена модель разрешения лексической многозначности на основетезаурусных знаний, сочетающая информацию о локальном и глобальном контекстеупотребления многозначного слова.

Для задачи «все слова текста» результаты алгоритмасопоставимы с результатами лучших систем, достигаемых комбинированными методами сиспользованием семантически размеченных корпусов и информации о наиболеечастотном значении. Для тематической лексики точность разрешения лексическоймногозначности достигает 75%.3) Предложена модель лексической цепочки в форме тематического узла какпроявление глобальной связности текста. Такая лексическая цепочка имеет следующиесвойства:- лексическая цепочка имеет внутреннюю структуру узла – к одномувыделенному элементу относятся все другие элементы лексической цепочки,- лексическая цепочка не должна содержать слова и словосочетания, которыечасто встречались в одних и тех же предложениях текста с главным элементомэтой цепочки;- значимость цепочки для отражения содержания текста определяется не столькодлиной, покрытием и другими характеристиками цепочки, а тем, насколькочасто элементы этой цепочки встречались с элементами других цепочек в однихи тех же предложениях текста, то есть насколько много пропозицийконкретных предложений текста было посвящено обсуждению отношениймежду элементами лексических цепочек4) Предложена и реализована модель тематического представления содержаниятекстов, учитывающая свойства глобальной тематической связности текста и лексическойсвязности текста.

Тематическое представление моделирует основное содержание текстапосредством выделения тематических узлов – совокупностей близких по смыслу понятийтекста. Выделяются основные тематические узлы, соответствующие основной темедокумента и локальные тематические узлы, соответствующие подтемам документа.Построение тематического представления базируется на знаниях о понятиях иотношениях между ними, описанных в ресурсах типа РуТез* Онтология.5) Предложена модель концептуального индексирования документов дляинформационно-поисковой системы, базирующаяся на знаниях тезауруса и построенномтематическом представлении документов.

Концептуальный индекс по тезаурусу русскогоязыка РуТез используется в Университетской информационной системе РОССИЯ(www.cir.ru).3656) Предложена модель автоматической рубрикации документов, основанная наиспользовании тематического представления документов и описании рубрик в видебулевских выражений над понятиями тезауруса и способная рубрицировать текстыразличных типов (официальные документы, сообщения информационных агентств,газетные статьи). Модель можно легко настроить на новый рубрикатор и новые типытекстов, рубрицирование можно осуществлять сразу по нескольким рубрикаторам.На основе предложенной модели было реализованооколо 20 системавтоматической рубрикации текстов с количеством тематических рубрик от 35 до 3000.Возможности быстрой настройки системы рубрикации на новый рубрикатор идостигаемый при этом уровень качества рубрикации был продемонстрирован на семинарепо информационному поиску РОМИП-2007.

Создание системы рубрикации заняло 8часов, качество рубрикации было оценено как более чем 70% F-меры.7) Предложена и реализована модель автоматического многошагового построениябулевского выражения по длинному запросу на естественном языке, включающаярасширение запроса по тезаурусным отношениям, подтвержденным поисковой выдачей.8) Предложена модель автоматического аннотирования отдельного документа исовокупности тематически близких документов на базе выделения из текстов наиболеесодержательных предложений. Модель базируется на тематическом представлениисодержания текстов, что позволяет повысить связность создаваемой аннотации.Реализованная система автоматического аннотирования одного документа получиланаилучший результат в одной из номинаций на конференции SUMMAC в 1998 году.9) Предложена модель автоматического аннотирования новостного кластера наоснове тематического представления кластера, моделировании лексической связности, чтопозволяет улучшить связность и полноту аннотации, а также снизить повторы.366ЛитератураAdvances in Automatic Text Summarization.

Ed: I. Mani, Inderjeet, Maybury, Mark T.,The MIT Press Cambridge, Massachusetts, 1999.Ageev M., Dobrov B., Loukachevitch N. Text Categorization Tasks for Large HierarchialSystems of Categories. In Proceedings of SIGIR 2002 Workshop on Operational TextClassification Systems / Eds. F.Sebastiani, S.Dumas, D.D.Lewis, T.Montgomery, I.Moulinier —Univ. of Tampere.

2002 — p.49-52.Ageev M., Dobrov B. Support Vector Machine Parameter Optimization for TextCategorization Problems. In Proceedings of Information Systems Technology and itsApplications (ISTA‘2003).Vol 30. 2003. – pp. 165-176.Agirre E., Rigau G. A Proposal for Word Sense Disambiguation using ConceptualDistance. - In : Proceedings of the First International Conference on Recent Advances in NLP.

-Tzigov Chark, Bulgaria. 1995.Agirre E., Rigau G. Word Sense Disambiguation Using Conceptual Density. InProceedings of COLING'96, Copenhagen, Danmark. 1996. – pp.16 – 22.Agirre E., Lacalle Lopez O. Clustering Wordnet word senses. In Proceedings of RANLP2003. 2003.Agirre E., Aldezabal I., Pociello E. Lexicalization and multiword expressions in theBasque WordNet. Proceedings of Third International WordNet Conference. ISBN 80-2103915-9. Jeju Island (Korea). 2006.

– pp. 131-138.Agirre E., Magnini B., Lacalle O., Otegi A., Rigau G., Vossen P. SemEval –2007 Task01: Evaluating WSD on Cross-Language Information Retrieval. Proceedings of the 4thInternational Workshop on Semantic Evaluations (SemEval-2007), in conjunction with ACL.2007.AGROVOC Multilingual Agricultural Thesaurus. Fourth Edition.

1999.Aitchinson Y., Gilchrist A. Thesaurus construction: a practical manual. – 2nd ed. –L.:Aslib, 1987.Alonge, A., N. Calzolari, P. Vossen, L. Bloksma, I. Castellon, T. Marti, W. Peters. TheLinguistic Design of the EuroWordNet Database. In: Nancy Ide, Daniel Greenstein, Piek Vossen(eds), Special Issue on EuroWordNet. Computers and the Humanities, Volume 32, Nos. 2-3.1998. - pp. 91-115.Art and Architecture Thesaurus. Second Edition. Toni Petersen, Director. New York:Oxford University Press, 1994. 5 vols.Artale A., Franconi E., Guarino N., Pazzi L. Part-Whole Relations in Object-CenteredSystems: An Overview.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.