Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 73

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 73 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 732020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 73)

В качественесимметричной ассоциации устанавливается онтологическое отношениевнешней концептуальной зависимости.Такая система отношений отражает наиболее существенные взаимосвязи междусущностями, может применяться (и применяется в наших ресурсах) для описанияотношений между понятиями, не относящимися к конкретным предметным областям, атакже в самых разных предметных областях.Предложенная система отношений более формализована, чем система отношений втрадиционных информационно-поисковых тезаурусах, и в ресурсах типа WordNet.Каждое отношение связано со своим набором правил вывода, которые используются вовсех приложениях, в которых используется тезаурус РуТез.При начале работ с новой предметной областью большое преимущество получаетсяот того, что сразу понятно, какой минимальный набор отношений нужно использоватьдля вводимых понятий.

Даже если в дальнейшем для конкретного приложения будетнеобходимо использовать более разнообразный набор отношений, описываемыеотношения настолько важны для предметной области, что несомненно сохранятся прилюбой системе отношений, только могут получить новые имена.Заключение к части 4Таким образом, мы предлагаем модель описания знаний о мире, знаний внекоторой предметной области в форме лингвистической онтологии, предназначенной дляиспользования в приложениях информационного поиска, требующих автоматическойобработки текстов.Модель построена на сочетации принципов трех различных традиций иметодологий разработки компьютерных ресурсов:- методологии разработки традиционных информационно-поисковых тезаурусов;- методологии разработки лингвистическихресурсов типа WordNet(Принстонский университет);- методологии созданий формальных онтологий.Сходство с методологией разработки традиционных информационно-поисковыхтезаурусов заключается в следующих решениях:- формирование однозначного имени для понятия тезауруса подобнодескрипторам традиционных информационно-поисковых тезаурусов,- работа с многословными выражениями, ввод понятий на основе значениймногословных выражений подобно принципам ввода дескрипторовтрадиционных информационно-поисковых тезаурусов,- небольшой набор отношений между понятиями тезауруса; набор отношенийпригоден для широких неструктурированных предметных областей.

Также исистема отношений традиционных информационно-поисковых тезаурусов(отношения выше-ниже, ассоциация) при всех их недостатках были хорошитем, что могут применяться для многих предметных областей.Сходство с методами разработки тезаурусов типа WordNet заключается вподробной работе с лексическими единицами, тщательной работой со значениямимногозначных слов.Сходство с методологией разработки онтологий заключается в том, что единицытезауруса должны быть отличимы от близких единиц в сети тезауруса. Кроме того,270большие усилия прикладываются к тому, чтобы набор отношений устанавливался поформльным правилам, с использованием онтологических принципов. Используютсяпроцедуры логического вывода, в частности, активно используется транзитивностьотношений часть-целое.Предложенная модель позволяет в короткие сроки создавать онтологическиересурсы в неструктурированных предметных областях.

При этом созданный ресурс, содной стороны, будет содержать подробное описание терминологии предметной области,а также необходимые общелексические единицы, и, с другой стороны, будет иметьвнутреннюю структуру, соответствующую современным онтологическим принципамразработки онтологий в виде отличимых понятий и формальных отношений междупонятиями.

Эксперименты по применению созданных по данной модели ресурсов вразличных задачах информационного поиска будут рассмотрены в следующей частикниги.271ЧАСТЬ 5. ТЕЗАУРУС РУТЕЗ ВКОМПЬЮТЕРНЫХ ПРИЛОЖЕНИЯХ272Глава 18. Построение тезаурусного индекса,автоматическое разрешение лексической многозначностиПрименение тезаурусов и онтологий в информационном поиске требует высокогокачества разрешения многозначности слов (см.

главу 10). Так, в работе (Sanderson, 1994)обосновывалось, что для того, чтобы в информационном поиске мог проявитьсяположительный эффект от разрешения лексической многозначности, точность разрешениямногозначности должна быть не меньше 90%, в работе (Gonzalo и др., 1998) на основаниирезультатов проведенных экспериментов указывается необходимая величина точностиразрешения многозначности – 70%.В данной главе мы рассмотрим, как проводится сопоставление текста с тезаурусомРуТез, как осуществляется автоматическое разрешение многозначности тезаурусныхединиц, и какова точность этой процедуры.18.1. Построение тезаурусного индекса и тезаурусной проекцииНа первом этапе обработки текстов на основе тезауруса производится сравнениеединиц текста с единицами Тезауруса.Сравнение текста и Тезауруса происходит на основе морфологическогопредставления единиц текста и единиц Тезауруса.

Последовательности лемм,сопоставленные тезаурусному входу, сопоставляются с последовательностями леммдокумента.При необходимости в процессе сопоставлении текста с РуТез онтологией могутбыть применены методы неточного сопоставления (с появлением лишних слов внутрисловосочетания, сменой порядка слов, применение словообразовательных вариантов ит.п.) или сопоставление на основе синтаксических структур. Но нужно учитывать, что впервом случае упадет точность сопоставления, во втором дополнительно возрастетсложность сопоставления.Из множества найденных в конкретном месте текста единиц Тезауруса выбираетсяединица, имеющая максимальную длину.

Если один и тот же фрагмент текстасоответствует разным единицам Тезауруса, то фиксируется многозначность термина.В результате сопоставления с Тезаурусом текст отражается в последовательностьпонятий Тезауруса. Все синонимы (варианты) одного и того же понятия отображаются всоответствующий номер понятия и далее не различаются. Для каждого понятия Тезаурусафиксируется частота его встречаемости в тексте. Таким образом, после разрешениямногозначности языковых выражений (см. п.18.2.) создается так называемыйконцептуальный индекс документа, в котором синонимы сведены к одному и тому жепонятию, а разные значения разведены к разным понятиям.Для учета отношений между понятиями, найденными в тексте, для всех понятий,связанных иерархическими путями (см.

п.17.8) устанавливаются непосредственныеотношения, которые выводятся на основе этих иерархических путей. Такая процедураосуществляется за счет заранее построенного дерева-вниз для всех понятий тезауруса.Совокупность связанных между собой понятий текста, полученных в результатеприменения процедуры вывода, называется проекцией Тезауруса на текст (тезауруснойпроекцией).Следует отметить, что в подавляющем числе описываемых в дальнейшемприложений обработка текста производится не на полном объеме тезауруса РуТез, а набазе Общественно-политического тезауруса, к понятиям которого в случае необходимостис помощью специальной разметки добавляются те понятия Общего Лексикона, которыеважны для данного приложения. В дальнейшем эту расширенную совокупность понятиймы все равно будем называть Общественно-политическим тезаурусом.Такое решение связано с двумя факторами.273Во-первых, многозначность текстовых входов в рамках Общественнополитического тезауруса значительно ниже, чем текстовых входов Общего лексикона, и,как мы увидим в дальнейшем, точность разрешения многозначности для текстовых входовОбщественно-политического тезауруса значительно выше.Во-вторых, производится в основном тематическая обработка текстов, для которойважно упоминание тех или иных тематически-определенных сущностей в тексте, а неотношений между ними, основные понятия, соответствующие таким сущностям,сосредоточены именно в Общественно-политическом тезаурусе.Для большинства текстов, тезаурусная проекция представляет собой сложную сетьотношений, которая может распадаться на несколько несвязанных фрагментов, а можетсодержать достаточно много различных связанных между собой понятий.Рассмотрим пример текста Постановления Правительства РФ от 26 июня 1995 г.№ 604:О порядке оказания безвозмездной финансовой помощи настроительство (покупку) жилья и выплаты денежнойкомпенсации за наем (поднаем) жилых помещенийвоеннослужащим и гражданам, уволенным с военной службыВо исполнениеЗаконаРоссийскойФедерации"Остатусе военнослужащих" и в целях обеспечения прав на жилищевоеннослужащих играждан,уволенныхс военной службы,Правительство Российской Федерации п о с т а н о в л я е т :1.

УтвердитьприлагаемоеПоложениеопорядкеоказаниябезвозмезднойфинансовойпомощина строительство(покупку) жильяи выплатыденежнойкомпенсациизанаем(поднаем) жилых помещений военнослужащим и гражданам, уволеннымс военной службы.2. МинистерствуобороныРоссийскойФедерацииииным федеральным органам исполнительной власти,в которыхпредусмотрена военная служба:в месячный срокразработатьиутвердитьформыиперечень документов,необходимыхдляпринятиярешенияобоказании военнослужащим безвозмезднойфинансовойпомощинастроительство (покупку)жилья и о выплате денежнойкомпенсации за наем (поднаем) жилых помещений;расходы,связанныесоказаниемвоеннослужащимбезвозмездной финансовой помощи и выплатой денежной компенсацииза наем (поднаем) жилыхпомещений, производить за счет ив пределах средств, выделяемых из федерального бюджета посметам этих федеральных органов исполнительной власти.3.

ОрганамисполнительнойвластисубъектовРоссийской Федерации:оказывать безвозмезднуюфинансовуюпомощьвизбранном постоянном месте жительства гражданам,уволенным своенной службы, осуществляющим строительство (покупку) жилья,за счет и в пределах средств федерального бюджета,выделяемыхна жилищное строительство для этой категории граждан;Полужирным шрифтом показаны те сущности, которые были найдены в качестветекстовых входов Общественно-политического тезауруса.

На рис. 18.1 показан фрагменттезаурусной окрестности для этого текста, который включает взаимосвязаннуюсовокупность понятий тезауруса: СООРУЖЕНИЯ – ЖИЛЬЕ – СТРОИТЕЛЬСТВОЖИЛЬЯ – ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ – ПОКУПКА – ПРОДАЖА.274СОБСТВЕННОСТЬ(1)СООРУЖЕНИЕ(1)АЗДАНИЕ(1)ДЕНЬГИ(22)СТРОИТЕЛЬСТВО(12)ЖИЛОЕ ЗДАНИЕ(1)ПЛАТИТЬ(1)ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4)АПОКУПКА(6)ЖИЛИЩНО-СТРОИТЕЛЬНЫЙКООПЕРАТИВ (2)МНОГОКВАРТИРНЫЙ ДОМ(1)ЖИЛОЕ ПОМЕЩЕНИЕ(25)НАНЯТЬ(13)АНАЕМ ЖИЛОГОПОМЕЩЕНИЯ(13)ЖИЛАЯ ПЛОЩАДЬ(1)КВАРТИРА(2)ВВЖИЛИЩНАЯ НОРМА(2)КОМНАТА (ПОМЕЩЕНИЕ)(1)Рис. 18.1.

Фрагмент понятийной сети (тезаурусной проекции) длятекста Постановления Правительства РФ от 26 июня 1995 г. № 60418.2. Автоматическое разрешение многозначностиПри автоматической обработке текста на основе тезауруса РуТез первым этапомявляется сопоставление текста с единицами тезауруса и создание концептуальногоиндекса, в котором указываются те понятия, которые встречались в тексте.Многозначность в этом индексе проявляется либо в сопоставлении одной и той жеязыковой единице разных понятий, либо в специальной пометке понятия, означающей,что текстовая единица, по которой было проведено сопоставление, является многозначной(см. п.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6552
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее