Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 60

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 60 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 602020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 60)

Это различиеможно также эффективно использовать при автоматической обработке текстов, используя,например, комбинированную обработку текстов и запросов при решении информационнопоисковых задач, а именно пытаться разрешать многозначность для слов и терминов,относящихся к общественно-политической области, и использовать пословную обработкудля остальной общеупотребительной лексики (подробнее см. разделы 18.2, 20.4).Таким образом, мы считаем, что описание общей лексики должно сочетаться сописанием терминологии предметных областей общественно-политической области.В настоящее время Общественно-политический тезаурус интегрирует в себезначительную долю терминологии следующих предметных областей, которая былавведена в него в течение деятельности в ряде проектов по автоматической обработкетекстов: экономика, право, социология, демография, банковское дело, государственныйфинансовый контроль, выборы.15.4.

Общественно-политический тезаурус в сравнении с традиционнымиинформационно-поисковыми тезаурусамиК началу 2010 года объем тезауруса РуТез составляет 52.5 тысяч понятий, 143тысячи разных русскоязычных слов и словосочетаний, 209 тысяч отношений междупонятиями. Общественно-политический тезаурус составляет более двух третей от объематезауруса РуТез и включает в себя 37 тысяч понятий, около 100 тысяч разных русскихслов и словосочетаний (рис.

15.2).Как мы увидим в дальнейшем, Общественно-политический тезаурус в ряде задачприменяется отдельно от остального тезауруса и может рассматриваться какинформационно-поисковый тезаурус, созданный для автоматического индексированиятекстов в широкой общественно-политической области. По широте предметной областиОбщественно-политический тезаурус соответствует таким тезаурусам как Тезаурусисследовательской службы Конгресса США LIV (LIV, 1994) или тезаурус Европейскогосообщества EUROVOC (EUROVOC, 2001).

Однако наш Общественно-политическийтезаурус во много раз больше упомянутых тезаурусов.Такое различие связано с тем, что Общественно-политический тезаурус изначальносоздавался как ресурс для автоматической обработки текстов, когда человека-посредникамежду информационно-поисковым тезаурусом и языком документов нет. Поэтомудостаточно большой объем информации должен быть представлен непосредственно втезаурусе (см. п. 1.7.).Общественно-политический тезаурус включает не только термины, которыепредставляют важные понятия в текстах данной предметной области, но также охватываетширокий круг более специфических терминов, обнаружение которых в конкретном текстесделает этот текст релевантным запросу по понятиям более высокого уровня.221СинонимическиерядыпонятийОбщественно-политическоготезаурусазначительно богаче, чем совокупности вариантов дескриптора в тезаурусах LIV илиEUROVOC, поскольку синонимы должны описывать различные способы выраженияданного понятия в тексте для автоматического процесса, а не для человека.

Рядысинонимов включают в себя не только существительные и именные группы, а такжеприлагательные, глаголы, глагольные группы.Расширение терминологической базы Общественно-политического тезауруса ведетк необходимости описания многозначных терминов. Общественно-политический тезауруссодержит около 4.5 тысяч многозначных слов и выражений. В традиционныхинформационно-поисковых тезаурусах нет необходимости аккуратно описыватьмногозначность употребляемых в текстах слов и выражений, поскольку понимание текста,его основной темы возложено на человека-индексатора.Расширение понятийной базы Общественно-политического тезауруса ведет кувеличению и усложнению функций отношений между понятиями тезауруса: возникаетнеобходимость логического вывода на отношениях.Заключение к главе 15.В данной главе мы представили особенности структуры Тезауруса русского языкаРуТез.

При разработке тезауруса как ресурса для автоматической обработки текстов былииспользованы принципы различных традиций и методологий, а именно, методологииразработки традиционных информационно-поисковых тезаурусов, методологииразработки лингвистических ресурсов типа WordNet, методологии созданий формальныхонтологий.Особенностью тезауруса РуТез является то, что в нем выделяются две составныечасти Общий лексикон и Общественно-политический тезаурус, который содержиттематическую лексику и терминологию, значимую для общества в целом. Такоесочетание в одном ресурсе обычно разделяемых языковых сущностей связано с тем, чтограница между лексикой и терминологией представляет собой широкую промежуточнуюзону.

Она содержит лексемы, значения которых совпадают с понятиями конкретныхпредметных областей, и термины, понятные носителям языка.Эта зона включает в себя понятия, значимые для общества в целом, поэтому мыназываем ее Общественно-политической областью. Лексико-терминологические ресурсы,разработанные для общественно-политической области, полезны для приложений поавтоматической обработке разнообразных типов текстов. Знания об общественнополитической области очень важны как для создания лингвистических ресурсов вконкретных предметных областях, так и как основа для описания абстрактной лексикиязыка.Общественно-политический тезаурус может рассматриваться как примеринформационно-поискового тезауруса в широкой предметной области, созданныйспециально как ресурс для автоматической обработки текстов в приложенияхинформационного поиска и поэтому обладающий рядом специфических характеристик посравнению с традиционными информационно-поисковыми тезаурусами.222Глава 16.

Единицы тезауруса: понятия и их текстовые входыТезаурус РуТез является лингвистической онтологией, то есть подавляющеебольшинство понятий в тезаурусе РуТез связаны со значениями реально существующихязыковых выражений. В то же время, поскольку тезаурус РуТез является онтологией, тоединицы тезауруса должны отвечать правилам представления понятий в онтологиях.Как мы уже указывали в разделе 5.1, важными принципами представления понятийв онтологии являются следующие:- необходимо отличать понятие и его имя, разные названия одной и той жесущности не должны приводить к введению отдельных понятий,- нижестоящие понятия должны отчетливо отличаться от вышестоящих понятий,то есть, например, иметь специфическое отношение или атрибут,- каждое понятие должно отчетливо отличаться от понятий того же уровняиерархии (понятий-сестер).Эти рекомендации введения понятий онтологии не просто реализовать, еслионтология основывается на значениях реально существующих языковых выражений.Имеется несколько источников таких трудностей.Во-первых, в некоторых случаях может быть сложно отличить понятие и егоразличные имена.

Как мы видели, в ресурсах типа WordNet отдельные синсеты вводятсядля разных частей речи, которые являются деривативами, то есть называют одну и ту жесущность или явление посредством разных частеречных единиц. Также отдельныеединицы в ресурсах типа WordNet часто вводятся, чтобы отразить стилистические,географические или диалектные особенности употребления слов.Во-вторых, серьезную сложность представляет собой представление в видесовокупности понятий значений многозначных слов, особенно в тех случаях, когда этизначения являются очень близкими друг к другу. Часто в таких случаях возникает вопрос,что правильнее с точки зрения как качества описания, так и с точки зрения приложенийавтоматической обработки текстов: представить такие близкие значения как отдельные,возможно связанные между собой понятия или соединить близкие значения в одно и то жепонятие.В-третьих, непростой проблемой является описание близких значений разных слов.Такие слова могут отличаться посредством множества разных характеристик,особенностей употребления.

Разбиение такой совокупности взаимосвязанных значений насовокупность дискретных понятий, каждое из которых должно быть отличимо от другихблизких понятий, является достаточно сложной процедурой. Но именно такие понятия(несмотря на то, что они мотивированы значениями языковых единиц конкретного языка),приобретают некоторые свойства независимости от конкретного языка: если понятиеотличимо от близких понятий, то особенности данного понятия могут тем или инымобразом быть сформулированы на разных языках (Nirenburg, Raskin, 2004).Наконец, непростой вопрос возникает, в каких случаях необходимо или полезновводить в онтологию понятия, основанные на значениях словосочетаний.

Посколькусловосочетаний в языке может быть бесконечное количество, то важным является вопрос,посредством каких принципов должно регулироваться введение в тезаурус понятий,отражающих значения словосочетаний.В следующих разделах мы подробно рассмотрим решения, принимаемые по всемэтим вопросам при разработке тезауруса РуТез.22316.1. Понятия vs. синсеты как единицы тезаурусаСоздавая тезаурус РуТез, мы не стремимся отделить лексические знания от знанийо мире, как провозглашалось такими исследователями, как И.А. Мельчук (Мельчук, 1974)или Дж.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее