Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 5

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 5 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 52020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

М.В. Ломоноса в 2006году (http://www.microsoft.com/ Rus/Msdnaa/Curricula/Default.mspx);- конкурса учебных курсов по информационному поиску «Класс 2006»,организиванногокомпаниейЯндекс(http://company.yandex.ru/class/courses/solovyev.xml).17Предварительные материалы данной книги излагались в ряде глав учебногопособия Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. «Онтологии итезаурусы: модели, инструменты, приложения». – М., Изд-во Интуит, 2008.Книга делится на два раздела.В первом разделе (части 1-3) мы опишем различные подходы к созданию большихлингвистических ресурсов на примере конкретных проектов.

Также мы подробнорассмотрим различные алгоритмы и системы, которые используют эти ресурсы длярешения различных задач информационного поиска. Описывая алгоритмы, мы будемобращать особое внимание на методы оценки их качества, достигнутые показатели,которые указывают на то, удалось или нет разработчикам ресурсов и алгоритмовдостигнуть лучшего качества по сравнению с пословными статистическими методами.Во второй разделе книги (части 4-6) мы опишем принципы разработкилингвистического ресурса русского языка тезауруса РуТез и наши эксперименты поприменению этого тезауруса в различных задачах обработки текстов для приложенийинформационного поиска.

Описывая собственные алгоритмы, мы также уделяем большоевнимание экспериментам, которые показывают, насколько качественно удается решатьконкретные задачи на базе тезаурусных знаний.В каждом из двух разделов книги выделяются части, которые подразделяются наглавы.Первая часть первого раздела книги посвящена описанию различных видовтезаурусов, включая тезаурус Роже, информационно-поисковые тезаурусы, тезаурусытипа WordNet.Во второй части книги мы рассматриваем основные положения современныхонтологических исследований, принципы создания онтологических ресурсов.Особенно подробно рассматриваются принципы установления онтологическихотношений, которые нужны для создания ресурсов в различных предметных областях.

Вэто число входят отношения «класс-подкласс», часть-целое, отношения онтологическойзависимости.Следующая, третья часть описывает применение тезаурусов и онтологий вконкретных приложениях информационного поиска. Здесь мы рассматриваем такиесистемы, как собственно информационный поиск, системы автоматической рубрикации,вопросно-ответные системы, алгоритмы разрешения лексической многозначности,алгоритмы установления лексической связности в тексте, алгоритмы автоматическогоаннотирования текстов.Каждая глава этой части строится схожим образом.

Сначала описывается общаяпостановка задачи, некоторые теоретические положения и (или) основные статистическиепословные алгоритмы, а также меры измерения качества решения задачи, а далееизлагаются методы и результаты применения тезаурусов и онтологий в данной задаче.Отметим, что среди значимых приложений, относимых к информационномупоиску, мы не рассматриваем задачу извлечения информации, в которой могутиспользоваться онтологические ресурсы. Это связано с тем, что главным предметомнашего интереса являются сверхбольшие плохо структурированные предметные области,и неструктурированные тексты.

Задача извлечения информации характеризуется тем, чтоиз текстов извлекается очень небольшое количество типов информации, при этом еслииспользуется онтология, то число понятий в ней относительно невелико (Moens, 2006).С четвертой части начинается второй раздел книги, посвященный рассмотрениюнаших собственных ресурсов и экспериментов с ними.

В этой части будут рассмотреныосновные принципы построения Тезауруса русского языка РуТез, методы описанияпонятий, языковых выражений, тезаурусных отношений, способы отражения разныхзначений слов, терминов, языковых выражений, описание синонимичности языковыхвыражений.18В пятой части книги рассматриваются эксперименты и приложения, основанные назнаниях, описанных в Тезаурусе РуТез. В число этих приложений входят:информационный поиск, автоматическая рубрикация текстов, автоматическоеаннотирование отдельного текста и совокупности сходных текстов, автоматическойразрешение лексической многозначности, построение лексических цепочек итематического представления связного текста.В шестой, последней части книги мы рассмотрим основные направления развитиятезауруса РуТез, а также технологии разработки других ресурсов, которые были созданына основе тезауруса РуТез, а именно, принципы устройства и современное состояниеОнтологии по естественным наукам и технологиям (ОЕНТ).Книга предназначена для специалистов, научных работников, аспирантов истудентов, интересующихся вопросами автоматической обработки текстов, применения винформационном поиске лингвистических ресурсов, а также информационным поиском вцелом, практическими вопросами применения онтологий.Для читателей, не знакомых с теориями, применяемыми в компьютернойлингвистике, семантике, с одной стороны, или с теорией и практикой информационногопоиска, тестирования информационно-поисковых систем, с другой стороны, мыпостарались изложить необходимый для понимания материал, насколько это быловозможно в рамках одной книги.

Во многих разделах книги имеются специальныеподразделы, содержащие такого рода сведения.Автор благодарит Доброва Б.В. за всемерную поддержку данного исследования;Салий А.Д., Шаталову М.Г., Штернову О.А., Агеева М.С., Сидорова А.В., Штернова С.В.за многолетнее сотрудничество; Юдину Т.Н., Леонтьеву Н.Н., Исакадзе Н. В. заобсуждение результатов работы.19ЧАСТЬ 1. ТЕЗАУРУСЫ20Термин «тезаурус» употребляется по отношению к достаточно различнымлингвистическим ресурсам и словарям (Kilgarriff, Yallop, 2000):1) Во-первых, тезаурусом называется особый вид словарей – идеографический,лексика в которых организуется по тематическому принципу. Первым такого родасловарем явился знаменитый Тезаурус Роже, созданный в 19 веке.

Основное назначениетаких словарей – помощь в подборе синонимов и близких по смыслу слов при написаниитекста.2) Второй тип тезаурусов - информационно-поисковые тезаурусы, описывающиеотношения между терминами предметной области – создаются экспертами в некоторойпредметной области, и предназначены для помощи при информационном поиске.3) Тезаурусамитакженазываютотносительнонедавнопоявившиесялингвистические ресурсы типа WordNet и EuroWordNet, описывающие отношения междулексическими значениями естественного языка как иерархическую систему группсинонимов – синсетов.4) Словосочетание «Ассоциативные тезаурусы» может относиться к двумпринципиально разным ресурсам.С одной стороны, ассоциативным тезаурусом называется словарь описывающийпсихологические ассоциации между словами, возникающие у людей.

Таким словарем,например, является Русский ассоциативный словарь (Караулов, 2002).Кроме того, термин «ассоциативный тезаурус» употребляется для ссылки наресурсы, создаваемые автоматически на основе обработке корпусов и показывающиесовместную встречаемость пар слов в документах.Между всеми этими употреблениями термина «тезаурус» есть существенноесходство.

В работе (Kilgarriff, Yallop, 2000) дается объединяющее определение тезаурусакак ресурса, в котором слова со схожим значением сгруппированы вместе.Никитина С.Е. (Никитина, 1987, стр. 52) определяет тезаурус как словарь сконцептуальным входом и фиксированными семантическими связями между егоединицами. Она подчеркивает, что для определения тезауруса существенны обауказанных независимых признака. Например, существуют словари, которые, обеспечиваяконцептуальный вход, например, по набору синонимов, при этом отношения междусловами описывают традиционными толкованиями.В данной книге рабочим определением тезауруса будет следующее:Тезаурус – это словарь, в котором слова и словосочетания с близкими значениямисгруппированы в единицы, называемые понятиями, концептами илидескрипторами, и в котором явно (в виде отношений, иерархии) указываютсясемантическиеотношениямеждуэтимипонятиями(концептами,дескрипторами).Поскольку в данной книге мы рассматриваем, как человеческие знания могут бытьописаны в созданных человеком ресурсах и применяться затем в компьютерныхприложениях, базирующихся на автоматической обработке текста, то нас прежде всегобудут интересовать тезаурусы 2)-3).Ссылки на использование тезаурусов типа Тезауруса Роже в экспериментах поавтоматической обработке текстов можно найти в ряде работ (Kennedy, Szpakowicz, 2008;Jarmasz, Szpakowicz, 2003).

Однако такое их использование в компьютерных системахограничено рядом факторов, которые мы рассмотрим на примере конкретной словарнойстатьи.Структура словаря типа Тезауруса Роже (Таб. 1.1.) обычно включает разделение накатегории (например, Land – суша, земля) и подкатегории; подразделение подкатегорийобычно производится на основе разделения по частям речи. Слова, следующие завыделенным словом, могут обозначать синонимы, родовые и видовые лексемы по21отношению к предшествующему выделенному слову.

Некоторые слова в словарной статьеимеют отсылки к другим категориям или подкатегориям тезаурусаLand 342N. land, earth, ground, dry land, terra firmacontinent, mainland, peninsula, chersonese[Fr], delta; tongue of land, neck of land;isthmus, oasis; promontory &c. (projection) 250; highland &c. (height) 206.coast, shore, scar, strand, beach; playa; bank, lea; seaboard, seaside, seabank,seacoast, seabeach[obs3]; ironbound coast; loom of the land; derelict; innings;alluvium , alluvion[obs3]; ancon.riverbank, river bank, leveesoil, glebe, clay, loam, marl, cledge, chalk, gravel, mold, subsoil, clod, clot; rock,crag.V. land, come to land, set foot on the soil, set foot on dry land; come ashore, goashore, debarkAdj.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.