Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 5
Описание файла
PDF-файл из архива "Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 5 страницы из PDF
М.В. Ломоноса в 2006году (http://www.microsoft.com/ Rus/Msdnaa/Curricula/Default.mspx);- конкурса учебных курсов по информационному поиску «Класс 2006»,организиванногокомпаниейЯндекс(http://company.yandex.ru/class/courses/solovyev.xml).17Предварительные материалы данной книги излагались в ряде глав учебногопособия Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. «Онтологии итезаурусы: модели, инструменты, приложения». – М., Изд-во Интуит, 2008.Книга делится на два раздела.В первом разделе (части 1-3) мы опишем различные подходы к созданию большихлингвистических ресурсов на примере конкретных проектов.
Также мы подробнорассмотрим различные алгоритмы и системы, которые используют эти ресурсы длярешения различных задач информационного поиска. Описывая алгоритмы, мы будемобращать особое внимание на методы оценки их качества, достигнутые показатели,которые указывают на то, удалось или нет разработчикам ресурсов и алгоритмовдостигнуть лучшего качества по сравнению с пословными статистическими методами.Во второй разделе книги (части 4-6) мы опишем принципы разработкилингвистического ресурса русского языка тезауруса РуТез и наши эксперименты поприменению этого тезауруса в различных задачах обработки текстов для приложенийинформационного поиска.
Описывая собственные алгоритмы, мы также уделяем большоевнимание экспериментам, которые показывают, насколько качественно удается решатьконкретные задачи на базе тезаурусных знаний.В каждом из двух разделов книги выделяются части, которые подразделяются наглавы.Первая часть первого раздела книги посвящена описанию различных видовтезаурусов, включая тезаурус Роже, информационно-поисковые тезаурусы, тезаурусытипа WordNet.Во второй части книги мы рассматриваем основные положения современныхонтологических исследований, принципы создания онтологических ресурсов.Особенно подробно рассматриваются принципы установления онтологическихотношений, которые нужны для создания ресурсов в различных предметных областях.
Вэто число входят отношения «класс-подкласс», часть-целое, отношения онтологическойзависимости.Следующая, третья часть описывает применение тезаурусов и онтологий вконкретных приложениях информационного поиска. Здесь мы рассматриваем такиесистемы, как собственно информационный поиск, системы автоматической рубрикации,вопросно-ответные системы, алгоритмы разрешения лексической многозначности,алгоритмы установления лексической связности в тексте, алгоритмы автоматическогоаннотирования текстов.Каждая глава этой части строится схожим образом.
Сначала описывается общаяпостановка задачи, некоторые теоретические положения и (или) основные статистическиепословные алгоритмы, а также меры измерения качества решения задачи, а далееизлагаются методы и результаты применения тезаурусов и онтологий в данной задаче.Отметим, что среди значимых приложений, относимых к информационномупоиску, мы не рассматриваем задачу извлечения информации, в которой могутиспользоваться онтологические ресурсы. Это связано с тем, что главным предметомнашего интереса являются сверхбольшие плохо структурированные предметные области,и неструктурированные тексты.
Задача извлечения информации характеризуется тем, чтоиз текстов извлекается очень небольшое количество типов информации, при этом еслииспользуется онтология, то число понятий в ней относительно невелико (Moens, 2006).С четвертой части начинается второй раздел книги, посвященный рассмотрениюнаших собственных ресурсов и экспериментов с ними.
В этой части будут рассмотреныосновные принципы построения Тезауруса русского языка РуТез, методы описанияпонятий, языковых выражений, тезаурусных отношений, способы отражения разныхзначений слов, терминов, языковых выражений, описание синонимичности языковыхвыражений.18В пятой части книги рассматриваются эксперименты и приложения, основанные назнаниях, описанных в Тезаурусе РуТез. В число этих приложений входят:информационный поиск, автоматическая рубрикация текстов, автоматическоеаннотирование отдельного текста и совокупности сходных текстов, автоматическойразрешение лексической многозначности, построение лексических цепочек итематического представления связного текста.В шестой, последней части книги мы рассмотрим основные направления развитиятезауруса РуТез, а также технологии разработки других ресурсов, которые были созданына основе тезауруса РуТез, а именно, принципы устройства и современное состояниеОнтологии по естественным наукам и технологиям (ОЕНТ).Книга предназначена для специалистов, научных работников, аспирантов истудентов, интересующихся вопросами автоматической обработки текстов, применения винформационном поиске лингвистических ресурсов, а также информационным поиском вцелом, практическими вопросами применения онтологий.Для читателей, не знакомых с теориями, применяемыми в компьютернойлингвистике, семантике, с одной стороны, или с теорией и практикой информационногопоиска, тестирования информационно-поисковых систем, с другой стороны, мыпостарались изложить необходимый для понимания материал, насколько это быловозможно в рамках одной книги.
Во многих разделах книги имеются специальныеподразделы, содержащие такого рода сведения.Автор благодарит Доброва Б.В. за всемерную поддержку данного исследования;Салий А.Д., Шаталову М.Г., Штернову О.А., Агеева М.С., Сидорова А.В., Штернова С.В.за многолетнее сотрудничество; Юдину Т.Н., Леонтьеву Н.Н., Исакадзе Н. В. заобсуждение результатов работы.19ЧАСТЬ 1. ТЕЗАУРУСЫ20Термин «тезаурус» употребляется по отношению к достаточно различнымлингвистическим ресурсам и словарям (Kilgarriff, Yallop, 2000):1) Во-первых, тезаурусом называется особый вид словарей – идеографический,лексика в которых организуется по тематическому принципу. Первым такого родасловарем явился знаменитый Тезаурус Роже, созданный в 19 веке.
Основное назначениетаких словарей – помощь в подборе синонимов и близких по смыслу слов при написаниитекста.2) Второй тип тезаурусов - информационно-поисковые тезаурусы, описывающиеотношения между терминами предметной области – создаются экспертами в некоторойпредметной области, и предназначены для помощи при информационном поиске.3) Тезаурусамитакженазываютотносительнонедавнопоявившиесялингвистические ресурсы типа WordNet и EuroWordNet, описывающие отношения междулексическими значениями естественного языка как иерархическую систему группсинонимов – синсетов.4) Словосочетание «Ассоциативные тезаурусы» может относиться к двумпринципиально разным ресурсам.С одной стороны, ассоциативным тезаурусом называется словарь описывающийпсихологические ассоциации между словами, возникающие у людей.
Таким словарем,например, является Русский ассоциативный словарь (Караулов, 2002).Кроме того, термин «ассоциативный тезаурус» употребляется для ссылки наресурсы, создаваемые автоматически на основе обработке корпусов и показывающиесовместную встречаемость пар слов в документах.Между всеми этими употреблениями термина «тезаурус» есть существенноесходство.
В работе (Kilgarriff, Yallop, 2000) дается объединяющее определение тезаурусакак ресурса, в котором слова со схожим значением сгруппированы вместе.Никитина С.Е. (Никитина, 1987, стр. 52) определяет тезаурус как словарь сконцептуальным входом и фиксированными семантическими связями между егоединицами. Она подчеркивает, что для определения тезауруса существенны обауказанных независимых признака. Например, существуют словари, которые, обеспечиваяконцептуальный вход, например, по набору синонимов, при этом отношения междусловами описывают традиционными толкованиями.В данной книге рабочим определением тезауруса будет следующее:Тезаурус – это словарь, в котором слова и словосочетания с близкими значениямисгруппированы в единицы, называемые понятиями, концептами илидескрипторами, и в котором явно (в виде отношений, иерархии) указываютсясемантическиеотношениямеждуэтимипонятиями(концептами,дескрипторами).Поскольку в данной книге мы рассматриваем, как человеческие знания могут бытьописаны в созданных человеком ресурсах и применяться затем в компьютерныхприложениях, базирующихся на автоматической обработке текста, то нас прежде всегобудут интересовать тезаурусы 2)-3).Ссылки на использование тезаурусов типа Тезауруса Роже в экспериментах поавтоматической обработке текстов можно найти в ряде работ (Kennedy, Szpakowicz, 2008;Jarmasz, Szpakowicz, 2003).
Однако такое их использование в компьютерных системахограничено рядом факторов, которые мы рассмотрим на примере конкретной словарнойстатьи.Структура словаря типа Тезауруса Роже (Таб. 1.1.) обычно включает разделение накатегории (например, Land – суша, земля) и подкатегории; подразделение подкатегорийобычно производится на основе разделения по частям речи. Слова, следующие завыделенным словом, могут обозначать синонимы, родовые и видовые лексемы по21отношению к предшествующему выделенному слову.
Некоторые слова в словарной статьеимеют отсылки к другим категориям или подкатегориям тезаурусаLand 342N. land, earth, ground, dry land, terra firmacontinent, mainland, peninsula, chersonese[Fr], delta; tongue of land, neck of land;isthmus, oasis; promontory &c. (projection) 250; highland &c. (height) 206.coast, shore, scar, strand, beach; playa; bank, lea; seaboard, seaside, seabank,seacoast, seabeach[obs3]; ironbound coast; loom of the land; derelict; innings;alluvium , alluvion[obs3]; ancon.riverbank, river bank, leveesoil, glebe, clay, loam, marl, cledge, chalk, gravel, mold, subsoil, clod, clot; rock,crag.V. land, come to land, set foot on the soil, set foot on dry land; come ashore, goashore, debarkAdj.