Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 3

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 3 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 32020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Нехватказнаний приводит к снижению качества при автоматической фильтрации и рубрикациидокументов, к излишним повторам или нарушению связности при автоматическоманнотировании и др.Еще одним типом обычно не достаточно используемых лингвистических знаний вприложениях информационного поиска является неучет структурных свойств связноготекста. Как известно, связный текст имеет сложную иерархическую структуру.Существенным проявлением связности текста является так называемая глобальнаясвязность текста, когда в тексте имеется одна главная тема, а вся остальная информацияподчинена изложению этой основной темы.

Одним из проявлений глобальной связноститекста является его лексическая связность, когда в тексте содержится множество близкихпо смыслу слов и выражений. Между тем подавляющее большинство подходоврассматривает текст как совокупность независимых друг от друга слов,характеризующихся частотностью встречаемости в документе и коллекции.В настоящее время знания о языке и мире описываются в таких компьютерныхресурсах как онтологии и тезаурусы. Однако на практике применение тезаурусов ионтологий в промышленных информационных системах, основанных на автоматическойобработке текстов, не слишком распространено.Такая ситуация связана с целым рядом обстоятельств.Во-первых, если предлагается использовать некоторый лингвистический ресурс, тоон должен включать описания десятков тысяч слов и словосочетаний. Процент ошибокресурса должен быть настолько мал, чтобы не испортить возможные улучшения,получаемые от применения этого ресурса.

При этом нужно понимать, что ведение любоголингвистического ресурса всегда будет отставать от развития предметной области, то естьдаже наиболее качественный лингвистический ресурс будет всегда неполон.Во-вторых, применение тезаурусов и онтологий в информационном поиске требуетвысокого качества разрешения многозначности слов текста. Однако тестирование12качества разрешения лексической многозначности, проводимых наконференцияхSemEval и Senseval, показало, что качество разрешения многозначности для всехмногозначных слов текста пока не достигает уровня, достаточного для эффективногоприменения тезаурусов и онтологий в приложениях информационного поиска.В-третьих, применение отношений тезауруса или онтологии для расширениязапросов может столкнуться с проблемой неточно описанных отношений или отношений,которые не соответствуют контексту запроса.

Применение таких отношений часто ведет кзначительному снижению точности поиска. Так, в последнее время глобальные поисковыесистемы Яндекс и Google стали активно применять расширение запросов однокореннымисловами, что может рассматриваться как минимальный тезаурус, но во многих случаяхдаже такое минимальное расширение запроса может оказаться нерелевантным.Наконец, существует мнение, что применяемые статистические методыимплицитно учитывают лингвистическую информацию, что текст – это лишь наборхарактеристик (features), которые хорошо учитываются статистическими моделями. Вкачестве примеров моделирования лингвистических подходов статистическими методамиХелен Ворхес (Voorhees, 1999) приводит следующие примеры: морфологический анализможет быть приближен стеммингом, извлечение словосочетаний - выявлением частовстречающихся пар слов, процедуры разрешения многозначности могут бытьсмоделированы мерами сходства контекстов.Вместе с тем, как показали эксперименты в рамках конференции поинформационному поиску TREC и семинаре «Надежный доступ к информации» (ReliableInformation Access), проведенном в 2003 году, существуют типы запросов к поисковымсистемам, которые являются сложными для современных технологий информационногопоиска и, следовательно, качество поиска по этим запросам достаточно низкое.

Средипотенциальных методов, которые могли бы улучшить выдачу поисковых систем по такимзапросам, указывались методы расширения запросов, в том числе, и с использованиемспециальных ресурсов – тезаурусов.При поиске в отличных от Интернета коллекциях документов, таких какпрофессиональные информационные базы, внутрикорпоративные ресурсы, отличающиесяотносительно небольшим (по сравнению с Интернет) размером, возможностьнесоответствия языка запроса и языка документов считается достаточно серьезнойпроблемой.Таким образом, важным является вопрос о том, каково должно быть внутреннееустройство лингвистических ресурсов, содержащих знания о понятиях, терминах,значениях языковых выражений в широких предметных областях, которые не только быне ухудшали характеристики информационного поиска, а, напротив, сделали его болеесодержательным.

Кроме того, необходимо понять, каким образом описанные влингвистических ресурсах знания могут быть встроены в современные моделиинформационного поиска.Рассмотрим основные направления использования разного рода лингвистических итерминологических ресурсов в информационном поиске.Как известно, в 1960 – 1980е годы в информационном поиске активноиспользовались так называемые информационно-поисковые тезаурусы, которыепредназначались для описания содержания документов нормализованными ключевымисловами в процессе ручного индексирования людьми-индексаторами.В то время большинство информационных систем не являлись полнотекстовыми, ахранили достаточно ограниченный набор информации о документе: библиографическиеданные, реферат. Добавление списка ключевых слов, характеризующих основноесодержание документа, существенно расширяло возможности поиска документов.

Сначала семидесятых годов создаются национальные и международные стандартыразработки информационно-поисковых тезаурусов.13Появление полнотекстовых информационно-поисковых систем, а такжевозможностей поиска по всем словам текста с помощью методов ранжированногоинформационного поиска значительно снизило значимость разработки и использованияинформационно-поисковых тезаурусов, поскольку давало возможность поиска текстанеподготовленному пользователю в любых предметных областях без дополнительныхпосредников в виде специально разработанных тезаурусов и профессиональныхиндексаторов.Многочисленные исследования по определению эффективности различныхметодов представления документов при информационном поиске показали, чтоэффективность пословного индексирования сравнима с эффективностью поиска,использующего ручное индексирование по качественному информационно-поисковомутезаурусу (Salton, 1986; Sparck Jones, 1981), для создания которого нужно было ещезатратить достаточно много средств и усилий,а, кроме того, нужно было ещеосуществлять качественное ручное индексирование документов по этому тезаурусу.Действительно, использование хорошо разработанного тезауруса при ручноминдексировании должно снимать проблемы синонимии, близких понятий,многозначности.

Однако при этом могут возникнуть существенные различия междупонятиями, используемыми в тезаурусе, и информационной потребностью пользователя,когда пользователю трудно сформулировать описание нужных ему текстов посредствомпонятий тезауруса, или тезаурус действительно не содержит адекватных понятий. В этихслучаях пословное индексирование имеет преимущество из-за больших выразительныхвозможностей в том смысле, что пользователь может сформулировать запрос наестественном языке без всяких дополнительных ограничений.Кроме того, при ручном индексировании серьезную проблему составляет факторсубъективности, когда приписывание тексту терминов тезауруса зависит от умения иопыта индексаторов, от количества текстов, которые необходимо проиндексировать и т.п.Тем не менее, и в настоящее время существуют информационные службы,имеющие и разрабатывающие информационно-поисковые тезаурусы, а также имеющиештат профессиональных индексаторов, индексирующих документы на основе тезаурусов.Примерами таких организаций являются Исследовательская служба Конгресса США,индексирующая по тезаурусу Legislative Indexing Vocabulary, Продовольственная иСельскохозяйственная организация при ООН (ФАО), которая развивает тезаурусAGROVOC, службы Европейского сообщества, использующие для индексированияЕвропейского законодательства тезаурус EUROVOC.

Деятельность таких служб наиболееблизка к библиотечной деятельности, в рамках которой книги и документыклассифицируются по библиотечным классификаторам типа УДК.Происходит и процесс обновления стандартов разработки тезаурусов. Так,например, американский национальный стандарт по разработке и ведениюконтролируемых словарей Z39.19 последний раз обновлялся в 2003 году.Современные стандарты разработки и использования информационно-поисковыхтезаурусов четко ограничивают сферу их применения. Так, например, международныйстандарт по разработке одноязычных тезаурусов (ISO 2788) указывает, что стандартдолжен применяться в организациях, имеющих людей-индексаторов, которыеанализируют содержание документов и описывают основные темы документов спомощью терминов тезауруса. «Применение стандарта не предполагает его применение втех организациях, которые используют полностью автоматические методыиндексирования».Возникает вопрос, почему существующая парадигма разработки информационнопоисковых тезаурусов не дает возможности использовать созданные ресурсы вавтоматических режимах индексирования текста.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.