Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 49

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 49 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 492020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 49)

Вэтом случае эксперт может поставить более широкую рубрику (что не оченьплохо), ошибочную рубрику, или не ставить, на всякий случай, никакойрубрики;3) сложность в принятии решения о важности/неважности побочных тем длясодержания документа;4) наличие неформализованных ограничивающих правил рубрицирования. Сутьпроблемы заключается в том, что ограничивающие правила рубрицирования, несвязанные непосредственно с формулировкой конкретной рубрики, являютсясерьезной базой для субъективизма:- об этих правилах забывает часть экспертов,- для разных рубрик эти правила соблюдаются с разной степеньюпоследовательности,- эти правила неизвестны пользователю, в большой степени он опирается набуквальную формулировку рубрики.Таким образом, на наш взгляд, создание достаточно большой, последовательноотрубрицированной текстовой коллекции является серьезной организационнойпроблемой.13.3.2.

Проблемы методов машинного обученияПри разработке системы автоматической рубрикации, основанной на машинномобучении, необходима коллекция документов, размеченная экспертами по рубрикам. Дляэффективного обучения рубрицированию по большому рубрикатору требуется большеечисло размеченных документов. Важной особенностью такой размеченной коллекцииявляется то, что разметка должна быть выполнена последовательно, то есть, необходимо,чтобы эксперты применяли одни и те же принципы отнесения текстов к рубрике, чтобыпохожие документы получали похожие рубрики.Однако для многих возникающих на практике задач, где требуется автоматическаяклассификация текстов, коллекция классифицированных документов либо отсутствует,либо имеет недостаточный объем. В этом случае методы машинного обучениянеприменимы, и затраты на создание обучающей коллекции адекватного объема весьмавысоки.

Кроме того, при низкой степени согласованности проставления рубрик, методымашинного обучения дают весьма низкие результаты.Проблема создания обучающей коллекции достаточного объема и качестваобостряется с увеличением количества рубрик. Распределение количества документов порубрикам существенно неравномерно, поэтому бóльшая часть рубрик содержит весьмамало документов.Таким образом, факторами, усложняющими или делающими невозможнымприменение методов машинного обучения для автоматической рубрикации текстов,являются следующие:184множество примеров рубрикации отсутствует и не может быть создано вкороткое время;- множество примеров рубрикации существует, но при их созданииотсутствовали требования к качеству, например, документы отрубрицированыих авторами, то есть людьми, которые не имеют согласованного взгляда насодержание каждой конкретной рубрики;- множество примеров противоречиво и (или) недостаточно для большинстварубрик (очень большие классификаторы) – такая ситуация может возникнуть ипри едином руководстве ручной рубрикацией;- множество примеров для обучения взято из близкой, но другой коллекции, длякоторой значимое количество примеров имеется.Кроме того, попытки использования методов рубрикации, основанных намашинном обучении, в автоматизированных режимах с участием экспертов- индексаторовсталкиваются с проблемой плохой объяснимости результатов машинного обучения,невозможностью продемонстрировать эксперту конкретные слова или словосочетания,которые привели к выбору данной рубрики.-13.3.3.

Проблемы автоматического рубрицирования сиспользованием экспертного описания рубрикК достоинствам методов, основанных на знаниях, относится высокаяэффективность и "прозрачность" алгоритма — результаты обработки легкоинтерпретировать, то есть понять, почему документ был отнесен к данной рубрике. Дляреализации этих методов фактор непоследовательного рубрицирования коллекции неявляется существенным. Основным недостатком этого класса методов является высокаятрудоѐмкость описания рубрик.Проблемы автоматического рубрицирования с использованием «инженерногоподхода» связаны со следующими обстоятельствами:- для автоматической рубрикации нужно вручную создать образ рубрики, какнекоторое выражение на основе слов и (или) терминов реальных текстов,неполный учет вариантов употребления слов в тексте может привести кпроблемам автоматической рубрикации- при автоматической обработке конкретных текстов могут возникнутьдостаточно серьезные проблемы анализа языкового материала, контекстаупотребления того или иного слова, требующие привлечения обширных знанийо языке и предметной области, которые очень трудно описать в действующихпрограммных системах автоматической рубрикации.Так, серьезной проблемой, приводящей к появлению ложных рубрик или нехваткеправильных рубрик, является многозначность слов, то есть употребление слова в текстене в том значении, на которое рассчитывал эксперт, составляя образ рубрики.Еще одной неприятной проблемой является так называемая проблема ложнойкорреляции.

Ложная корреляция может возникнуть в случаях, когда для отнесения текстак рубрике необходимо присутствие в тексте двух логических элементов. Например, длярубрицирования по рубрике «Экономические реформы» необходимо присутствие в текстедвух тематических элементов – темы экономики и темы реформы.

Ложная корреляция и,соответственно, неправильное отнесение текста к данной рубрике возникает в тех случаях,когда такие тематические элементы присутствуют в тексте, но не имеют отношения друг кдругу. Например, такая ситуация может произойти, если в тексте речь шла о судебнойреформе и были упомянуты некоторые экономические вопросы.Сложной является и ситуация, которую можно обозначить как рубрикация понесущественному элементу.

Текст отнесен к рубрике по слову или словосочетанию,которое, по сути, соответствует содержанию рубрики, но в данном тексте это опорноеслово или словосочетание употреблено случайно или в каком-то специфическом185контексте, из-за чего текст становится нерелевантным рубрике.

Например, текст можетбыть ошибочно отнесен к рубрике «Средства массовой информации» на основеследующего фрагмента: «Около 40 человек умерли во Франции в результатеустановившейся в стране жары… Правительство и средства массовой информации следятза ситуацией…».Таким образом, при инженерном подходе к рубрикации после создания образоврубрик необходимо проводить несколько этапов тестирования сделанных описанийрубрик.13.4.

Системы автоматического рубрицирования приработе с реальными коллекциямиВ этом разделе мы рассмотрим, как решаются проблемы автоматическойрубрикации текстов в различных коммерческих компаниях, службах, функционированиекоторых требует автоматической рубрикации больших потоков текстовой информации.13.4.1.

Выводы семинара по Операционным системы классификацииВ 2001 и 2002 годах проводились специальные семинары «Operational textcategorization‖, целью которых был анализ ситуации в области автоматическойрубрикации текстов, в том смысле, насколько различные методы автоматическогорубрицирования используются в реальных условиях обработки больших текстовыхмассивах.Рассмотрим подробнее основные мнения докладчиков этих семинаров.М.

Вассон из компании LexisNexis сообщил, что система автоматическойрубрикации текстов работает в LexisNexis в течение многих лет. Система включает более70000 категорий, включая рубрики и именованные сущности. Требования по точности ипоследовательности рубрикации очень высокие, поскольку среди пользователей многопрофессионалов.Системы рубрикации в LexisNexis создавались вручную и итеративно.

Чистыепоходы машинного обучения оказались неэффективными из-за огромного разнообразияиспользуемых источников. Однако технологии обучения на примерах, например, в формелинейной регрессии используются в качестве вспомогательного механизма для ручногоописания рубрик и взвешивания слов и групп слов. Также, при использованиитехнологий, основанных на знаниях, все результаты просматриваются экспертом и могутбыть изменены.Докладчик подчеркнул, что данные по эффективности того или иного метода илипродукта по рубрикации текстов не всегда являются хорошими предсказателямиэффективности их использования в LexisNexis.Представители компании Kanisa описали свой опыт использования системавтоматической рубрикации текстов для поддержки интерактивных помогающих систем.Документы состоят из документов типа «часто задаваемые вопросы», руководств,информации о продукции, и их нужно классифицировать по нескольким измерениям, чтоозначает, что должны сосуществовать несколько таксономий (до 150 таксономий, до 2000категорий на таксономию), которые отражают различные точки зрения.Большое количество близких по смыслу категорий и нехватка данных по многимкатегориям (так же как и стоимость разметки) не дают возможности использовать чистыетехнологии обучения по примерам.

Текущий подход состоит в использовании ручногоопределения и описания рубрик, далее используются обучающие данные для настройкивесов.Также была представлена технология автоматического рубрицирования в рамкахпоисковой машины Northern Light Technology. Используется таксономия, состоящая из 16тысяч категорий (9 уровней) для тематического рубрицирования, таксономия 150 типов186документов и др., Таксономии созданы библиотекарями и базируются на существующихтаксономиях.Для автоматической рубрикации используется совокупность подходов, включая:- линейные классификаторы, обученные на примерах;- классификаторы, построенные на описываемых вручную правилах,- метаправила, которые заменяют множество более специфичных рубрик наболее общую,- ограниченную ручную рубрикацию.Точность рубрикации считается более важной, чем полнота.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.