Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 4

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 4 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 42020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Как и можно ли создавать тезаурусы дляавтоматического индексирования? В книге мы рассмотрим, какие особенности14существующейпарадигмыразработкиинформационно-поисковыхтезаурусовограничивают их использование в автоматических режимах.С 80-х годов 20 века начинает активно обсуждаться парадигма автоматическогоконцептуального индексирования документов, то есть индексирования документов непословным индексом, а концептуальным, в котором синонимы сведены к одной и той жеединице, а многозначные слова и термины разведены к разным концептуальным единицам(Woods, 1997).Такие системы как SCISSORS (Jacobs, Rau, 1990) и FERRET (Mauldin, 1991)реализуют идею концептуального индексирования для узких предметных областей:используются специальные структуры представления понятий и развиваются специальныеалгоритмы для создания концептуального индекса.С опубликованием в 1995 году ресурса английского языка WordNet, структуракоторого представляет собой иерархическую сеть лексикализованных понятийанглийского языка – синсетов, многие исследователи пытались реализовать идеюконцептуального индексирования на базе этого ресурса.Однако изначально WordNet не предназначался для приложений автоматическойобработки текстов, и исследователи в области компьютерной обработки текстоввстретились с многочисленными проблемами, которые затрудняют использование его втаких приложениях.

В частности, в большом числе экспериментов по использованиюзнаний, описанных в WordNet, часто не наблюдалось улучшение характеристикинформационного поиска.Среди наиболее существенных проблем, которыми обычно объясняется такаяситуация, можно отметить следующие: слишком большое количество значений слов,проблемы с автоматическим выбором значения, нехватка отношений между синсетами,другой информации для разрешения многозначности, проблемы собственно описанияотношений между синсетами (какие должны быть, по каким правилам устанавливаться ит.п.).Несмотря на некоторые неудачи использования WordNet в конкретныхприложениях, появление этого ресурса вызвало огромный резонанс в мире.

На базеWordNet выполнены тысячи экспериментов исследователями из многих стран мира,предложены самые разнообразные алгоритмы. Понимание уровня достигнутыхрезультатов, знакомство с описанными в литературе экспериментами очень важно дляисследований в области информационного поиска на базе других тезаурусных ионтологических ресурсов.Так, мы покажем, что после примерно 10 лет исследования применения WordNetдля решения задачи эффективного расширения поискового запроса, в течение которых неудавалось получить устойчивого улучшения качества информационного поиска, в 2004году в трудах конференции SIGIR было опубликовано исследование, в котором былпредложен метод использования информации из WordNet в классическоминформационном поиске для расширения запроса, который улучшил показатели поискапо сравнению с достаточно качественной базовой моделью поиска.Кроме того, формализованное описание лексики английского языка,представленное в WordNet, позволяет в автоматизированном режиме относительно легкостроить словари разного назначения, извлекать те или иные классы слов, что взначительной мере облегчает создание различных словарных ресурсов и внутреннихсловарей информационных систем и систем автоматической обработки текстов.Исследователи из разных стран начали разработку сходных ресурсов для своихязыков.

Согласованные усилия для развития wordnet‘ов были реализованы в такихевропейских проектах как EuroWordNet, BalkaNet, Meaning, в рамках которых былиразработаны wordnet‘ы для голландского, итальянского, испанского, немецкого и другихязыков. Было начато и несколько проектов по созданию русского WordNeta.15Разработчики wordnet‘ов пытались учесть проблемы так называемогоПринстонского WordNet‘a, сделать их более приспособленными к компьютернымприложениям, в том числе и в сфере информационного поиска. Многочисленныепубликации обсуждают возможности кластеризации различных значений в обобщенныезначения, проблемы введения дополнительных отношений в новые ресурсы, появляютсядополнения в уже созданные ресурсы. Так, например, исходный Принстонский WordNetобогатился отношениями между разными частями речи, разметкой по тематическимобластям, словообразовательными отношениями.Другие исследователи изучают возможности более смыслового семантическогопоиска на основе так называемых онтологий – концептуальных описаний знаний опредметных областях и в целом о мире, содержащих совокупности понятий, отношениймежду ними, правил вывода.

Была выдвинута концепция Семантической сети Интернет(Semantic Web), где предполагалось, что качество поиска в Интернет можно значительноулучшить посредством использования таких онтологий.Существует множество разных определений онтологий. Широкие определенияонтологий, позволяющие разные степени формализации описаний, включают в понятиеонтологии и упомянутые выше информационно-поисковые тезаурусы, и тезаурусы типаwordnet.Часть исследователей считает, что онтологии должны описывать знания о мире ибыть независимыми от конкретного языка. Однако для того, чтобы применить такого роданезависимую от языка онтологию в практических задачах информационных технологий,которые во многом связаны с переработкой неструктурированной информации, текстов,необходимо установить отношения между понятиями языковонезависимой онтологии изначениями лексических единиц конкретного естественного языка.

Кроме того, частьисследователей (см. например, (Wilks, 2008)) подвергают сомнению возможностьсоздания большой онтологии совершенно независимо от естественного языка.Онтологии обычно классифицируются на онтологии верхнего уровня,описывающие наиболее общие знания о мире, и предметные онтологии, описывающиезнания о конкретных предметных областях. Так и знания о языке делятся наобщеупотребительные («литературный язык») и терминологию конкретной предметнойобласти.Но какой бы текст, принадлежащий значимой предметной области, мы ни взяли, онвсегда включает и общеупотребительные языковые единицы, и термины даннойпредметной области, а понимание этого текста требует как общих знаний о мире, так изнаний в данной конкретной области. На практике же одни исследователи создаютонтологии верхнего уровня, другие создают онтологии предметных областей,общезначимый язык изучается лингвистами, а термины – языковые единицы конкретныхпредметных областей - исследуются терминологами.

Однако лингвистический ресурс,предназначенный для поддержки автоматической обработки текста в рамках современныхинформационных технологий, должен каким-то образом совмещать эти разные типызнаний.Более того, для удобства создания того или иного терминологического ресурса,онтологии для некоторой предметной области, исследователи, разработчики считают, чтоэта область некоторым образом отделима от других предметных областей. Однакосовременные информационные системы имеют дело со сверхбольшими коллекциямидокументов, значимая часть которых содержит документы, включающие терминологиюразных предметных областей. Так, в экономических документах значимую роль занимаеттерминология правовой области, а в правовых документах- экономическаятерминология, в документах по банковскому делу значимое место занимает терминологияналоговой сферы, бухгалтерии, фондового рынка и т.п.16Таким образом, при всем обилии научной литературы по вопросам построенияинформационно-поисковых тезаурусов, тезаурусов типа WordNet, онтологий открытымиостаются следующие вопросы:- каким образом в прикладных компьютерных ресурсах оптимально сочетатьописание взаимоотношений лексических единиц и описание онтологическихзнаний о мире,- какая модель описания неструктурированной широкой предметной областинаиболее оптимальна для того, чтобы, с одной стороны, создать ее в разумныесроки и охватить всю важную для специалистов терминологию, с другойстороны, чтобы созданная формализованная модель была полезна в широкомкруге приложений информационного поиска и автоматической обработкитекстов,- каким образом оптимально сочетать описание общеупотребительной лексикилитературного языка и терминологии конкретной предметной области вформализованных моделях, предназначенных для компьютерных приложений.В данной книге предлагаются подходы к решению вышеперечисленных вопросов.Книга посвящена описанию опыта автора по созданию сверхбольших лингвистическихресурсов для автоматической обработки текстов в рамках современных информационныхтехнологий и сопоставлению созданных ресурсов и технологий с подобными проектами,развиваемыми в мире.Под руководством и с непосредственным участием автора книги разрабатываютсятакие онтологические ресурсы как Тезаурус русского языка РуТез, Онтология поестественным наукам и технологиям ОЕНТ, созданы ряд онтологических ресурсов вконкретных областях, таких как компьютерная безопасность, авиация, банковское дело,выборы и др.Созданные ресурсы применяются в таких технологиях автоматической обработкитекстов как автоматическое концептуальное индексирование, расширение поисковогозапроса, рубрицирование, автоматическое аннотирование отдельных документов и групптематически близких документов, кластеризация документов.Исследования, связанные с представлением знаний о языке и предметной области,были поддержаны рядом международных и российских научных грантов: грантами ФондаМакАртуров, Фонда Форда, российских научных фондов РФФИ и РГНФ, стипендиямикомпании Яндекс.Созданные ресурсы и технологии использовались в проектах, выполненных дляряда государственных и коммерческих организаций (ФГУП НИИ Восход,Государственная Дума Российской Федерации, Счетная палата Российской Федерации,Банк России, ФСБ, компания Гарант, компания Рамблер Медиа и др.)Материал, изложенный в книге, частично излагался в спецкурсах, читавшихся вМосковском государственном университете на филологическом факультете и факультетеВМиК в 2003-2005 году.Учебный курс, разработанный на основе предварительных материалов книги,вошел в число победителей:- открытого конкурса учебных курсов в области разработки программногообеспечения, организованного компанией Microsoft и факультетомвычислительной математики и кибернетики МГУ им.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.