Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 21

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 21 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 212020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 21)

Решение лингвиста обычно связано с тем, насколько большой объем знанийо мире, не выводимый из компонентов словосочетаний, ассоциируется с этимсловосочетанием.Чтобы дать возможность описывать в ворднетах необходимые словосочетания, вработе (Bentivogli, Pianta, 2004) предлагается вводить специальную структуру дляпредставления свободных словосочетаний, которые авторы работы называют фразовымсинсетом (phraseset) и которая может объединять множество синонимичныхсловосочетаний.До введения таких структур в итальянском ворднете MultiWordNet приобнаружении лексических пропусков в итальянском языке по отношению к английскомуязыку заводился пустой синсет, снабженный комментарием, фразовые синсеты могут датьдополнительную важную информацию для работы с такими лексическими пропусками.Так, например, в итальянском ворднете MultiWordNet при установлении соответствияанглоязычному синсету toilet_roll (рулон туалетной бумаги, туалетный рулон) создаетсяпустой синсет, а также создается фразовый синсет.

А для англоязычного синсета dishcloth(полотенце для посуды) в MultiWordNet имеются как синсет, так и фразовый синсет:Примеры:1) Eng_synset{toilet_roll}Ita_synset{GAP}Ita_phraseset{rotolo_di_carta_igienica}772) Eng_synset{dishcloth}Ita_synset{canovaccio}Ita_phraset{strofinaccio_dei_piatti, strofinaccio_da_cucina}Для описания внутренней структуры словосочетания разработчики MultiWordNetпредлагают описывать отношение composed-of (состоять_из), которое соединяетфразовый синсет со словами-компонентами.Разработчики баскского ворднета (Agirre и др., 2006) вводят в свой ресурс покатолько фразеологические словосочетания, которые зафиксированы в толковых словарях, ипомечают введенные синсеты специальной отметкой. Для описания отношений синсетасловосочетания разработчики баскского ворднета предлагают использовать наборотношений INVOLVED, взятый из номенклатуры отношений EuroWordNet иопределяемых следующим образом: отношение INVOLVED должно использоваться дляописания аргументов сущностей 2 порядка (процессов, действий), например, какотношения involved_theme, involved_instrument и др (см.

раздел 3.2.3.).Текущая версия баскского ворднета включает 356 синтагматических синсетов.Итальянский ворднет MultiwordNet включает 1216 фразовых синсетов.Таким образом, можно констатировать, что пока некоторого единого решения, какправильно поступать с включением словосочетаний в ворднеты, не выработано.3.3.7.

Общеупотребительная лексика и терминология предметных областей втезаурусах типа WordNetРазрабатываемые ворднеты естественных языков имеют своей целью описаниеобщеупотребительного национального языка. Поэтому считается, что они должнысодержать преимущественно общую лексику, и не должны включать термины отдельныхпредметных областей.Однако в Принстонском WordNet можно обнаружить достаточно большоеколичество терминов из разных сфер деятельности. Ресурс содержит большое количествоназваний из биологической систематики (см. раздел 2.5.3.1), термины (инструменты,оборудование) из технической области, термины лингвистики и психолингвистики.Это связано с тем, что разработчики Принстонского WordNet во многомпользовались уже готовыми классификациями и не контролировали содержаниявводимых синсетов по текстовым корпусам.При разработке следующих ворднетов большое внимание уделяется обоснованиювыбора лексики, значений на основе корпусов своего языка.Предполагается, что для применения созданного ресурса типа ворднет вконкретной предметной исходный ворднет должен быть расширентерминамипредметной области, соответствующие синсеты должны быть встроены в иерархииворднета.

Причем высказывается предположение, что добавленные синсеты будутвстраиваться на нижних уровнях построенных иерархий, как бы продолжая их (Magnini,Speranza, 2002).Было создано несколько ворднетов в конкретных предметных областях: областиархитектуры (Bentivogli и др., 2004), морского судоходства (Roventini, Marinelli, 2004;Marinelli, Tiberi, Bindi 2008), в юридической области (Sagri и др., 2004), в областимедицины (Buitellar, Sacalenau, 2001), экономики (Magnini, Speranza, 2002).3.4. Сравнение модели представления знаний в информационно-поисковыхтезаурусах и тезаурусах типа WordNetРассмотрев основные принципы устройства информационно-поисковых тезаурусови тезаурусов типа WordNet, можно сделать некоторые выводы о сходстве и различиииспользуемых моделей представления знаний в этих тезаурусах.78Наиболее бросающееся в глаза различие состоит в том, что информационнопоисковые тезаурусы описывают определенную предметную область, а WordNet содержитинформацию о значениях общей лексики языка.

Однако это различие не являетсяпринципиальным, поскольку, как указывалось в предыдущем разделе, можно строитьтезаурусы типа WordNet и для конкретных предметных областей.Более значимые различия имеются в выборе единиц тезаурусов.Как мы видели в главе 1, в информационно-поисковых тезаурусах имеетсямножество ограничений на включение в тезаурус языковых единиц: дескрипторы должныбыть четко отделены по смыслу друг от друга, многозначность языковых единицпрактически не представлена, ограничивается глубина иерархий и т.д.

Это приводит квозникновению существенного расхождения между единицами тезауруса и языковымиединицами, упоминаемыми в текстах предметной области. В тезаурусах типа Wordnetтакой разницы нет: если существует слово или выражение с определенными значениями,то оно включается в тезаурус в соответствующем количестве значений.Существенно различным является подход к включению в эти два типа тезаурусовсловосочетаний. Как мы указывали в разделе 1.1.2, в информационно-поисковыхтезаурусах имеется достаточно подробный перечень правил, которыми долженруководствоваться разработчик тезауруса при вводе в тезаурус многословныхдескрипторов. Разработчики WordNet заявляют о необходимости того, чтобысловосочетание было «лексикализовано» без уточнения критериев, а это, в свою очередь,приводит к тому, что ввод новых словосочетаний в WordNet, а особенно в тезаурусы типаWordnet, создаваемые для других языков, серьезно ограничивается.Если сравнивать систему отношений в стандартных информационно-поисковыхтезаурусах и тезаурусах типа WordNet, то, прежде всего, нужно брать для сравненияотношения между синсетами существительных WordNet, поскольку дескрипторыинформационно-поисковых тезаурусов – это обычно существительные и группысуществительного.Здесь мы видим сходство в небольшой величине набора отношений стандартногоинформационно-поискового тезауруса и Принстонского WordNet, что несомненнообъясняется разнообразием описываемых сущностей.

При этом однако в набореотношений информационно-поискового тезауруса имеется отношение ассоциации,которое при всей высказанной по поводу его критике позволяет лучше описатьотношения между сущностями предметной области, чем отношение «часть-целое» и«антонимии».В последнее время в ряде работ отмечается, что и разработчики информационнопоисковых тезаурусов и разработчики ворднетов включают в свои тезаурусы болееразнообразные наборы отношений между единицами (Soergel и др., 2004, Clark и др.,2008).Заключение к главе 3Задача разработчиков новых ворднетов для своих языков может показаться болеелегкой, чем задача разработчиков первого тезауруса WordNet, поскольку модель ресурсауже известна.Однако в разработке новых ресурсов необходимо учесть критику ПринстонскогоWordNet, удачи и неудачи в прикладных экспериментах.

Поскольку было высказаномного критических замечаний, каждый разработчик должен выбрать для себя наиболеенеобходимые изменения в структуре и составе своего создаваемого ворднета, что являетсянепростой задачей.Можно заметить, что по величине ворднеты других языков значительно меньше,чем Принстонский WordNet. Частично это объясняется тем, что Принстонский WordNetвключает достаточно много специальной терминологии, особенно в области биологии(что можно видеть по количеству синсетов в домене биологии – более 20 тысяч- см.79раздел 2.5.3.1.), а также значительный блок синсетов именованных объектов – более 7.5тысяч (см.

раздел 2.5.3.2.).Разработчики новых ворднетов включают лексику именно общеупотребительногоязыка, минимизируют включение синсетов, соответствующих именованным сущностям.Также во вновь создаваемых ворднетах значительно более ограничен ввод синсетов,базирующихся на значениях словосочетаний, чем в исходном Принстонском WordNet.80ЧАСТЬ 2. ФОРМАЛЬНЫЕ И ЛИНГВИСТИЧЕСКИЕОНТОЛОГИИ81Тезаурусы и рубрикаторы как формализованные информационные ресурсыизвестны достаточно давно. В последние 15 лет стал активно обсуждаться такой типинформационных ресурсов как онтологии. Часто можно слышать такие вопросы как «Чемтезаурусы и рубрикаторы отличаются от онтологий» или «Являются ли тезаурусы ирубрикаторы онтологиями». Читая статьи о таком ресурсе как WordNet, можно встретитьссылку на него как на тезаурус или как на онтологию.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6417
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее