Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 20

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 20 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 202020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 20)

Отделение синсета «дерево у обочины» от основной иерархии в DanNet(Asmussen и др., 2007).Для улучшения качества таксономии в DanNet авторы ресурса предполагаютстроже использовать диагностические высказывания для установления отношенийгипоним-гипероним, а именно, устанавливать это отношение, если, действительно, можносказать «X – это тип Y».Авторы проекта обращают внимание на то, что потенциальные гипонимы, длякоторых не выполняется высказывание «X – это тип Y» (например, плохо звучит, чтоroadside tree (дерево у обочины) является типом дерева), коррелируют с введенными в(Cruse, 2002) понятием номинального типа.Лексемы номинального типа (Cruse, 2002) в отличие от лексем естественного типахарактеризуются тем, что это лексемы «одного свойства», то есть они характеризуютсяодним простым свойством, например, ―rattletrap‖ – колымага (об автомобиле), ―getawaycar‖ (автомобиль, на котором преступник скрылся с места преступления), ―roadsidetree‖ (дерево у обочины), tanning agent (дубильное вещество).

Поэтому например, дерево уобочины не может рассматриваться как лексема естественного типа, несмотря на то, чтоотносится к природным объектам. Среди гипонимов лексемы человек много единицноминального типа, такие как пассажир, читатель, идиот и др.Авторы подчеркивают, что включение таких единиц в таксономию делают еезапутанной, поэтому все такие единицы в датском ворднете описываются как единицы,ортогональные таксономии (см. рис. 3.2.). Считается, что «номинальные типы находятся73на том же уровне иерархии как и их гиперонимы, относительно таксонимов». Этопозволяет отразить тот факт, что такие номинальные типы совместимы с таксонимами,например, самые разные типы автомобилей могут оказаться колымагами илииспользоваться для бегства с места преступления.Для отличения номинальных типов предлагается использовать различныелингвистические тесты. Один из тестов, отражающий способность номинального типабыть совместимым с разными таксонимами, звучит следующий образом: «X – это любойY, который …».

Также предлагается использовать отрицательный тест «являться видом»,так, например, странно звучит утверждение, что пассажир является видом человека.Помимо лексем естественного типа разработчики предполагают описыватьтаксономические отношения между лексемами функционального типа, включая,например, такие, как названия профессий (хирург – врач).Таким образом, в данном ресурсе сделаны серьезные усилия, чтобы выделить вгруппах гипонимов подгруппы несовместимых между собой таксонимов. Однако,представляется, что проблемой такого подхода является существование достаточнобольшого числа промежуточных случаев (например, лесное дерево можетрассматриваться как номинальный тип, но не любое дерево может расти в лесу),сложность определения, что такое одно свойство, наличием гипонимов и таксонимов уноминальных типов (например, пассажир имеет такие гипонимы как транзитныйпассажир, и таксонимы(?) авипассажир, пассажир метро).

Возникает вопрос,оправдаются ли усилия, вложенные в различение всех этих типов, лучшейэффективностью обработки текстов на основе созданного ресурса.Еще одной характеристикой таксономии в DanNet, на которую обращают вниманиеразработчики ресурса, является принадлежность синсетов и отношений между ними кобщеупотребительной лексике. Разработчики DanNet поясняют свое решение на примереклассификации домашней мебели: стул > мебель_для_ сидения> мебель>объект. Приэтом в области страхования для обозначения предметов домашнего обихода имеетсятермин household effects (домашнее имущество), которое потенциально могло бы бытьвставлено в цепочку таксономических отношений.

Однако авторы ресурса считают, чтоэтого делать не нужно, поскольку в классификациях необходимо придерживаться«интуитивной позиции неспециального использования языка» (Asmussen и др., 2007).Для сравнения в Принстонском WordNet‘е для класссификации, например,животных и растений, используется биологическая терминология из биологическойсистематики (Asmussen и др., 2007).3.3.3 Компьютерный тезаурус русского языка RussNetКомпьютерный тезаурус RussNet, который разрабатывается на кафедрематематической лингвистики Санкт-Петербургского государственного университета,строится на основании принципов, общих для wordnet-словарей (Fellbaum, 1997). СловарьRussNet является оригинальным ресурсом (Азарова и др., 2003) в том смысле, что он непереводится с Принстонского WordNet, а создается как отдельный ресурс.В методологическом плане стандартная процедура построения RussNet включаетследующие положения: (Азарова и др., 2005):1) словарь опирается на корпус современных текстов 1985-2004 годов общимобъемом около 21 млн.

словоупотреблений, основу которого составляютгазетные и журнальные статьи на темы повседневной жизни, экономики,политики, науки, культуры и спорта;2) ядерная структура тезауруса задается примерно двумя тысячами наиболеечастотных слов (существительных, глаголов, прилагательных, наречий),которые встречаются более 100 раз на миллион словоупотреблений в корпусесовременных текстов;743) разные значения некоторого слова, представленные в тезаурусе, упорядочены всоответствии с частотностью их употребления в корпусе текстов;4) в RussNet представлена, как правило, общая, нетерминологическая лексика,хотя предполагается, что расширения базовой структуры будут включатьтерминологические элементы, которые тесно связаны с определеннымитематическими областями;5) синсетынациональноготезаурусасоотносятсясМежъязыковымлингвистическим индексом (ILI), предложенным в рамках проекта EuroWordNet– см раздел 3.2.5.В структуру RussNet были внесены следующие нововведения по сравнению сдругими ворднетами:1) среди синонимов синсета выделяется доминантный синоним, представляющийсобойнаиболеенейтраальныйичастотныйспособвыражениясоответствующего лексического значения;2) основным инструментом при разграничении значений слова в RussNet являетсяконтекстный анализ.

При принятии решений о том, сколько и какие значениядолжны быть описаны у многозначного слова, выделяются статистическизначимые маркеры, в качестве которых может выступать и определеннаяграмматическая форма, и принадлежность к некоторому семантическомудереву родовидовой иерархии RussNet, или оба этих показателя вместе. Этипризнаки должны проявляться устойчиво: более чем в 33% контекстов длярассматриваемого значения в корпусе;3) значения слов, частотность появления которых в корпусе составляет менее 1%контекстов для слова, считаются окказиональными (неустойчивыми) и невключаются в тезаурусное описание.Для задания частотного упорядочения значений многозначного слова используетсяразметка выборочной совокупности контекстов корпуса.

Эта процедура производитсявручную, что приводит к большим затратам времени.В проекте уделяется отдельное внимание вопросу включения в RussNetсловосочетаний. Авторы ресурса считают, что хотя при включении в толковые словарисловосочетаний обычно во внимание принимается несколько критериев (лексическаяограниченность, воспроизводимость некоторой конструкции в неизменном виде и др.),граница между свободными и устойчивыми словосочетаниями устанавливается довольносубъективно (Азарова и др., 2005).При разработке RussNet разработчики опираются, прежде всего, на данные,полученные при статистической обработке корпуса текстов.

Используется несколькопоказателей таких, как абсолютная частота сочетания слов, относительная частотасочетания слов (в частности, используются коэффициенты типа тест Стьюдента и MIкоэффициент (коэффициент взаимной информации)) на основе меняющегосяконтекстного диапазона - «окна» (Manning, Shutze, 1999).3.3.4. Ворднет итальянского языка MultiWordNetВорднет итальянского языка MultiWordNet (http://multiwordnet.itc.it, Pianta идр.2002) в 2005 году включал 58 тысяч лексических значений итальянского языка, 41500разных лемм, 32700 синсетов, для которых установлены соответствия с англоязычнымисинсетами Принстонского ворднета.

MultiWordNet также включает разметку пометамипредметных областей (см. п.2.5.3.1).Основной моделью построения MultiWordNet является разработка его синсетов вмаксимально полном соответствии с синсетами Принстонского ворднета, то есть,итальянские синсеты вводятся на основе существующих английских синсетов, отношениямежду итальянскими синсетами импортируются из принстонского ворднета.75В тех случаях, когда для очередного англоязычного синсета в итальянском языкенет переводного эквивалента, или имеется приблизительный (более специфический илиболее общий эквивалент), то вводятся специальные «пустые» синсеты.В связи с принятой технологией разработки отношения MultiWordNet практическиполностью повторяют отношения принстонского WordNet, добавлено только отношениеNEAREST соединяющее в случае лексической лакуны итальянский синсет с ближайшимпо смыслу англоязычным синсетом (или синсетами).Разработка ресурса выполнялась автоматизированным методом с помощьюдвуязычного словаря с последующей ручной проверкой.MultiWordNet является одним из двух ворднетов итальянского языка.В рамках проекта EuroWordNet создавался другой ворднет итальянского языкадругой группой разработчиков под названием ItalWordNet (Roventini и др., 2000).Основное различие между проектами разработчики MultiWordNet видят в болеетесной связи своего ресурса с англоязычным ворднетом, когда для каждого итальянскогосинсета сразу устанавливается отношение с англоязычным синсетом.Впрочем, разработчики понимают, что возможно такая модель разработки моглапривести к заимствованию чуждых для итальянского языка лексических и семантическихотношений, которые по необходимости будут устраняться.3.3.5 Проект MeaningЕвропейский проект Meaning является продолжением проекта EuroWordNet(Atserias и др., 2004), (Castillo и др., 2004).Авторы проекта Meaning мотивируют необходимость продолжения работ в данномнаправлении тем, что десятки человек-лет были затрачены для создания ворднетов дляразных языков, но этих усилий недостаточно, чтобы обеспечить качество многоязычныхприложений компьютерной обработки текстов.Прогресс в этой области связан с решением двух промежуточных задач:автоматическое разрешение лексической многозначности и масштабное обогащениелексических баз знаний.Проблема, однако, заключается в том, что существуют взаимозависимые факторы:1) для того чтобы достичь качественного разрешения лексическоймногозначности, необходимо значительно больше лингвистического исемантического знания, чем имеется в текущих лексических базах знаний (кпримеру, в ворднетах),2) для того чтобы обогатить существующие лексические базы знанийнеобходимо получать информацию из корпусовс качественнойсемантической разметкой.В проекте планировалось выполнить три последовательных цикла масштабногоразрешения лексической многозначности и извлечения знаний для пяти европейскихязыков, включая баскский, испанский, итальянский, голландский и английский языки.Последовательные циклы работ должны были состоять из следующих этапов(Bentivogli и др., 2003; Atserias и др., 2004):- разработка и обучение высокоточных автоматических систем разрешениялексической многозначности (см.

главу 10) и разметка с помощью этих системсверх больших корпусов,- использование частично размеченных данных и лингвистических процессоровдля пополнения знаний в ворднетах,- дополнительное обучение систем разрешения лексической многозначности.Данные работы должны привести к пополнению лингвистической информации наоснове обработанного корпуса, а также к многоуровневой лингвистической аннотациисамого корпуса. Накопленные знания должны храниться в Многоязычном ЦентральномРепозитории.763.3.6.

Словосочетания в WordNet и ворднетах других языковМногие исследователи подчеркивают, что возможность ввода словосочетаний всистему синсетов очень важна и для отражения соответствий между синсетами разныхязыков, и для различных приложений автоматической обработки текстов.Как уже указывалось, в качестве синсетов Принстонского WordNet‘а включаютсялексикализованныепонятия,которыесоответствуютзначениямотдельныхзнаменательных слов и некоторых словосочетаний.

Однако, как подчеркиваютразработчики новых ворднетов, границы лексикализации многословных выражений оченьтрудно определить (Agirre и др., 2006). Указывается, что, с одной стороны, в синсетыПринстонского WordNet‘а наряду с фразеологическими единицами регулярно включаютсясвободные словосочетания (Азарова и др., 2005б). С другой стороны, в ворднетах,создававшихся в рамках Европейских проектов EuroWordNet, BalkaNet, Meaning, введениесинсетов на базе значений словосочетаний серьезно ограничивается (Bentivogli, Pianta2003; Alonge и др., 1998, Agirre и др., 2006).При введении в лингвистические ресурсы словосочетаний необходимо решить двавопроса.Во-первых, нужно определить критерии ввода словосочетаний, посколькуневозможно описать и эффективно использовать все словосочетания, которые могутупоминаться в естественных текстах.Во-вторых, нужно определиться, какого рода информацию, отношения с другимисинсетами, необходимо приписывать синсетам, соответствующим словосочетаниям.Для ввода словосочетаний обсуждаются такие критерии как (Calzolari и др., 2002;Bentivogli, Pianta, 2004; Sag и др., 2002; Азарова и др., 2005б):- высокая частотность,- высокая степень взаимной ассоциации,- синонимичность словосочетания отдельной лексеме,- существование переводных эквивалентов - отдельных слов в других языках,- значительная многозначность слов-компонентов.При выполнении для словосочетаний одного и более такого рода критериеврешение остается за разработчиком ресурса, его лингвистической интуицией (Bentivogli,Pianta, 2003).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее