Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 27

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 27 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 272020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 27)

Однакобыло предложено слишком много разных принципов группировки значений и непонятно,какие принципы нужно предпочесть {Fellbaum, 2002).В проекте OntoNotes (Hovy и др., 2006) предлагается способ отражения наборалексических значений многозначного слова совокупностью понятий на основерассмотрения конкретных примеров употребления из корпуса. Сопоставляя примерыупотребления и системы значений слова, нужно разделять значения на наиболее далекиедруг от друга группы, создавать точку ветвления на дереве, затем для каждой такой точкиповторять процессРассматривая глагол drive, для которого WordNet выделяет 22 отдельных значения,авторы проекта предлагают формировать наиболее очевидные группы значений, которыедля глагола drive таковы, и которые и являются предлагаемыми понятиями:1) drive mad – Cause-mental- instability – привести в бешенство2) группы смыслов физического движения – Cause-movement-in–DesiredDirection, (Вести или путешествовать на транспортном средстве)3) группа смыслов нефизического характера,– Сause–State-Change–towardDesired-Value (Изменение-состояния-к-желаемой-величине).Далее можно продолжать онтологизацию значений слова в зависимости отобъяснительной необходимости или потребности приложения.

Каждый шагонтологизации требует введения нового понятий в растущую онтологию. В результатенескольких шагов два независимых эксперта выделили 7 наиболее важных групп смысловглагола drive.По мнению авторов работы (Hovy и др., 2006), хорошим принципом для остановкипроцесса онтологизации является ситуация, когда не находится очевидного разбиенияоставшейся группы смыслов на подгруппы, или возможно одинаково обоснованныеразбиения на подгруппы по разным основаниям.

Также подчеркивается полезностьмногоязычного рассмотрения для наиболее адекватного разделения «пространствасмыслов» и «пространства понятий».В работе приводятся примеры объединения значений глагола drive. К значениюCause-movement-in–Desired- Direction («Вести или путешествовать на транспортномсредстве») относятся 7 значений из WordNet:WN1: Can you drive a truck (водить)?WN2: drive to school (ехать),WN3: drive her to school (везти),WN12: this truck drives well (едет),WN13: He drives taxi (водит),WN14: The car drove around the corner (повернул),102WN16: Drive the turnpike to work.Отметим, что с точки зрения носителя русского языка эта «транспортная» группазначений глагола drive не так очевидна, поскольку соответствует значениям несколькихразных слов: водить, ехать, везти, повернуть, и, значит, зависимость системы понятийот исходного языка разработки сохраняется в серьезной степени.В противовес тенденции ряда исследований к сокращению числа значенийязыковых единиц, представленных в лингвистических онтологиях, высказываютсямнения, предупреждающие против чрезмерной кластеризации разных значений даже вблагих целях облегчения автоматической обработки текстов.

Так, Н. Гуарино (1998)критикует несколько существующих онтологий за многозначность онтологических узлов,например, за трактовку понятия ОКНО одновременно и как артефакта, и как отверстия.Проблема возникает из-за того, что слово окно в различных контекстах можетобозначать =изделие= (как во фразе «разбить окно») или =отверстие= (как во фразе«выглянуть в окно»), и разработчики лингвистических онтологий стремились описать обатипа употреблений посредством одного понятия онтологииЭта критика связана с тем, что по мнению Гуарино многозначность вонтологических узлах не должна быть разрешена ни в какой форме.

Чтобысоответствовать принципу отсутствия многозначности узлов, онтология должна иметьразличные узлы в различных местах онтологии для таких понятий как ОКНО- ИЗДЕЛИЕи ОКНО-ОТВЕРСТИЕ, при этом эти сущности ОКНО-ОТВЕРСТИЕ и ОКНО-ИЗДЕЛИЕочень тесно связаны между собой.Мы продолжим обсуждение этой проблемы в разделе 5.6.2., где приведемвозражения авторов критикуемой онтологии.Как видно, проблема близких значений многословных слов, которая сложна и длясоставителей толковых словарей, многократно усложняется при представлении такихзначений в словарном ресурсе предназначенном для автоматической обработки текстов.5.4.

Смешение понятия и его имени в Принстонском WordNet идругих ворднетахПроблемы со слишком большим количеством значений в Принстонском WordNetбыли рассмотрены в разделе 2.5. В данном разделе будет рассмотрена проблема описанияблизких по смыслу слов в Принстонском WordNet и других ворднетах.Первоначально авторы WordNet считали, что WordNet – это лексический, а неонтологический ресурс. Однако, со временем рост значимости онтологическихисследований, а также сходство иерархии существительных из WordNet с онтологиейстали очевидными (Miller, Hristea, 2006). Поэтому на основе WordNet правомернорассматривать проблемы, возникающие при создании лингвистических онтологий.В WordNet можно найти многочисленные примеры смешения понятия и егоназвания. Это связано с тем, что основным отношением в WordNet является отношениесинонимии.

Наборы синонимов – синсеты – являются основными структурнымиэлементами WordNet. Авторы WordNet считали два выражения синонимичными, еслизамена одного из них на другое в предложении не меняет значения истинности этоговысказывания.Этот основной принцип устройства WordNet приводит к тому, что не выполняетсяодин из важнейших принципов разработки онтологий – это различение собственнопонятия и способов его называния, то есть вводятся разные синсеты для разных способовнаименования одной и той же сущности.Имеется несколько типов смешений понятий и их названий в ресурсах типаWordNet.Во-первых, смешение понятий и их названий проявляется в поддержке разныхиерархий для разных частей речи.

Действительно, с помощью какой бы части речи в103тексте не было бы упомянуто понятие ПРИВАТИЗАЦИЯ (приватизировать,приватизационный, приватизация) – это всегда ссылка на одно и то же понятие разнымилексическими средствами, от изменения части речи не должны меняться отношения этогопонятия с другими понятиями.Кроме того, различие в описаниях отношений разных частей речи, имеющих междусобой прямое смысловое соответствие, увеличивает долю непоследовательновыполненных описаний.

Например, в синсете WordNetengagement, participation, involvement, involution -- (the act of sharing in the activitiesof a group; "the teacher tried to increase his students' engagement in class activities")как синонимы указываются существительные engagement и participation. А всоответствующем глагольном синсете глагол participate упоминается только в толковании.prosecute, engage, pursue -- (carry out or participate in an activity; be involved in; "Shepursued many activities"; "They engaged in a discussion")Если части речи конкретных слов существенны для проводимой обработкитекстов, они могут быть извлечены из морфологического словаря, или конкретныетекстовые входы, сопоставленные понятию, могут иметь соответствующие пометы частейречи и (или) морфологических классов.Авторы проекты EuroWordNet (см. главу 3) рассматривали возможностьсоединения всех частей речи-дериватов к одному синсету, поскольку такое разделениепротиворечит принципам разработки онтологических ресурсов (Climent.и др., 1996).Однако, в конце концов, решение о соединении частей речи принято не было.Вторым типом проявления смешения понятия и его названия являетсяиспользование разных синсетов для описания старых и новых названий, названий понятияв разных диалектах языка, в разных текстовых жанрах и т.п.В принстонском WordNet можно найти многочисленные примеры того, чтоособенность употребления слов приводит к введению нового синсета.Например, для отражения способов разговорного упоминания человеческого носазаведен специальный синсетbeak, honker, hooter, nozzle, snoot, snout, schnozzle, schnoz -- (informal terms for thenose – разговорные варианты слова «нос» ),который является гипонимом синсета для слова носnose, olfactory organ -- (the organ of smell and entrance to the respiratory tract; theprominent part of the face of man or other mammals; "he has a cold in the nose").Разговорная лексика, имеющая отношение к деньгам, также собрана в отдельныйсинсет:boodle, bread, cabbage, clams, dinero, dough, gelt, kale, lettuce, lolly, lucre, loot,moolah, pelf, scratch, shekels, simoleons, sugar, wampum -- (informal terms for money)Некоторые синсеты отражают специфику диалектов английского языка, какнапример, название домашнего осла в британском английском:Moke 1 -- (British informal)=> domestic ass, donkey, Equus asinus -- (domestic beast of burden descended from theAfrican wild ass; patient but stubborn)Разработчики русского WordNet – RusNet специально рассматривают вопросысинонимии, и ее описании в синсетах.

Они разделяют синонимию на 5 подвидов:абсолютную синонимию, дупликатную синонимию, стилистическую синонимию,экспрессивную синонимию и деривационную синонимию (дом: домик, домина). Такие104виды синонимов как стилистические и экспрессивные синонимы описываются в том жесинсете, что и нейтральные слова, но снабжаются дополнительными пометами.Для деривационной синонимии предлагается заводить отдельные синсеты и особыевиды отношений: деривационный гипоним и деривационный гипероним. Авторы ресурсасчитают, что ввод словообразовательной компоненты не дает считать такие единицы какдомик и домина просто экспрессивными синонимами и отражать их в единомсинонимическом ряду.Однако, с точки зрения разработки онтологий, такое понятие, как деривационныйсинсет, не имеет четких признаков отличия от своего вышестоящего понятия, посколькудом любой величины в разных контекстах может быть назван домиком или доминой.Еще одним проявлением различий синсетов и понятий как единиц представленияявляется описание денежных единиц, используемых в различных странах под одними итеми же названиями, например, как франк или сантим.

С точки зрения языка, могут бытьвведены соответствующие синсеты, как в WordNet:franc -- (the basic monetary unit in many countries; equal to 100 centimes)centime -- (a fractional monetary unit of several countries: France and Algeria andBelgium and Burkina Faso and Burundi and Cameroon and Chad and the Congo andGabon and Haiti and the Ivory Coast and Luxembourg and Mali and Morocco and Nigerand Rwanda and Senegal and Switzerland and Togo)Однако с точки зрения представления на понятийном уровне такие единицыневозможны:- все эти франки и сантимы имеют разную ценность, соответствие между собой,- общее между ними только название;- в любой момент соответствующее государство может ввести другое названиесвоих единиц, не меняя их относительной стоимости.Таким образом, если мы считаем своей единицей представления понятие, тодолжна быть введена отдельная понятийная единица для денежной единицы каждойстраны, например, швейцарский франк, американский доллар, канадский доллар и т.п.5.5.

Квазисинонимы в Принстонском WordNetЕсли при описании соотношения между значениями руководствоватьсяпринципами возможности синонимичной подстановки в одни и те же предложения, какбыло принято при создании Принстонского WordNet, то это означает, что квазисинонимынеобходимо классифицировать сразу по нескольким основаниям, посколькусинонимическая замена слова должна учитывать и понятийный, и стилевой, и оценочныйи другие компоненты значения.Следствием принципа синонимичной подстановки является то, что WordNet имеетзначительное количество синсетов, которые трудно отличимы друг от друга, что такженарушает онтологические принципы описания понятий.Так, например, имеется четыре различных синсета, обозначающие сходство,подобие, каждый следующий из которых является гипонимом для предыдущего и приэтом является практически не отличимым от своего гиперонима:sameness -- (the quality of being alike; "sameness of purpose kept them together")similarity -- (the quality of being similar) - сходствоlikeness, alikeness, similitude -- (similarity in appearance or character or nature betweenpersons or things; ``man created God in his own likeness'' ) – сходство по внешности,характеру или природе между людьми или объектами).resemblance -- (similarity in appearance or external or superficial details) – сходствово внешности или во внешних или поверхностных деталях.1055.6.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее