Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 14

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 14 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 142020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 14)

Тезаурус английского языка WordNetОдним из наиболее известных лексических ресурсов в сфере компьютернойлингвистики и автоматической обработки текстов является компьютерный тезаурусWordNet. Большое количество экспериментов выполнено с этим тезаурусом и в рамкахразличных приложений информационного поиска.WordNet версии 3.0 включает приблизительно 155 тысяч различных лексем исловосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов(synset), общее число пар лексема – значение составляет более 200 тысяч.Разработка тезауруса была начата в 1984 году в Принстонском университете СШАпод руководством известного психолингвиста Джорджа Миллера.

В 1995 году WordNetпоявился в Интернет в свободном доступе и вызвал всплеск исследований по егоиспользованию в различных компьютерных приложениях автоматической обработкитекстов. Результаты применения WordNet в автоматической обработке текстов оказалисьне столь однозначно положительными, но WordNet открыл новую эпоху разработки сверхбольших структурированных лингвистических ресурсов, вызвал появление большогочисла последователей в разных странах, создающих такие ворднеты для своих языков, атакже стал базой для многоплановых дискуссий и исследований того, на основе какихпринципов должны строится большие лингвистические ресурсы, пригодные дляразнообразных приложений в области компьютерной лингвистики.Первоначально WordNet создавался как модель человеческой памяти.

МногиерешенияпопредставлениюописанийсловвWordNetмотивируютсяпсихолингвистическими ээкспериментами. Однако, по мнению самих авторов ресурса,WordNet вызвал значительно больший интерес у компьютерных лингвистов, чем упсихолингвистов (Fellbaum, 1998; Поляков, 2002).В данной главе мы рассмотрим основные принципы создания тезауруса WordNet,способы представления лексической информации, а также рассмотрим основныенаправления критики, которым подвергался данный ресурс. Все это является важным дляпоследующего обсуждения результатов использования WordNet в приложенияхинформационного поиска.2.1. WordNet: основные принципыОсновоположник WordNet Джордж Миллер формулирует основные гипотезы,лежащие в основе разработки WordNet, следующим образом (Miller, 1998):- гипотеза отделимости: описание лексического компонента естественного языкаможет быть отделено от других уровней (морфологического, синтаксического);- гипотеза «образца» (patterning hypothesis): существует такое формальноеописание слов, которое может быть применено к большинству слов языка;- гипотеза о покрытии (comprehensiveness hypothesis): для эффективногоиспользования компьютерного словаря в приложениях автоматическойобработки текстов, такие словари должны быть очень большой величины.Основным отношением в WordNet является отношение синонимии.

Наборысинонимов – синсеты – являются основными структурными элементами WordNet.Понятие синонимии, используемое разработчиками WordNet, базируется накритерии, что два выражения являются синонимичными, если замена одного из них надругое в предложении не меняет значения истинности этого высказывания.При этом не требуется заменяемости синонимов во всех контекстах – по такомукритерию в естественном языке было бы слишком мало синонимов. Используетсязначительно более слабое утверждение, что синонимы WordNet должны бытьвзаимозаменимы хотя бы в некотором множестве контекстов.

Например, замена plank(доска, планка) для слова board (доска) редко меняет значение истинности в контексте52плотницкого дела, но существуют контексты, где такая замена не может считатьсяприемлемой.Именно определение синонимии в терминах заменимости делает необходимымразделение WordNet на отдельные подструктуры по частям речи. Лексемы различныхчастей речи (существительные, прилагательные, глаголы, наречия) хранятся отдельно иописания, соответствующие каждой части речи, имеют различную структуру.Синсет может рассматриваться как представление лексикализованного понятия(концепта) английского языка.

Авторы ресурса считают, что синсет существительныхпредставляет понятия существительных, глаголы выражают глагольные концепты,прилагательные – концепты прилагательных и т.п. Кроме того, предполагается, что такоеразделение соответствует психолингвистическим экспериментам, которые показывают,что представление информации о прилагательных, существительных, глаголах и наречияхустроено в человеческой памяти по-разному.Большинство синсетов снабжены толкованиями, подобными толкованиям втрадиционных словарях, - это толкование рассматривается как одно и то же для всехсинонимов синсета. Если слово имеет несколько значений, то оно входит в несколькоразличных синсетов.Для установления отношений между синсетами используется методлингвистических тестов (Cruse, 1986).

При таком методе каждому потенциальномулексическому отношению между словами X и Y сопоставляются высказывания,сформулированные на естественном языке и содержащие в качестве компонентов X и Y.Если составленное диагностическое высказывание для слов X и Y истинно, тосоответствующее лексическое отношение между этими словами может быть установлено.В следующих разделах будут подробно рассмотрены принципы описания вWordNet существительных, прилагательных, глаголов.2.2. Существительные в WordNetОсновными отношениями, установленными в WordNet между существительными,являются родовидовое отношение, отношение часть-целое и отношение антонимии.Самым многочисленным отношением между синсетами существительных являетсяродовидовое отношение, при этом видовой синсет называется гипонимом, а родовойгиперонимом.

Это транзитивное иерархическое отношение, подобное ISA-отношению висследованиях по искусственному интеллекту.Синсет X называется гипонимом синсета Y, если носители английского языкасчитают нормальными предложения типа «An X is a (kind of) Y‖ (―Х – это (вид) Y‖).Авторы тезауруса подчеркивают, что на практике различие между синонимией игипонимией не всегда очевидно. Кроме того, если традиционные словари могут в качестверазличных значений одного и того же слова включить и более широкое, и болееспециализированное значение, например, board (доска) в широком смысле, и в болееспециализированном как surfboard (доска для серфинга), при разработке WordNetпредпочтение отдавалось решениям, в которых одно и то же слово не представлено и всинсете гипонима, и в синсете гиперонима.Отношения между синсетами образуют иерархическую структуру (рис.

2.1.). Припостроении иерархических систем на базе родовидовых отношений обычнопредполагается, что свойства вышестоящих понятий наследуются на нижестоящие – такназываемое свойство наследования. Таким образом, существительные в WordNetорганизованы в виде иерархической системы с наследованием. Разработчиками былисделаны систематические усилия, чтобы для каждого синсета найти его родовое понятие,его гипероним.53Рис.2.1. Гиперонимы для двух значений существительного forest (лес): лес каксовокупность деревьев и лес как территория, на которой растут деревья.WordNet разделяет существительные на несколько иерархий, каждая со своимначальным понятием.

Всего для существительных имеется 25 синсетов верхнего уровня,такие как {act,activity} (деятельность), {animal, fauna} (животное), {artifact} (продукттруда), {food}(пища), {process} (процесс), {quantity, amount} (количество) и др.,Между существительными устанавливаются также отношения ЧАСТЬ-ЦЕЛОЕ,называемое отношением меронимии, синсет-часть называется меронимом, а синсет-целоехолонимом.Для установленияэтого отношенияприменяетсяследующийлингвистический тест:Х является частью Y, если можно сказать, что Х – это часть Y (An x is a part of Y)или Y имеет X как часть (A y has an x as a part).Внутри отношения меронимии дополнительнобыть_элементом и быть_сделанным_из, например,выделяютсяотношениясобственно часть: цветок как орган растения является часть цветковогорастенияflower, bloom, blossom -- (reproductive organ of angiosperm plants esp.

one havingshowy or colorful parts)PART OF: angiosperm, flowering plant -- (plants having seeds in a closed ovary)элемент: человек является элементом человечестваhomo, man, human being, human -- (any living or extinct member of the familyHominidae)MEMBER OF: genus Homo -- (type genus of the family Hominidae)54вещество: стекло является материалом для стеклянной посуды, стекляныхтарелок и др.glass -- (a brittle transparent solid with irregular atomic structure)SUBSTANCE OF: glassware, glasswork -- (articles made of glass)SUBSTANCE OF: plate glass, sheet of glass -- (glass formed into a thin sheet)Для частей характерно, что у многих разных сущностей части могут называтьсяодинаково, например, point (острие) может быть у стрелы, ножа, иголки, карандаша,булавки и т.п.

В таких случаях описываются все такие холонимы, например,point -- (sharp end; "he stuck the point of the knife into a tree"; "he broke the point of hispencil")PART OF: awl -- (a pointed tool for marking surfaces or for punching small holes)PART OF: icepick, ice pick -- (pick consisting of a steel rod with a sharp point; used forbreaking up blocks of ice)PART OF: knife -- (edge tool used as a cutting instrument; has a pointed blade with asharp edge and a handle)PART OF: needle -- (a sharp pointed implement (usually steel))PART OF: pencil -- (a thin cylindrical pointed writing implement; a rod of markingsubstance encased in wood)PART OF: pin -- (a small slender (often pointed) piece of wood or metal used to supportor fasten or attach things)Считается, что меронимы могут наследоваться гипонимами, например, если крылои клюв описаны как части птицы, то все виды птиц наследуют эти части.Авторы подчеркивают, что одной из проблем описания отношений меронимииявляется то, что части описываются несколько выше, чем это необходимо.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее