Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 77

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 77 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 772020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 77)

Если расстояние от текущего слова до предшествующихвхождений лексической цепочки больше некоторого порога, то лексическаяцепочка прерывается и начинается новая.Возникает вопрос, достаточно ли вышеперечисленных критериев для построениялексических цепочек.Второй вопрос, возможно связанный с первым, заключается в том, что являются лилексические цепочки такими уж очевидными, поскольку, как мы увидим ниже,эксперименты по сравнению лексических цепочек, выделенных разными людьми,показали достаточно серьезное расхождение в представленных лексических цепочках.Второй вопрос связан с первым, так как важно понять, является ли такая субъективностьнеизбежной, или не учитывается какой-либо важный критерий построения лексическихцепочек.В следующих разделах мы рассмотрим вопросы критериев и субъективностивыделения лексических цепочек подробнее.19.1.1. Субъективность выделения лексических цепочекАвторы работы (Hirst, Morris, 2003) указывают на субъективность рассмотрениялексической связности в тексте.

Они рассматривают пример небольшого текста:(*) How can we figure out what a text means. One could argue that the meaning is in themind of the reader, but some people think that the meaning lies within the text itself.‖Отвечая на вопрос, каковы лексические цепочки, которые можно выделить вданном тексте, один автор статьи полагает, что видит две цепочки: «понимание», которыевключают такие слова как figure out, means, meaning, mind, think, meaning и цепочка«текст», включающая слова text, reader, text. Второй автор также выделил две цепочки, носоотнес слова means, meaning c цепочкой «текст».Действительно, при построении лексических цепочек текста (*) слова «значение»,«значить» близки по смыслу как лексеме «текст», так и лексемам «думать», «узнать».Можно ли определить, кто из авторов статьи прав, или, может быть, слова «значение» и«значить» входят в две лексические цепочки?Также в (Hirst, Morris, 2003) описывается следующий эксперимент по изучениюсогласия между читателями по выявлению лексической связности текста.Пять участников эксперимента читают полуторастраничный текст из Reader‘sdigest на тему роли киноактеров и киноперсонажей в формировании неправильныхмоделей ролевого поведения для детей.Участники сначала должны прочитать статью и отметить каждую связанную посмыслу группу слов разным цветом.

Затем каждая выделенная группа должна быть285перенесена на новый лист, и в группе близких слов нужно выделять пары слов иустанавливать между ними тип отношения.Эти данные стали основой для оценки соответствия между восприятием текстакаждым участником. Для каждой пары участников было вычислен коэффициент согласия,который определялся как процент слов, которые встретились в рассмотрении обоихучастников, по отношению к общему числу слов, которые они использовали. В среднемдля лексически связанных слов этот коэффициент составил 63%.В работе (Hollingsworth, Teufel, 2005) описывается эксперимент по сравнениюлексических цепочек, создаваемых разными людьми, на примере научной статьи LeeLilian ―Measures of distributional similarity‖, опубликованной в трудах 37 конференцииACL (pp.25-32). В эксперименте участвовали 3 человека, которым было данонеограниченное время, чтобы создать наборы терминов, которые им кажутся близкими посмыслу в контексте исследуемой статьи.Участникам были даны следующие инструкции:- термин может состоять из одного слова или комбинации слов, взятыхнепосредственно из текста;- слова, используемые в терминах, могут быть существительными,прилагательными или наречиями;- возможные отношения между словами в цепочке близких слов могут бытьследующими: разные формы одного и того же слова, синонимия, гиперонимиягипонимия, меронимия или холонимия;- не накладывались ограничения на размер или количество лексических цепочек.Каждому аннотатору были даны список всех слов статьи, упорядоченные по меречастотности и максимальные именные группы, извлеченные из текста.

Использованиеэтих материалов носило вспомогательный характер.В статье (Hollingsworth, Teufel, 2005)приводятся лексические цепочки,полученные двумя аннотаторами. В каждой цепочке выделен наиболее частотныйэлемент, который является как бы представителем цепочки.Один аннотатор создал 12 лексических цепочек, второй аннотатор создал 22лексические цепочки, причем имеется совпадение главных элементов лексическихцепочек только в четырех случаях (с точностью до единственного/множественного числа):similarity, probability, cooccurrance, distribution.Таким образом, в экспериментах были выявлены значительные расхождения вформировании лексических цепочек людьми, и возникает вопрос, является ли этаситуация стандартным проявлением субъективности человеческих решений или прирассмотрении лексических цепочек не учитываются какие-то дополнительные факторы.19.1.2.

Построение лексических цепочек с учетом ситуативных отношенийСтандартным базовым ресурсом для построения лексических цепочек являетсятезаурус WordNet. Однако набор отношений в этом тезаурусе невелик. Многие авторы,занимавшиеся автоматическим построением лексических цепочек, указывали на одну изпроблем построения лексических цепочек по WordNet – нехватку ситуативных отношений(см.п.14.2.4). Но появление такого рода отношений в ресурсе (в тезаурусе РуТез такиеотношения есть), опять ставит вопрос о критериях выделения цепочек.Рассмотрим следующий текст на медицинскую тему:(**)Канадские врачи убили пациента передозировкой наркотикаВ Канаде начато расследование несчастного случая в больнице города РедДир, где медики по ошибке ввели пациенту смертельную дозу опиоидногонаркотика, сообщает газета The Globe and Mail.

69-летний пациент поступил вприемное отделение больницы после травмы грудной клетки, которую он286получил во время конной прогулки. Врач назначил ему 10 миллиграммов морфина вкачестве обезболивающего и отпустил домой.По ошибке медсестры пациенту был сделан укол гидроморфона - похожегона морфин по названию и действию. Однако этот препарат гораздо сильнее - дозав 10 миллиграммов смертельна. Свою ошибку медики осознали после пересчетанаркотических средств и сразу позвонили родственникам мужчины.

Однакосостояние пациента быстро ухудшилось, и он умер после возвращения в больницу.Расследование этого случая завершится в течение 10 дней. Как сообщают вбольнице, укол сделала опытная медсестра, которая полностью признает своюошибку. Однако есть вероятность, что после расследования ее все же признаютневиновной. По заявлению министра здравоохранения провинции Альберта, главное- сделать, чтобы такая ошибка не повторилась. (Источник: Mednovosti.ru)В тексте содержится множество слов и словосочетаний, имеющих отношение кмедицине: наркотики, больница, пациент, травма, морфин, обезболивающее,гидроморфон, медик, врач и др., По тезаурусу РуТез многие из этих терминов достаточнотесно связаны между собой, и возникает вопрос, должны ли все эти слова собраться водну лексическую цепочку или несколько.

Если разбивать на несколько лексическихцепочек, то нужно понять, какие формальные критерии должны быть применены.Следствием более богатой системы отношений в тезаурусном ресурсе является ито, что одно и то же слово может быть отнесено к разным лексическим цепочкам, хотя какуказывалось в разделе 14.2. основополагающим принципом подавляющего большинстваподходов, в которых изучается автоматическое построение лексических цепочек, являетсяотнесение очередного слова только к одной лексической цепочке. Рассмотрим следующийфрагмент текста:Президент Украины Виктор Ющенко готовит указ опереносе парламентских выборов. Теперь, предположительно,они пройдут в июне.Первоначально Ющенко назначил их на 27 мая.

Депутаты отреагировали наэто решение обращением в Конституционный суд. Тот обещал спешнорассмотреть вопрос, но до сих пор так и не начал слушания. После подписаниянового указа, суд не сможет начать дело, пока 45 депутатов не пришлют емуновое обращение. Так Ющенко затягивает решение главного украинского вопроса:имел ли право глава государства распустить Верховную раду.По мнению парламента, который Ющенко рассчитывает переизбрать, президентне уверен в своей правоте.

Потому и начал сложную игру. Политические страсти,утихшие на Украине во время Пасхи, разгорелись с новой силой. (Источник:Российская газета)Очевидно, что словосочетание Верховная рада должно быть в равной степениотнесена к двум лексическим цепочкам – цепочке парламента (парламентских выборов,депутаты, депутатов, Верховную Раду, парламента) и цепочке Украины (президентУкраины, украинского, Верховную Раду, Украине).То, что в реальной ситуации одно и то же слово может быть отнесено к разнымцепочкам одновременно, значительно усложняет алгоритмы автоматического построениялексических цепочек.Мы нашли только одну работу (Hollingsworth, Teufel, 2005), в которой авторыуказывают на то, что их алгоритм построения лексических цепочек позволяет относитьодно и тоже слово или словосочетание к разным лексическим цепочкам, и при этом ониуказывают на проблему порождения слишком большого количества лишних лексическихцепочек (overgeneration).287При этом авторы подчеркивают, что в проведенном ими эксперименте всеэксперты-аннотаторы, по крайней мере, одно слово (словосочетание) отнесли более, чем кодной лексической цепочке.19.2.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6361
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее