Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 54

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 54 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 542020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 54)

Понятно, что число вариантов цепочекдаже для небольшого текста становится слишком большим. Чтобы снизить числовариантов, в процессе обработки текста для каждой начатой цепочки оценивается ее сила,и в тот момент, когда количество вариантов превышает некоторый порог, удаляютсянаиболее слабые варианты цепочек.Вес лексической цепочки определяется числом элементов цепочки и весомотношений между элементами цепочки. Для повторов и синонимов установлен вес 10, дляантонимов 7, для гиперонимов и холонимов – 4. По завершении обработки текстанаилучшая цепочка определяется как имеющая наибольшее число ребер графа цепочки(отношений между элементами цепочки).В работе было проведено исследование, на основе каких параметров выделенныхлексических цепочек, можно отделить более сильные лексические цепочки, то есть болеехорошо отражающие основное содержание текста.Исследовались такие параметры как:- длина цепочки,- распределение слов цепочки в тексте,- плотность цепочки,- топологию графа,- число повторов слов в цепочках.Было выявлено, что наилучшими показателями силы цепочки являются такиепоказатели как длина цепочки Length, равная числу словоупотреблений в цепочке, ииндекс гомогенности Homogeneity Index, вычисляемый следующим образом:Homogeneity Index=1-(число разных слов в цепочке)/LengthАвторы работы, поэкспериментировав с разными формулами вычисления силыцепочки, остановились на следующей формуле:Score(Chain)= Homogeneity Index*LengthТаким образом, вес цепочки фактически равен числу повторных употреблений словв этой цепочке, и тем самым имеет прямую аналогию с частотой употребления слова втексте.

Снижение веса для цепочек со слишком разнообразным составом, видимо,позволяет снизить ошибки формирования лексических цепочек.Для получения статуса сильной цепочки, которая будет использоваться вдальнейшем анализе, необходимо, чтобы для веса цепочки выполнялось следующеесоотношение:Score(Chain) > Average (Scores)+2* StandardDeviation(Scores)Попытка тестирования качества таких лексических цепочек была выполнена вработе (Silber, McCoy, 2002). Предлагаемый метод тестирования основан наиспользовании аннотаций, созданных людьми.Предполагается, что если лексические цепочки являются хорошим промежуточнымпредставлением для отражения содержания документа, то можно ожидать, чтосуществительные в таких аннотациях используются в том же самом смысле, что исуществительные, сгруппированные в сильные лексические цепочки.

Более того, сильныецепочки должны быть достаточно хорошо представлены в ручных аннотациях.200Для оценки использовался корпус из 10 научных статей, которые снабженыавторской аннотацией, а также 14 глав из 10 университетских учебников, для которыхтакже имеются аннотации.Для каждого документа в корпусе, документ и его аннотация анализировалисьотдельно, и для каждого из них была построены лексические цепочки.

Синсеты (значения)существительных в каждой из цепочек в документе и аннотации были сопоставленымежду собой.Были вычислены следующие метрики:- число и процент сильных цепочек из оригинального текста, представленные ваннотации, то есть процент слов из сильных цепочек, представленных ваннотации в том же смысле, что и в сильной цепочке документа – (аналогичнополноте),- число и процент сильных цепочек из аннотации, представленных в документе(аналогично точности).Авторы получили следующие результаты:- 79.12% существительных из сильных цепочек в документе содержатся ваннотации,- 80.83% существительных из сильных цепочек аннотации содержатся вдокументе.14.2.4 Лексические цепочки: использование частотных ассоциацийМногие исследователи, исследующие лексическую связность на базе WordNet,отмечали, что серьезной проблемой является недостаточность лексических знаний,описанных в WordNet.

В работах (Stokes и др., 2000; Stokes и др., 2004) сделаны усилиядля того, чтобы преодолеть эту проблему.В данных работах предлагается дополнительно использовать следующуюинформацию:- статистические ассоциативные связи слов,- лексические цепочки для собственных имен.Авторы подчеркивают, что одним из важных назначений учета статистическихассоциаций слов является преодоление уже упоминавшейся теннисной проблемы, то естьпроблемы, что в WordNet, слова, относящиеся к одной и той же тематической области,могут располагаться достаточно далеко по иерархии путей. Также авторы отмечаютпроблему нехватки такой информации, как некоторых значений, а также многословныхсочетаний.Для построения ассоциаций слов авторы использовали текстовый корпусконференции TDT (http://projects.ldc.upenn.edu/TDT/), извлекли из него всесуществительные и словосочетания WordNet и собрали информацию о совместнойвстречаемости существительных в пределах текстового окна, состоящего из четырехсуществительных.

Окно было также ограничено границами предложения и документа.Отфильтровав наименее частотные ассоциации, авторы оставили в работе 25032пар, что соответствует 3566 существительным, имеющим в среднем 7 ассоциирующихсяслов.Так, например, были получены следующие биграммы:AIDS: virus 0993, HIV 0.951, patient 0.897, research 0.806, disease 0, 801, infection0.78 и т.д.Понятно, что существенной проблемой совмещения построения лексическихцепочек на основе WordNet и статистических биграмм, является то, что для биграммнеизвестны точные значения слов, для которых существуют такие ассоциации и,следовательно, статистическая связь может быть применена не к тому значению в тексте,что приведет к неправильному включению элементов в цепочку.201Авторы данной работы применяют систему связей в лексической цепочкепредложенных в работе (Hirst, St-Onge, 1998): сверхсильные связи, сильные связи, связисредней силы.Ассоциативные связи между словами, полученные на основе статистическихкритериев считаются самым слабым видом отношений между словами и применяются,если более сильных связей не найдено.Например, для текста, посвященного премьере фильма об убийстве журналистки,получились следующие лексические цепочки (в скобках указывается элемент из цепочки,с которым связан очередной элемент и сила связи):Film – movie (Film, strong) – premiere (film, medium) – subject_matter (film, strong) –actress (movie, strong) – picture (film, strong) – actor (actress, strong) – approval(subject_matter, strong) – story (subject_matter, medium) – director (actor, Statistical) –tribute (approval, strong)Investigation – murder (investigation, strong) – killing (murder, strong) – victim (killing,statistical) - crime (victim, statistical) – life (murder, medium) – loss (life, statistical) –murderer (victim, medium)Для именованных объектов, не входящих в состав WordNet, также предложенасистема отношений разной силы:- отношение полного совпадения: Helmut_Kohl - Helmut_Kohl- частичноепословноесовпадение:Hubble_Telescope–Space_Telescope_Science_Institute,- частично совпадение по фрагменту слова: National_Caver’s_Association –Irish_Cave_Rescue_Organisation.14.2.5.

Лексические цепочки: использованиеинформационно-поисковых тезаурусовО. Медельян (Medelyan, 2007) предлагает использовать недостающее в WordNetситуативное знание на основе информационно-поискового тезауруса (в работеиспользуется тезаурус AgroVoc). Она указывает, что наиболее известные алгоритмыпостроения лексических цепочек слишком зависят от порядка слов в тексте, что несоответствует реальной ситуации, когда одно и то же содержание может быть выражено спомощью по-разному упорядоченных последовательностей предложений. Поэтому вработе предлагается сначала собрать цепочки-кандидаты со всего текста, а затем, получивцелостную картину лексических цепочек-кандидатов текста, применить разбиениеполучившегося графа на наиболее связанные фрагменты.202Рис.

14.3. Разбиение графа на лексические цепочке в работе (Medelyan, 2007)Лексическая цепочка определяется как граф G = (V, E) с узлами vi  V,представляющими термины тезауруса и дугами графа (vi , vj , wij )  E, описывающимиотношения между терминами, где wij – это вес, выражающий силу отношения междутерминами.Такой граф строится следующим образом. Как и в предшествующих алгоритмах,цепочки-кандидаты строятся по порядку движения текста.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.