Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 79

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 79 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 792020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 79)

На что он ответил: "Это внутреннее дело России. Мылишь хотим, чтобы эта операция имела меньше жертв и поскорее завершилась".Проведен опрос 185 воронежцев. ... Были заданы три вопроса: 1.Считаете ли вы Чечню территорией России? .. 46,48 процента опрошенныхсчитают Чечню территорией России. И ровно столько же ее не считаюттерриторией РФ...

О том, что выход Чечни из состава России можетпослужить началом развала Федерации, никто не задумывается.(****)В обоих текстах упоминаются Россия и Чечня.В тексте (***) основное содержание текста связано с обсуждением отношениймежду Россией и Ираном, и Россия представлена в тексте единой лексической цепочкойРоссия, Чечня, Бесланский, Чечня, Россия.Во тексте (****) обсуждаются отношения между Россией и Чечней, эти слованеоднократно встречаются в одних и тех же предложениях текста. Таким образом,объединение их в единую лексическую цепочку склеивает два разных тематическихэлемента основной темы, что противоречит содержанию документа.

Таким образом, втексте (****) Россия и Чечня должны образовать две разные лексические цепочки:- лексическая цепочка «Чечня»: Чечню, Чечню, Чечни- лексическая цепочка «Россия»: России, России, РФ, России, ФедерацииРассмотрение лексических цепочек через призму их употребления в одних и тех жепредложениях текста имеет прямое соответствие с идеей Р. Хазан о «гармонии связности»291(см.

п. 14.1.3), которая проявляется в том, что элементы разных лексических цепочекдолжны выступать по отношению друг к другу в одних и тех же семантическихотношениях, и, это значит, в большинстве случаев представители этих цепочек должныупоминаться в одних и тех же предложениях текста (Hasan, 1984).

В одном израссмотренных текстов – тексте (**) элементы четырех медицинских лексических цепочекчетко находились по отношению друг к другу в одних и тех же семантическихотношениях ‗агент‘(медики)-‗пациенс‘(пациент)-‗средство‘(наркотик)- ‗место‗(больница).Различие нашего подхода от идеи Р. Хазан заключается в следующих положениях.Во-первых, мы не требуем, чтобы непременно между элементами лексическихцепочек были одни и те же семантические отношения, полагая, что уже частоеупоминание элементов разных лексических цепочек в связном тексте не может бытьслучайным.Во-вторых, рассмотрение синтагматических отношений между элементамипотенциальных лексических цепочек является важным уже на этапе построениялексических цепочек.

Это рассмотрение позволяет в сложных случаях употребления втексте большого количества близких по смыслу слов принимать более обоснованноерешение по разделению этого множества слов на лексические цепочки. Кроме того,используя этот принцип формирования лексических цепочек, возможно, формироватьцепочки, учитывая достаточно разнообразные отношения между лексемами (заметим, чтов своем анализе М. Хэллидей и Р.

Хазан обычно ограничиваются небольшим наборомрассматриваемых отношений между лексемами: синонимы, родовидовые отношения,отношение часть-целое), а также возможное вхождение одной и той же лексемы внесколько лексических цепочек.19.2.3 Автоматическое построение тематических узловМы предположили, что лексические цепочки должны связывать не все близкие посмыслу слова текста, но соответствовать тематической структуре текста.

Кроме того,лексические цепочки должны иметь форму узла – с главным выделяемым элементов, ккоторому относятся все другие элементы этой цепочки. Далее таким образом устроенныелексические цепочки будем называть тематическими узлами.Важно еще подчеркнуть, что поскольку тематические узлы призваны моделироватьосновное содержание текста, то тематические узлы - это не последовательности близкихпо смыслу лексем, а совокупности близких по смыслу понятий, то есть, сущностей вкоторых до какой-то степени устранен фактор лексической синонимии и многозначности.В предыдущем разделе мы показали, что создать «правильный» (то естьсоответствующий тематической структуре анализируемого текста) тематический узелневозможно, используя только локальную информацию о расположении слов в соседнихпредложениях документа.

Нужна совокупная информация о частотности и распределениислов в тексте, которую необходимо сопоставить с имеющимися в тезаурусе знаниями осуществующих соотношениях значений слов.Поэтому лексические цепочки в форме тематических узлов не строятся придвижении от предложения к предложению, а производятся из общей картины упоминанияпонятий в предложениях, полученной по тексту.Как уже описывалось в предыдущих разделах, на предварительных этапахобработки текст был сопоставлен с тезаурусом:- текстовые выражения текста были сопоставлены с понятиями тезауруса,- понятия тезауруса, найденные в тексте, соединены отношениями, описанными втезаурусе.На основе созданной таким образом тезаурусной проекции текста произведенвыбор значений для многозначных текстовых входов тезауруса.Для построения тематических узлов существенны два фактора:- существование пути определенного вида между понятиями тезауруса и292встречаемость понятий тезауруса в одних и тех же простых предложенияхтекста.При изложении методов построения лексических цепочек на базе тезаурусаWordNet используются некоторые типы путей между синсетами, в том числе пути,состоящие из отношений различной направленности, то есть пути с перегибами (см.п.14.2.1).При построении тематических узлов на основе тезауруса РуТез мы отказались отиспользования путей с перегибами по следующим причинам.Во-первых, в тезаурусе РуТез имеется больший набор прямых связей междупонятиями тезауруса за счет транзитивных отношений часть-целое и отношенийнаправленной ассоциации, описывающих концептуальную зависимость понятий тезаурусадруг от друга.Во-вторых, мы считали важным дать возможность понятию тезауруса входить внесколько тематических узлов,В-третьих, понятия, соединенные путями с перегибами – виды одного рода, частиодного целого и др.

– достаточно часто могут выступать как разные,противопоставленные друг другу элементы основной темы.Таким образом, в основном блоке текущей реализации алгоритма тематическиеузлы образуются на основе иерархически подчиненных понятий тезауруса, имеющихмежду собой пути, состоящие из отношений одной направленности (см. п.17.8.).Для учета совместной встречаемости понятий тезауруса в одних и тех жепредложениях текста, для каждого понятия подсчитываются понятия-соседи в линейномконтексте внутри предложения. Величина линейного контекста обычно устанавливаетсявеличиной 3, то есть для каждого понятия запоминается по три понятия-соседа влево ивправо.

Понятия-соседи суммируются по всему тексту, и, таким образом, для каждогопонятия получается частотный список понятий-соседей – так называемые текстовые связипонятия.-19.2.3.1. Алгоритм построения тематических узловДля построения тематических узлов мы сначала выделяем потенциальные центрытематических узлов. Мы предполагаем, что то понятие тезауруса, которое наиболее точнохарактеризует развиваемую в тексте тему и которое, соответственно, может статьтематическим центром одного из тематических узлов текста, обычно некоторым образомвыделяется в пространстве всех тематически близких понятий, а именно: такое понятиеможет быть упомянуто в заголовке и/или в начале текста, или имеет максимальнуючастотность среди других близких по смыслу понятий.Тематическим центром может стать любое понятие тезауруса, независимо отуровня его общности/специфичности.

Единственное условие, которое может бытьуказано, это общая тематическая принадлежность концепта. При обработке современнойпрессы, актов законодательства на базе тезауруса РуТез обычно требуетсяпринадлежность начального понятия тематического узла Общественно-политическомутезаурусу, то есть фактически принадлежность понятия к одной из тематическихобластей общественной жизни.Таким образом, создание тематического узла начинается с выбора главногопонятия тематического узла. Сначала тематические узлы собираются вокруг понятийзаголовка и первого предложения текста. Затем тематические узлы собираются дляостальных понятий, начиная с самых частотных. Те понятия, которые уже попали втематический узел некоторого понятия, свой тематический узел не образуют.293Центральное понятие тематического узла С0 присоединяет в создаваемыйтематический узел понятия Сi из своей тезаурусной окрестности при выполнениинескольких условий.

При присоединении учитываются такие факторы как:- количество текстовых связей между Сi и С0 (то есть совместной встречаемостиСi и С0 в одних и тех же предложениях) в целом документе – Rtext,- количество связей между Сi и С0 по предложениям, то есть сколько раз вдокументе Сi и С0 встречались в текущем предложении и в k (по умолчаниюk=7) соседних предложениях, но вне пределов окна установления текстовыхсвязей – Rsent.В новый тематический узел понятия С0 включаются понятия Сi из дерева С0 привыполнении одного из следующих условий:- Rsentence (С0, Сi) > 0 и (Rtext (C0,Ci) < 2 или Rtext (C0,Ci)  Rsent(C0,C)), тоесть понятия С0 и Сi должны встречаться в тексте в соседних предложениях ипри этом либо практически не встречаться рядом друг с другом в одних и техже предложениях текста, либо частотность встречаемости понятия С0 и С водних и тех же предложениях текста должна быть меньше, чем частотностьвстречаемости в С0 и С в соседних предложениях,Или- Rsentence (C0,Ci) = 0 и Rtext (C0,Ci) =0 и Rsent (Ct,Ci)>0, где Сt – понятие, ужевключенное в тематический узел С0.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.