Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 79
Текст из файла (страница 79)
На что он ответил: "Это внутреннее дело России. Мылишь хотим, чтобы эта операция имела меньше жертв и поскорее завершилась".Проведен опрос 185 воронежцев. ... Были заданы три вопроса: 1.Считаете ли вы Чечню территорией России? .. 46,48 процента опрошенныхсчитают Чечню территорией России. И ровно столько же ее не считаюттерриторией РФ...
О том, что выход Чечни из состава России можетпослужить началом развала Федерации, никто не задумывается.(****)В обоих текстах упоминаются Россия и Чечня.В тексте (***) основное содержание текста связано с обсуждением отношениймежду Россией и Ираном, и Россия представлена в тексте единой лексической цепочкойРоссия, Чечня, Бесланский, Чечня, Россия.Во тексте (****) обсуждаются отношения между Россией и Чечней, эти слованеоднократно встречаются в одних и тех же предложениях текста. Таким образом,объединение их в единую лексическую цепочку склеивает два разных тематическихэлемента основной темы, что противоречит содержанию документа.
Таким образом, втексте (****) Россия и Чечня должны образовать две разные лексические цепочки:- лексическая цепочка «Чечня»: Чечню, Чечню, Чечни- лексическая цепочка «Россия»: России, России, РФ, России, ФедерацииРассмотрение лексических цепочек через призму их употребления в одних и тех жепредложениях текста имеет прямое соответствие с идеей Р. Хазан о «гармонии связности»291(см.
п. 14.1.3), которая проявляется в том, что элементы разных лексических цепочекдолжны выступать по отношению друг к другу в одних и тех же семантическихотношениях, и, это значит, в большинстве случаев представители этих цепочек должныупоминаться в одних и тех же предложениях текста (Hasan, 1984).
В одном израссмотренных текстов – тексте (**) элементы четырех медицинских лексических цепочекчетко находились по отношению друг к другу в одних и тех же семантическихотношениях ‗агент‘(медики)-‗пациенс‘(пациент)-‗средство‘(наркотик)- ‗место‗(больница).Различие нашего подхода от идеи Р. Хазан заключается в следующих положениях.Во-первых, мы не требуем, чтобы непременно между элементами лексическихцепочек были одни и те же семантические отношения, полагая, что уже частоеупоминание элементов разных лексических цепочек в связном тексте не может бытьслучайным.Во-вторых, рассмотрение синтагматических отношений между элементамипотенциальных лексических цепочек является важным уже на этапе построениялексических цепочек.
Это рассмотрение позволяет в сложных случаях употребления втексте большого количества близких по смыслу слов принимать более обоснованноерешение по разделению этого множества слов на лексические цепочки. Кроме того,используя этот принцип формирования лексических цепочек, возможно, формироватьцепочки, учитывая достаточно разнообразные отношения между лексемами (заметим, чтов своем анализе М. Хэллидей и Р.
Хазан обычно ограничиваются небольшим наборомрассматриваемых отношений между лексемами: синонимы, родовидовые отношения,отношение часть-целое), а также возможное вхождение одной и той же лексемы внесколько лексических цепочек.19.2.3 Автоматическое построение тематических узловМы предположили, что лексические цепочки должны связывать не все близкие посмыслу слова текста, но соответствовать тематической структуре текста.
Кроме того,лексические цепочки должны иметь форму узла – с главным выделяемым элементов, ккоторому относятся все другие элементы этой цепочки. Далее таким образом устроенныелексические цепочки будем называть тематическими узлами.Важно еще подчеркнуть, что поскольку тематические узлы призваны моделироватьосновное содержание текста, то тематические узлы - это не последовательности близкихпо смыслу лексем, а совокупности близких по смыслу понятий, то есть, сущностей вкоторых до какой-то степени устранен фактор лексической синонимии и многозначности.В предыдущем разделе мы показали, что создать «правильный» (то естьсоответствующий тематической структуре анализируемого текста) тематический узелневозможно, используя только локальную информацию о расположении слов в соседнихпредложениях документа.
Нужна совокупная информация о частотности и распределениислов в тексте, которую необходимо сопоставить с имеющимися в тезаурусе знаниями осуществующих соотношениях значений слов.Поэтому лексические цепочки в форме тематических узлов не строятся придвижении от предложения к предложению, а производятся из общей картины упоминанияпонятий в предложениях, полученной по тексту.Как уже описывалось в предыдущих разделах, на предварительных этапахобработки текст был сопоставлен с тезаурусом:- текстовые выражения текста были сопоставлены с понятиями тезауруса,- понятия тезауруса, найденные в тексте, соединены отношениями, описанными втезаурусе.На основе созданной таким образом тезаурусной проекции текста произведенвыбор значений для многозначных текстовых входов тезауруса.Для построения тематических узлов существенны два фактора:- существование пути определенного вида между понятиями тезауруса и292встречаемость понятий тезауруса в одних и тех же простых предложенияхтекста.При изложении методов построения лексических цепочек на базе тезаурусаWordNet используются некоторые типы путей между синсетами, в том числе пути,состоящие из отношений различной направленности, то есть пути с перегибами (см.п.14.2.1).При построении тематических узлов на основе тезауруса РуТез мы отказались отиспользования путей с перегибами по следующим причинам.Во-первых, в тезаурусе РуТез имеется больший набор прямых связей междупонятиями тезауруса за счет транзитивных отношений часть-целое и отношенийнаправленной ассоциации, описывающих концептуальную зависимость понятий тезаурусадруг от друга.Во-вторых, мы считали важным дать возможность понятию тезауруса входить внесколько тематических узлов,В-третьих, понятия, соединенные путями с перегибами – виды одного рода, частиодного целого и др.
– достаточно часто могут выступать как разные,противопоставленные друг другу элементы основной темы.Таким образом, в основном блоке текущей реализации алгоритма тематическиеузлы образуются на основе иерархически подчиненных понятий тезауруса, имеющихмежду собой пути, состоящие из отношений одной направленности (см. п.17.8.).Для учета совместной встречаемости понятий тезауруса в одних и тех жепредложениях текста, для каждого понятия подсчитываются понятия-соседи в линейномконтексте внутри предложения. Величина линейного контекста обычно устанавливаетсявеличиной 3, то есть для каждого понятия запоминается по три понятия-соседа влево ивправо.
Понятия-соседи суммируются по всему тексту, и, таким образом, для каждогопонятия получается частотный список понятий-соседей – так называемые текстовые связипонятия.-19.2.3.1. Алгоритм построения тематических узловДля построения тематических узлов мы сначала выделяем потенциальные центрытематических узлов. Мы предполагаем, что то понятие тезауруса, которое наиболее точнохарактеризует развиваемую в тексте тему и которое, соответственно, может статьтематическим центром одного из тематических узлов текста, обычно некоторым образомвыделяется в пространстве всех тематически близких понятий, а именно: такое понятиеможет быть упомянуто в заголовке и/или в начале текста, или имеет максимальнуючастотность среди других близких по смыслу понятий.Тематическим центром может стать любое понятие тезауруса, независимо отуровня его общности/специфичности.
Единственное условие, которое может бытьуказано, это общая тематическая принадлежность концепта. При обработке современнойпрессы, актов законодательства на базе тезауруса РуТез обычно требуетсяпринадлежность начального понятия тематического узла Общественно-политическомутезаурусу, то есть фактически принадлежность понятия к одной из тематическихобластей общественной жизни.Таким образом, создание тематического узла начинается с выбора главногопонятия тематического узла. Сначала тематические узлы собираются вокруг понятийзаголовка и первого предложения текста. Затем тематические узлы собираются дляостальных понятий, начиная с самых частотных. Те понятия, которые уже попали втематический узел некоторого понятия, свой тематический узел не образуют.293Центральное понятие тематического узла С0 присоединяет в создаваемыйтематический узел понятия Сi из своей тезаурусной окрестности при выполнениинескольких условий.
При присоединении учитываются такие факторы как:- количество текстовых связей между Сi и С0 (то есть совместной встречаемостиСi и С0 в одних и тех же предложениях) в целом документе – Rtext,- количество связей между Сi и С0 по предложениям, то есть сколько раз вдокументе Сi и С0 встречались в текущем предложении и в k (по умолчаниюk=7) соседних предложениях, но вне пределов окна установления текстовыхсвязей – Rsent.В новый тематический узел понятия С0 включаются понятия Сi из дерева С0 привыполнении одного из следующих условий:- Rsentence (С0, Сi) > 0 и (Rtext (C0,Ci) < 2 или Rtext (C0,Ci) Rsent(C0,C)), тоесть понятия С0 и Сi должны встречаться в тексте в соседних предложениях ипри этом либо практически не встречаться рядом друг с другом в одних и техже предложениях текста, либо частотность встречаемости понятия С0 и С водних и тех же предложениях текста должна быть меньше, чем частотностьвстречаемости в С0 и С в соседних предложениях,Или- Rsentence (C0,Ci) = 0 и Rtext (C0,Ci) =0 и Rsent (Ct,Ci)>0, где Сt – понятие, ужевключенное в тематический узел С0.