Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 80
Текст из файла (страница 80)
То есть понятие Сi из дерева С0включается в тематический узел, если оно нашлось относительно недалеко отпонятия Сt, уже включенного в тематический узел С0.Или- частотность (Сi)=1После построения очередного тематического узла выбирается следующее почастотности (заголовку) понятие тезауруса, еще не включенное в тематические узлы, иобразует свой следующий тематический узел.Приведем примеры тематических узлов, созданных в процессе обработки текста(**) из раздела 19.1.2.
(главное понятие тематического узла выделено сдвигом влево;указана также частота упоминания понятия в тексте):1) НАРКОТИКМОРФИНМЕДИКАМЕНТ2) БОЛЬНИЦАПРИЕМНОЕ ОТДЕЛЕНИЕ БОЛЬНИЦЫ3) ПАЦИЕНТ4) ВРАЧМЕДИЦИНСКИЙ РАБОТНИК5) КАНАДААЛЬБЕРТА6) УБИТЬ, ЛИШИТЬ ЖИЗНИСМЕРТЬУМЕРЕТЬ7) ТРАВМАНЕСЧАСТНЫЙ СЛУЧАЙ8) МЕДСЕСТРА3214152221121112В этом автоматически полученном наборе тематических узлов можно заметитьследующие неточности отражения основного содержания текста.Во-первых, тематический узел «медицинские работники» разбился на дватематических узла 4) и 7).294Возможно, правильнее иметь единый узел медицинских работников, посколькутекст делает акцент именно на вине медиков в целом:МЕДИЦИНСКИЙ РАБОТНИКВРАЧМЕДСЕСТРА222Кроме того, словосочетание «несчастный случай» в тексте явно относилось не ктравме, а к смерти пациента, то есть более правильным был бы такой узел:УБИТЬ, ЛИШИТЬ ЖИЗНИСМЕРТЬУМЕРЕТЬНЕСЧАСТНЫЙ СЛУЧАЙ1211Но в целом, как мы видим, тематические узлы соответствуют элементам основнойтемы текста.При обработке текстов (***) и (****) из раздела 19.2.2.
изложенный алгоритмсвязывает между собой понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯРЕСПУБЛИКА по-разному.Для документа (***) строится тематический узел, объединяющий данные понятия вследующий тематический узел:РОССИЙСКАЯ ФЕДЕРАЦИЯЧЕЧЕНСКАЯ РЕСПУБЛИКАБЕСЛАН221Для документа (****) понятия РОССИЙСКАЯ ФЕДЕРАЦИЯ и ЧЕЧЕНСКАЯРЕСПУБЛИКА образуют два тематических узла:РОССИЙСКАЯ ФЕДЕРАЦИЯФЕДЕРАТИВНОЕ ГОСУДАРСТВОЧЕЧЕНСКАЯ РЕСПУБЛИКА413Таким образом, изложенный алгоритм формирует тематические узлы так, чтобыкаждый тематический узел соответствовал отдельному элементу основной темыдокумента.19.2.3.2.
Мультиграфы как база для порождения тематических узловКак мы уже указывали, построение лексических цепочек в большинстве подходовсводится, в конечном счете, к разбиению графа отношений между понятиями,упоминаемыми в тексте, на подграфы. По сути, та же процедура реализована и в процессепостроения тематического представления – граф тезаурусной проекции разбивается наподграфы – совокупности тематических узлов.Для учета факторов построения тематического представления подходитпредставление распределения понятий текста в виде мультиграфа, то есть графа с двумятипами дуг между вершинами.
Один тип дуг, Rsent, отражает отношения междупонятиями в тезаурусе. Другой тип дуг, Rtext, отражает совместную встречаемостьпонятий в предложениях текста. В вершинах мультиграфа указана частотностьупоминания соответствующего понятия в тексте. На дугах Rtext отмечена частотавстречаемости данной пары понятий в одних и тех же предложениях текста. Дуги Rsentуказывают частотность упоминания данной пары понятия в пределах несколькихпредложений (например, 7 предложений), но не в одном предложении текста(Loukachevitch, 2009b).Таким образом, мультиграф MG тематического представления может бытьопределен как MG = (V, fv, Rtext, frtext, Rsent, frsent) (рис.
19.2).295Rsent = 1ПAЦИЕНТfv = 5Rsent = 1ВРАЧfv = 2Rtext = 1Rtext = 0Rtext = 2Rsent = 2Rsent = 2БОЛЬНИЦАRtext = 0МЕДИЦИНСКИЙРАБОТНИКfv = 2Rtext = 1fv = 3Rsent = 1Рис.19.2. Фрагмент мультиграфа для текста (**)19.2.4. Определение статуса тематического узлаНа предшествующем этапе были собраны тематические узлы, каждый из которыхвключает понятия текста, связанные по Тезаурусу с главным понятием тематическогоузла. С помощью тематического узла выделяются элементы основных тем и подтемтекста, обсуждавшиеся в тексте.В нашей модели мы предполагаем, что понятия основных тематических узловпостоянно встречаются рядом друг с другом (связаны по тексту) в одних и тех жепредложениях текста. Понятно, что реализация проверки такого условия осложняетсяпроблемами правильного выделения простых предложений внутри сложныхпредложений, построением правильной синтаксической структуры, вхождениямиместоимений и использованием эллипсиса (то есть пропусков) в тексте. Поэтому дляоценки совместной встречаемости тематических узлов мы используем опять же линейныйконтекст понятий, называемый нами текстовые связи.В результате для каждого понятие, упомянутого в тексте, получается совокупностьтекстовых связей, как, например, для понятия ПАЦИЕНТ из текста (**) (справа указаначастота текстовых связей понятия ПАЦИЕНТ с другими понятиями текста):ПАЦИЕНТНАРКОТИКВРАЧУБИТЬ, ЛИШИТЬ ЖИЗНИНАРКОТИКНЕСЧАСТНЫЙ СЛУЧАЙБОЛЬНИЦАМЕДИЦИНСКИЙ РАБОТНИК-4112111После того как созданы тематические узлы, текстовые связи понятий каждоготематического узла суммируются и определяются текстовые связи между тематическимиузлами.Приведем примеры текстовых связей между тематическими узлами, выделеннымив тематическом представлении текста (**).
Тематические узлы представлены своими296главными понятиями, число справа - суммарная величина текстовых связей междупонятиями тематических узлов, текстовые связи даны для тематического узла, главноепонятие которого смещено в примере влево:ПАЦИЕНТНАРКОТИКБОЛЬНИЦАВРАЧУБИТЬ, ЛИШИТЬ ЖИЗНИ…-4333В соответствии с моделью предполагается, что основными тематическими узлами впервую очередь являются такие тематические узлы, которые:- все связаны между собой текстовыми связями;- сумма частот текстовых связей между ними максимальна для анализируемоготекста (рис. 19.3).Mc1Основныетематические узлыMT1Mc3MT3Mc2MT2MckMTkTNjTNj+1Локальныетематические узлыTNj+2Рис.
19.3. Структура тематического представления. Элементы основных тематическихузлов MTi постоянно встречаются в одних и тех же предложениях текста. Поэтомутекстовые связи между ними обозначены жирными линиямиВ рассматриваемом примере тематического представления текста (**) основнымитематическими узлами стали узлы с главными понятиями ПАЦИЕНТ, НАРКОТИК, ВРАЧ,БОЛЬНИЦА, МЕДСЕСТРА, УБИТЬ, ЛИШИТЬ ЖИЗНИ, КАНАДА.Упомянутый ранее тематический узел ТРАВМА (несчастный случай) не прошел всписок основных тематических узлов, поскольку не был связан по тексту с тематическимузлом МЕДСЕСТРА.Вычисленные таким образом основные тематические узлы автоматически задаютпорог, выделяющий среди всех тем, обсуждавшихся в тексте, основные темы текста.Таким порогом считается средняя суммарная частотность основных тематических узлов.Исходная совокупность основных тематических узлов дополняется темитематическими узлами, частотность которых превышает вычисленный порог.
Этодополнение отражает такую структуру текста, когда некоторая важная тема обсуждается втексте локализовано, не по всему тексту, но достаточно подробно.297Локальные тематические узлы представляют собой некоторые важныехарактеристики основных тематических узлов. Тематический узел считается локальным,если этот узел имеет текстовую связь с частотностью большей единицы с одним изосновных тематических узлов. Понятия, не вошедшие в состав основных и локальныхтематических узлов, объявляются "упоминавшимися" в тексте.Таким разбиением тематических узлов на основные и локальные задаетсяразбиение понятий, упомянутых в тексте, на следующие пять классов по их важности дляанализируемого текста:- главные понятия основных тематических узлов (основные темы);- другие понятия основных тематических узлов;- главные понятия локальных тематических узлов (локальные темы);- другие понятия локальных тематических узлов;- упоминавшиеся понятия.Таким образом, построено тематическое представление текста, в котором понятиятезауруса, упоминавшиеся в тексте, разбиты на тематические узлы.
Тематические узлыподразделяются на основные, локальные и упоминавшиеся узлы. Между тематическимиузлами фиксируются текстовые связи (Лукашевич, Добров, 1996; Лукашевич, Добров,2000)19.2.6. Тестирование качества построения тематических узловВ работе (Loukachevitch, Dobrov, 2000b) был описан эксперимент по оценкекачества автоматического построения основных тематических узлов, соответствующихэлементам основной темы текста.Для каждого текста человеком выбирались его основные понятия, то есть понятия,которые наилучшим образом характеризовали основную тему анализируемого документа.Такие основные понятия выбирались, в основном, из заголовка и первого абзацадокумента.
Для каждого выбранного понятия автоматически строился тематический узел,состоящий из понятий данного текста. Затем, просматривая текст, мы проверяли,действительно ли включенные в тематический узел понятия относились в данном тексте кисходному понятию.При этом было принято следующие правило: если отношение между понятиямиопределено в данном тексте и далее используется для организации связного текста, то этоотношение не обязано быть в тезаурусе, и его невключение в тематический узел несчиталось ошибкой, поскольку авторы текста не предполагали, что читатель должен знатьотношения между понятиями заранее.В нашем эксперименте все исходные основные понятия были различны ипостроенные тематические узлы содержали не менее 3 понятий.На основе анализа 73 тематических узлов для 25 текстов общественнополитической тематики мы получили следующие характеристики качества отражениятематическими узлами лексической связности документов: точность - 89%, полнота - 71%.Заключение к главе 19На первый взгляд может показаться, что и человеку, и компьютеру выявитьлексическую связность в связном тексте достаточно просто.
Однако в экспериментах слюдьми-аннотаторами была выявлена высокая субъективность выделения в текстелексических цепочек близких по смыслу слов текста – такие цепочки являются основныминструментом моделирования лексической связности.В этой главе мы показали, что для определения лексической связности в текстенедостаточно извлекать совокупности близких по смыслу слов и словосочетаний, дляправильного формирования лексических цепочек необходимо учитывать взаимодействие298упоминаемых сущностей в предложениях текста. Данное положение является следствиемглобальной связности текста.Также из глобальной связности текста следует то, что лексическая цепочка имеетвнутреннюю структуру узла – все элементы цепочки должны иметь отношение к одному итому же элементу цепочки – главному элементу цепочки, ее центру.Об эти фактора позволяют строить лексические цепочки в соответствии стематической структурой конкретного текста.На наш взгляд, учет этих факторов в экспериментах с людьми-аннотаторами даст врезультате более высокий показатель согласия между аннотаторами при разметкелексических цепочек.299Глава 20.
Информационный поиск с учетом тезаурусных знаний20.1 Концептуальный индекс, веса понятий и отношенийТематическое представление текста дает возможность построить концептуальныйиндекс документа, в котором учитывается не только частотность отдельного понятия вдокументе, но и статус понятия в тематической структуре документа (Добров, Лукашевич,2001; Лукашевич, Добров, 2001).Как указывалось в предыдущей главе, в результате построения тематическогопредставления текста все понятия тезауруса, упомянутые в тексте, разделяются на пятьбазовых классов значимости для текста, каждый из которых имеет свой вес.