Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 78
Текст из файла (страница 78)
Автоматическое построение тематического представления текста19.2.1. Лексические цепочки и тематическая структура текстаВо всех подходах автоматического моделирования лексических цепочекпостроение этих цепочек не является самоцелью – лексические цепочки выделяются длятого, чтобы «приблизиться» к автоматическому построению тематической структурытекста, то есть уметь выделять, что в тексте главное, что второстепенное, как текстовыесущности связаны друг с другом.C целью выделения наиболее значимых для содержания текста лексическихцепочек, рассматриваются различные параметры лексических цепочек, такие какчастотность ее элементов, текстовое покрытие и другие.
В лексических цепочкахвыделяются наиболее частотные элементы цепочки в качестве наиболее важныхтематических элементов текста.Поскольку целью автоматического выделения лексических цепочек являетсяавтоматическое построение тематической структуры текста, рассмотрим на методыпостроения лексических цепочек и вышеописанные проблемы их построения с точкизрения роли лексических цепочек в тематической структуре текста.Многие исследователи указывают на то, глобальная связность текста проявляется втом, что текст имеет единую тему. Тематическая структура текста представляет собойиерархическую структуру тем и подтем.
Каждому предложению текста имеется некотороесоответствие в этой тематической структуре (см. п.14.1.1). Каждая тема (подтема)представляет собой пропозицию – предикат P (C1…Cn). Пропозиции тем (подтем)устанавливают отношения между тематическими элементами С1…Сn. В иерархическойтематической структуре главная тема P0 (C01…C0n) поясняется, характеризуется,дополняется деталями посредством подтем P1 (C11, ….Cim) … Pi (Ci1, …Cij...Cim).Что представляют собой тематические элементы подтем Cij по отношению ктематическим элементам основной темы текста?В силу глобальной связности текста в каждой подтеме по крайней мере одинтематический элемент (а часто и больше) должны соответствовать тематическимэлементам основной темы текста.
Тематические элементы подтем могут представлятьсобой прямую отсылку на тематические элементы основной темы в виде точного повтора,синонимического повтора, референциальную отсылку, или обозначать некоторую тесносвязанную с элементом основной темы сущность, например, ее часть, свойство и др.Таким образом, на наш взгляд основная роль лексических цепочек относительнотематической структуры текста состоит в обеспечении представительства тематическихэлементов более высоких уровней иерархии в подтемах более низкого уровня (см.рис.19.1).Отсюда следует, что в «правильной» совокупности лексических цепочек текста, тоесть в лексических цепочках, отражающих тематическую структуру анализируемоготекста, каждому тематическому элементу основной темы текста должны соответствоватьсвои лексические цепочки (которые могут иметь пересечение в некоторых словах).Кроме того, лексические цепочки действительно имеют наиболее важныхпредставителей - это элемент темы более высокого уровня.
Рядовые элементы цепочки –это тематические элементы нижестоящих тем, раскрывающих эту тему.288S1Главная темаR1C1R21R3C2S2C3R2S11R1C21R41C11R31C31Подтема 2C4S3Подтема 1C12R1R21C31Подтема 3Рис.19.1 Тематическая структура текста как иерархия пропозиций темТаким образом, на наш взгляд, по внутренней структуре лексическая цепочкаимеет структуру узла с выделенным центральный элементом и некоторой совокупностьюлексем, связанных с этим центральным элементом.
Назовем лексическую цепочку с такойпредполагаемой структурой тематическими узлом.Среди тематических узлов можно выделить основные тематические узлы илокальные тематические узлы. Основные тематические узлы имеют в качестве центратематические элементы основной темы документа.С другой стороны, пропозиция основной темы документа, то естьвзаимоотношения участников основной темы, также должна находить свое отражение вконкретных предложениях текста, которые должны раскрывать, уточнятьвзаимоотношения между тематическими элементами. Если текст посвящен обсуждениювзаимоотношений между тематическими элементами C1…Cn, то в предложениях текстадолжны обсуждаться детали этих отношений, что проявляется в том, что самитематические элементы C1…Cn или их лексические представители должны встречатьсякак разные актанты одних и тех же предикатов в конкретных предложениях текста.Отсюда следует практический вывод: если даже очень близкие по смыслулексические сущности C1 и С2 часто встречаются в анализируемом тексте в одних и техже простых предложениях, то это означает, что данный текст посвящен рассмотрениюотношений между этими сущностями, то есть С1 и С2 соответствуют разнымтематическим элементам основной темы или подтемы текста и должны быть отнесены кразным лексическим цепочкам (тематическим узлам).Таким образом, «правильные» лексические цепочки, отражающие тематическоесодержание документа должны отвечать следующим условиям:1) лексическая цепочка имеет внутреннюю структуру узла – к одномувыделенному элементу относятся все другие элементы лексической цепочки;2) лексическая цепочка не должна содержать слова и словосочетания, которыечасто встречались в одних и тех же предложениях текста с главным элементомэтой цепочки, поскольку частая встречаемость некоторой лексической единицы289Li с начальным элементом цепочки L0 может означать, что Li и L0представляют собой равноправные элементы основной или локальной темыанализируемого текста;3) значимость цепочки для отражения содержания текста определяется не столькодлиной, покрытием и другими характеристиками цепочки, а тем, насколькочасто элементы этой цепочки встречались с элементами других цепочек в однихи тех же предложениях текста, то есть насколько много пропозиций конкретныхпредложений текста было посвящено обсуждению отношений междуэлементами некоторой совокупности лексических цепочек.19.2.2.
Примеры разбора лексических цепочек сучетом тематической структуры текстаРассмотрим, каким образом выводы предыдущего раздела могут уточнитьпроцедуру выделения лексических цепочек в текстах (*) и (**) из раздела 20.1.При анализе текста (*) возник вопрос, куда отнести слова means, meaning к цепочкеfigure out, think…, или к цепочке text, reader.Учитывая сделанные выводы, можно заметить, что в таком маленьком текстеслова means, meaning трижды встретились в одних и тех же простых предложениях сословами text, reader:what a text meansthe meaning is in the mind of the readerthe meaning lies within the text itselfЭто означает, что данный текст посвящен рассмотрению отношения текст –значение.
Текст и значение представляют собой разные тематические элементы восновной теме текста, и, соответственно, правильная структура лексических цепочекдолжна отнести слова текст и значение к разным лексическим цепочкам.В то же время слова means, meaning не стоит относить и к другой лексическойцепочке figure out, think, поскольку у этих глаголов один из актантов представляет собойклаузы, в которых и упоминаются слова means, meaning, то есть опять же это являетсяцентральной темой фрагмента, что люди думают по поводу значения текста.figure out what a text means…think that the meaning lies within the text itself.‖Таким образом, лексические цепочки данного текста таковы:1) text, reader, text.2) figure out, think3) means, meaning, meaningВ тексте (**) заголовок достаточно подробно называет основные тематическиеэлементы текста: врач (точнее медицинский работник), убить, пациент, наркотик.
И,действительно, мы видим повторяющуюся встречаемость этих тематических элементов водних и тех же предложениях текста:медики по ошибке ввели пациенту смертельную дозу опиоидного наркотикаВрач назначил ему (пациенту) 10 миллиграммов морфина.По ошибке медсестры пациенту был сделан укол гидроморфонаСвою ошибку медики осознали после пересчета наркотических средствТаким образом, в тексте (**) должны быть выделены, по крайней мере, три«медицинские» лексические цепочки:- цепочка «медработники» (врачи, медики, врач, медсестры, медики, медсестра),- цепочка «пациент» (пациент, пациенту, пациент, пациенту, пациента),290цепочка «наркотик» (наркотика, наркотика, морфина, гидроморфона, морфин,препарат, наркотических средств).Кроме того, отдельно может быть выделена лексическая цепочка «больница»(больнице, приемное отделение, больницы, больницу, больнице), элементы которой такжевстречаются в одних и тех же предложениях текста с представителями другихмедицинских цепочек:-в больнице …, где медики по ошибке ввели смертельную дозу опиоидногонаркотика,пациент поступил в приемное отделение больницы,он (пациент) умер после возвращения в больницу,Как сообщают в больнице, укол сделала опытная медсестраТаким образом, анализ предложений текста позволяет выявить, что лучшимпредставлением для отражения содержания этого текста является не одна медицинскаяцепочка, а четыре цепочки, каждая из которых соответствует отдельному тематическомуэлементу данного текста, взаимодействующего с другими тематическими элементами.Рассмотрим другие примеры текстов и их лексические цепочки.На примере нижеследующей пары текстов покажем, что одни и те же слова могутпопасть в одну или разные цепочки в зависимости от основной темы текста.
Текстыпредставляют собой новостные сообщения середины 90-х годов, касающиеся статусаЧеченской республики:(***) Стороны договорились о визите в ближайшее время в Россию министраиностранных дел Ирана. Была там тогда достигнута и договоренность опередаче гуманитарной помощи вынужденным переселенцам из Чечни.Кстати, самолет с 44 тоннами гуманитарного груза на борту как раз иприземлился в тот момент, когда проходила беседа президента и посла вБесланском аэропорту. Они тут же направились к самолету, на "хвосте"которого изображен голубь зеленого цвета. Журналисты уже на ходу задавалисвои вопросы, пытаясь выяснить позицию иранского дипломата в отношениивоенной операции в Чечне.