Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 54
Текст из файла (страница 54)
Понятно, что число вариантов цепочекдаже для небольшого текста становится слишком большим. Чтобы снизить числовариантов, в процессе обработки текста для каждой начатой цепочки оценивается ее сила,и в тот момент, когда количество вариантов превышает некоторый порог, удаляютсянаиболее слабые варианты цепочек.Вес лексической цепочки определяется числом элементов цепочки и весомотношений между элементами цепочки. Для повторов и синонимов установлен вес 10, дляантонимов 7, для гиперонимов и холонимов – 4. По завершении обработки текстанаилучшая цепочка определяется как имеющая наибольшее число ребер графа цепочки(отношений между элементами цепочки).В работе было проведено исследование, на основе каких параметров выделенныхлексических цепочек, можно отделить более сильные лексические цепочки, то есть болеехорошо отражающие основное содержание текста.Исследовались такие параметры как:- длина цепочки,- распределение слов цепочки в тексте,- плотность цепочки,- топологию графа,- число повторов слов в цепочках.Было выявлено, что наилучшими показателями силы цепочки являются такиепоказатели как длина цепочки Length, равная числу словоупотреблений в цепочке, ииндекс гомогенности Homogeneity Index, вычисляемый следующим образом:Homogeneity Index=1-(число разных слов в цепочке)/LengthАвторы работы, поэкспериментировав с разными формулами вычисления силыцепочки, остановились на следующей формуле:Score(Chain)= Homogeneity Index*LengthТаким образом, вес цепочки фактически равен числу повторных употреблений словв этой цепочке, и тем самым имеет прямую аналогию с частотой употребления слова втексте.
Снижение веса для цепочек со слишком разнообразным составом, видимо,позволяет снизить ошибки формирования лексических цепочек.Для получения статуса сильной цепочки, которая будет использоваться вдальнейшем анализе, необходимо, чтобы для веса цепочки выполнялось следующеесоотношение:Score(Chain) > Average (Scores)+2* StandardDeviation(Scores)Попытка тестирования качества таких лексических цепочек была выполнена вработе (Silber, McCoy, 2002). Предлагаемый метод тестирования основан наиспользовании аннотаций, созданных людьми.Предполагается, что если лексические цепочки являются хорошим промежуточнымпредставлением для отражения содержания документа, то можно ожидать, чтосуществительные в таких аннотациях используются в том же самом смысле, что исуществительные, сгруппированные в сильные лексические цепочки.
Более того, сильныецепочки должны быть достаточно хорошо представлены в ручных аннотациях.200Для оценки использовался корпус из 10 научных статей, которые снабженыавторской аннотацией, а также 14 глав из 10 университетских учебников, для которыхтакже имеются аннотации.Для каждого документа в корпусе, документ и его аннотация анализировалисьотдельно, и для каждого из них была построены лексические цепочки.
Синсеты (значения)существительных в каждой из цепочек в документе и аннотации были сопоставленымежду собой.Были вычислены следующие метрики:- число и процент сильных цепочек из оригинального текста, представленные ваннотации, то есть процент слов из сильных цепочек, представленных ваннотации в том же смысле, что и в сильной цепочке документа – (аналогичнополноте),- число и процент сильных цепочек из аннотации, представленных в документе(аналогично точности).Авторы получили следующие результаты:- 79.12% существительных из сильных цепочек в документе содержатся ваннотации,- 80.83% существительных из сильных цепочек аннотации содержатся вдокументе.14.2.4 Лексические цепочки: использование частотных ассоциацийМногие исследователи, исследующие лексическую связность на базе WordNet,отмечали, что серьезной проблемой является недостаточность лексических знаний,описанных в WordNet.
В работах (Stokes и др., 2000; Stokes и др., 2004) сделаны усилиядля того, чтобы преодолеть эту проблему.В данных работах предлагается дополнительно использовать следующуюинформацию:- статистические ассоциативные связи слов,- лексические цепочки для собственных имен.Авторы подчеркивают, что одним из важных назначений учета статистическихассоциаций слов является преодоление уже упоминавшейся теннисной проблемы, то естьпроблемы, что в WordNet, слова, относящиеся к одной и той же тематической области,могут располагаться достаточно далеко по иерархии путей. Также авторы отмечаютпроблему нехватки такой информации, как некоторых значений, а также многословныхсочетаний.Для построения ассоциаций слов авторы использовали текстовый корпусконференции TDT (http://projects.ldc.upenn.edu/TDT/), извлекли из него всесуществительные и словосочетания WordNet и собрали информацию о совместнойвстречаемости существительных в пределах текстового окна, состоящего из четырехсуществительных.
Окно было также ограничено границами предложения и документа.Отфильтровав наименее частотные ассоциации, авторы оставили в работе 25032пар, что соответствует 3566 существительным, имеющим в среднем 7 ассоциирующихсяслов.Так, например, были получены следующие биграммы:AIDS: virus 0993, HIV 0.951, patient 0.897, research 0.806, disease 0, 801, infection0.78 и т.д.Понятно, что существенной проблемой совмещения построения лексическихцепочек на основе WordNet и статистических биграмм, является то, что для биграммнеизвестны точные значения слов, для которых существуют такие ассоциации и,следовательно, статистическая связь может быть применена не к тому значению в тексте,что приведет к неправильному включению элементов в цепочку.201Авторы данной работы применяют систему связей в лексической цепочкепредложенных в работе (Hirst, St-Onge, 1998): сверхсильные связи, сильные связи, связисредней силы.Ассоциативные связи между словами, полученные на основе статистическихкритериев считаются самым слабым видом отношений между словами и применяются,если более сильных связей не найдено.Например, для текста, посвященного премьере фильма об убийстве журналистки,получились следующие лексические цепочки (в скобках указывается элемент из цепочки,с которым связан очередной элемент и сила связи):Film – movie (Film, strong) – premiere (film, medium) – subject_matter (film, strong) –actress (movie, strong) – picture (film, strong) – actor (actress, strong) – approval(subject_matter, strong) – story (subject_matter, medium) – director (actor, Statistical) –tribute (approval, strong)Investigation – murder (investigation, strong) – killing (murder, strong) – victim (killing,statistical) - crime (victim, statistical) – life (murder, medium) – loss (life, statistical) –murderer (victim, medium)Для именованных объектов, не входящих в состав WordNet, также предложенасистема отношений разной силы:- отношение полного совпадения: Helmut_Kohl - Helmut_Kohl- частичноепословноесовпадение:Hubble_Telescope–Space_Telescope_Science_Institute,- частично совпадение по фрагменту слова: National_Caver’s_Association –Irish_Cave_Rescue_Organisation.14.2.5.
Лексические цепочки: использованиеинформационно-поисковых тезаурусовО. Медельян (Medelyan, 2007) предлагает использовать недостающее в WordNetситуативное знание на основе информационно-поискового тезауруса (в работеиспользуется тезаурус AgroVoc). Она указывает, что наиболее известные алгоритмыпостроения лексических цепочек слишком зависят от порядка слов в тексте, что несоответствует реальной ситуации, когда одно и то же содержание может быть выражено спомощью по-разному упорядоченных последовательностей предложений. Поэтому вработе предлагается сначала собрать цепочки-кандидаты со всего текста, а затем, получивцелостную картину лексических цепочек-кандидатов текста, применить разбиениеполучившегося графа на наиболее связанные фрагменты.202Рис.
14.3. Разбиение графа на лексические цепочке в работе (Medelyan, 2007)Лексическая цепочка определяется как граф G = (V, E) с узлами vi V,представляющими термины тезауруса и дугами графа (vi , vj , wij ) E, описывающимиотношения между терминами, где wij – это вес, выражающий силу отношения междутерминами.Такой граф строится следующим образом. Как и в предшествующих алгоритмах,цепочки-кандидаты строятся по порядку движения текста.