Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 56
Текст из файла (страница 56)
Результаты сравнения аннотаций, построенных на основелексических цепочек с сумаризатором Microsoft Word.В таблице (14.1) видно, что аннотации, построенные на базе лексических цепочек,в значительной степени ближе к аннотациям, порождаемым людьми.206В работе (Doran и др., 2004) алгоритм автоматического аннотированияBarzilay&Elhadad тестируется на основе внешней задачи, а именно в рамках задачиавтоматического нахождения похожих текстов. Предполагается, что если автоматическаяаннотация хорошо отражает основное содержание документа, то аннотации похожихдокументов будут также похожи, а аннотации разных документов также будутразличаться.Подход Barzilay&Elhadad сравнивался с тремя базовыми подходами: случайнымвыбором предложения, выбором блока первых предложений, выбором предложений наоснове метрики tf.idf.
Тестирование проводилось для разных коэффициентов сжатия от10% аннотации до 60% аннотации. Подход Barzilay&Elhadad уступил базовым подходамтолько 1 раз: при 10% аннотации лучшими были аннотации, построенные на основепервых предложений исходных текстов.В работе (Brunn и др. 2001), аннотации строятся на основе другого родалексических цепочек. Используется «жадный алгоритм» типа (Hirst, St-Onge 1998),который имеет следующие дополнения:- длина пути между элементами цепочки не более 2 отношений,- такие отношения должны быть между всеми элементами цепочки.Наиболее значительное отличие данного подхода от других подходов заключаетсяв том, что делается дополнительный предварительный шаг по отбору существительных –кандидатов для включения в лексические цепочки.
В большинстве подходовпредварительная стадия построения лексических цепочек включает морфологическийанализ и отбрасывание стоп-слов, которые часто дают ошибочные илималоинформативные лексические цепочки. В данной работе проверяется предположение отом, что существительные, находящиеся в подчинительных предложениях, менееинформативны, и их можно не включать в процесс построения лексических цепочек.В работе (Li и др., 2007) исследуется возможность иcпользования лексическихцепочек для построения обзорного реферата по запросу. Построение лексических цепочекпроизводится для получения наиболее сильных цепочек, в терминах работы (Barzilay,Elhadad, 1999).Построение лексических цепочек в этой работе проводится в два этапа.
На первомэтапе строятся отдельные лексические цепочки, на втором этапе построенные лексическиецепочки корректируются.Построение цепочек происходит, начиная с самых частотных синсетов. В начатуюлексическую цепочку вносятся все синсеты, которые могут быть отнесены к синсетамцепочки по принятой мере близости. Этот процесс проводится для наиболее частотнойполовины из всех синсетов-кандидатов, для которых могут быть построены лексическиецепочки. После построения цепочек определяются наиболее сильные цепочки.На втором этапе сильные цепочки, содержащие хотя бы одно общее слово,сливаются в единую лексическую цепочку.Для порождения аннотации по запросу из набора документов извлекаютсяпредложения, имеющие наиболее высокий вес по следующей формуле:Score=P(chain)+P(queries)+P(nameentity),где P(chain) – это сумма весов лексических цепочек, участники которых былиупомянуты в предложениях-кандидатах, P(queries) – это сумма совпадающих слов впредложении-кандидате и формулировке темы запроса, P(nameentity) – это числоименованных сущностей, упомянутых как в предложении-кандитате, так и формулировкезапроса.
В экспериментах были подобраны коэффициенты =0.2, =0.3, =05.Заключение к главе 14Исследователи связного текста выделяют несколько взаимосвязанных между собойвидов связности текста. Среди всех видов связности лексическая связность наилучшим207образом поддается моделированию на основе информации, описанной в тезаурусах ионтологиях.При моделировании лексической связности существенным является неустановление пар лексически связанных слов, а цепочек близких по смыслу слов, такназываемых лексических цепочек. Получение таких лексических цепочек важно не самопо себе, а как шаг к выявлению тематической структуры текста, то есть определениюосновной темы и побочных тем (подтем ) документа.Алгоритмы, основанные на лексических цепочках, использовались при решенииразличных задач автоматической обработки текстов.
Особенно популярны методы,основанные на лексических цепочках, в задаче автоматического порождения аннотацийдля одного и многих документов, поскольку именно в этой задаче особенно важнообеспечить связность порождаемой аннотации. Также лексические цепочки вавтоматическом аннотировании помогают снизить излишние повторы в порождаемыханнотациях.208ЧАСТЬ 4. ТЕЗАУРУС РУТЕЗ209Глава 15. Тезаурус РуТез15.1.
Основные принципы разработки лингвистических ресурсов дляприложений информационного поискаСовременные приложения информационного поиска работают в широкихпредметных областях. Если мы хотим создавать лингвистические и терминологическиересурсы для использования в приложениях информационного поиска, то эти ресурсыдолжны иметь очень широкое покрытие используемой лексики и также иметьвозможность применяться в автоматических режимах обработки документов и запросов.В предыдущих разделах мы рассмотрели различные лингвистические ионтологические ресурсы. Все из них имеют некоторые проблемы при использовании ихкак ресурсов в рамках решения задач информационного поиска.Традиционные информационно-поисковые тезаурусы создавались как инструментдля помощи человеку, их структура направлена на предоставление удобств индексатору(удаление слишком конкретных терминов, удаление близких по смыслу терминов,добавление комментариев по употреблению тех или иных дескрипторов).
В связи с этимприиспользованиитрадиционныхинформационно-поисковыхтезаурусоввавтоматической обработке текстовой информации возникают существенные проблемы. Влитературе предлагается использовать методы машинного обучения для проставлениядескрипторов тезауруса по уже проиндексированному людьми множеству документов,создание которого представляется чрезвычайно дорогой процедурой.Формальные онтологии, одним из провозглашаемых принципов которых являетсянезависимость от конкретного языка, сложно использовать в автоматической обработкетекстов для приложений информационного поиска, поскольку для этого единицыформальной онтологии необходимо связать с единицами конкретного естественногоязыка.
Кроме того, стремление к четкой формализации отношений между понятиями кформальной онтологии чрезвычайно трудно соблюсти в ситуации, когда необходимосоздавать сверхбольшие ресурсы, и, кроме того, приводит к проблемам при установлениисвязей «понятие - языковое выражение».Проблема использования онтологий с большим количеством отношений подобноMikroKosmos или CYC связана с двумя проблемами. Во-первых, для новой предметнойобласти создать такой ресурс чрезвычайно сложно, дорого и требует много времени. Вовторых, большое количество отношений в таких ресурсах может сослужить и плохуюслужбу при обработке текстов, поскольку в конкретном контексте может быть применималишь часть описанных отношений, остальные отношения могут приводить к лишним илиложным выводам. При этом автоматически оценить применимость отношений поконтексту чрезвычайно сложно.Ресурсы типа WordNet создаются для описания лексики языка в соответствии слингвистическими традициями.
Но любая информационная система имеет дела не толькос общей лексикой, но и с конкретными предметными областями и их терминологиями.Анализируя попытки создать терминологические ресурсы на основе WordNet (см. разделы3.3.7, 3.4), следует отметить, что структура WordNet не приспособлена для описаниятерминологий. Раздельное описание частей речи, слишком большой набор несвязанныхмежду собой значений, недостаточная проработанность принципов включениямногословных выражений, - все это приводит к проблемам разработки и использованиятерминологических ресурсов, созданных на базе модели WordNet.Вместе с тем, в каждом из этих типов ресурсов есть те качества, которые должныприсутствовать в большом лингвистическом ресурсе для информационно-поисковыхприложений, и, таким образом, мы считаем, что ресурс для автоматической обработки210текстов в информационно-поисковых приложениях в широких предметных областяхдолжен сочетать принципы различных традиций и методологий:- методологии разработки традиционных информационно-поисковых тезаурусов;- методологии разработки лингвистических ресурсов типа WordNet(Принстонский университет);- методологии созданий формальных онтологий.Поясним необходимость использования этих методологий и их особенностиподробнее.Поскольку важно уметь описывать терминологию широких предметных областей,то необходимо использовать опыт разработки информационно-поисковых тезаурусов, аименно:- информационно-поисковый контекст;- единицы ресурса создаются на основе значений терминов;- описание большого числа многословных выражений, принципы включения(невключения) многословных единиц;- небольшой набор отношений между понятийными единицами.Так как предполагается использовать лингвистический ресурс в автоматическомрежиме обработки текстов, то необходимо использовать методологию разработкилексических ресурсов типа WordNet, в которой важны следующие положения:- понятийные единицы создаются на основе значений реально существующихязыковых выражений;- многоступенчатое иерархическое построение лексико-терминологическойсистемы понятий;- принципы описания значений многозначных слов и выражений.Из методологии разработки формальных онтологий важны следующие положения:- разработка лингвистической онтологии как иерархической системы понятий;- использование для описания отношений формально определяемых отношений сформальными свойствами;- в качестве аксиом (правил вывода) использование свойств транзитивности инаследования таксономических отношений и транзитивности отношенийонтологической зависимости.Именно эти принципы положены в основу разработки нескольких большихресурсов для информационного поиска: Общественно-политического тезауруса, Тезаурусарусского языка РуТез (Loukachevitch, Dobrov, 2002; Лукашевич, Добров 2002), Онтологиипо Естественным наукам и технологиям ОЕНТ (Добров и др., 2005; Добров, Лукашевич,2006) и ряда других.Вышеперечисленные ресурсы имеют одинаковую структуру.