Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 4
Текст из файла (страница 4)
Как и можно ли создавать тезаурусы дляавтоматического индексирования? В книге мы рассмотрим, какие особенности14существующейпарадигмыразработкиинформационно-поисковыхтезаурусовограничивают их использование в автоматических режимах.С 80-х годов 20 века начинает активно обсуждаться парадигма автоматическогоконцептуального индексирования документов, то есть индексирования документов непословным индексом, а концептуальным, в котором синонимы сведены к одной и той жеединице, а многозначные слова и термины разведены к разным концептуальным единицам(Woods, 1997).Такие системы как SCISSORS (Jacobs, Rau, 1990) и FERRET (Mauldin, 1991)реализуют идею концептуального индексирования для узких предметных областей:используются специальные структуры представления понятий и развиваются специальныеалгоритмы для создания концептуального индекса.С опубликованием в 1995 году ресурса английского языка WordNet, структуракоторого представляет собой иерархическую сеть лексикализованных понятийанглийского языка – синсетов, многие исследователи пытались реализовать идеюконцептуального индексирования на базе этого ресурса.Однако изначально WordNet не предназначался для приложений автоматическойобработки текстов, и исследователи в области компьютерной обработки текстоввстретились с многочисленными проблемами, которые затрудняют использование его втаких приложениях.
В частности, в большом числе экспериментов по использованиюзнаний, описанных в WordNet, часто не наблюдалось улучшение характеристикинформационного поиска.Среди наиболее существенных проблем, которыми обычно объясняется такаяситуация, можно отметить следующие: слишком большое количество значений слов,проблемы с автоматическим выбором значения, нехватка отношений между синсетами,другой информации для разрешения многозначности, проблемы собственно описанияотношений между синсетами (какие должны быть, по каким правилам устанавливаться ит.п.).Несмотря на некоторые неудачи использования WordNet в конкретныхприложениях, появление этого ресурса вызвало огромный резонанс в мире.
На базеWordNet выполнены тысячи экспериментов исследователями из многих стран мира,предложены самые разнообразные алгоритмы. Понимание уровня достигнутыхрезультатов, знакомство с описанными в литературе экспериментами очень важно дляисследований в области информационного поиска на базе других тезаурусных ионтологических ресурсов.Так, мы покажем, что после примерно 10 лет исследования применения WordNetдля решения задачи эффективного расширения поискового запроса, в течение которых неудавалось получить устойчивого улучшения качества информационного поиска, в 2004году в трудах конференции SIGIR было опубликовано исследование, в котором былпредложен метод использования информации из WordNet в классическоминформационном поиске для расширения запроса, который улучшил показатели поискапо сравнению с достаточно качественной базовой моделью поиска.Кроме того, формализованное описание лексики английского языка,представленное в WordNet, позволяет в автоматизированном режиме относительно легкостроить словари разного назначения, извлекать те или иные классы слов, что взначительной мере облегчает создание различных словарных ресурсов и внутреннихсловарей информационных систем и систем автоматической обработки текстов.Исследователи из разных стран начали разработку сходных ресурсов для своихязыков.
Согласованные усилия для развития wordnet‘ов были реализованы в такихевропейских проектах как EuroWordNet, BalkaNet, Meaning, в рамках которых былиразработаны wordnet‘ы для голландского, итальянского, испанского, немецкого и другихязыков. Было начато и несколько проектов по созданию русского WordNeta.15Разработчики wordnet‘ов пытались учесть проблемы так называемогоПринстонского WordNet‘a, сделать их более приспособленными к компьютернымприложениям, в том числе и в сфере информационного поиска. Многочисленныепубликации обсуждают возможности кластеризации различных значений в обобщенныезначения, проблемы введения дополнительных отношений в новые ресурсы, появляютсядополнения в уже созданные ресурсы. Так, например, исходный Принстонский WordNetобогатился отношениями между разными частями речи, разметкой по тематическимобластям, словообразовательными отношениями.Другие исследователи изучают возможности более смыслового семантическогопоиска на основе так называемых онтологий – концептуальных описаний знаний опредметных областях и в целом о мире, содержащих совокупности понятий, отношениймежду ними, правил вывода.
Была выдвинута концепция Семантической сети Интернет(Semantic Web), где предполагалось, что качество поиска в Интернет можно значительноулучшить посредством использования таких онтологий.Существует множество разных определений онтологий. Широкие определенияонтологий, позволяющие разные степени формализации описаний, включают в понятиеонтологии и упомянутые выше информационно-поисковые тезаурусы, и тезаурусы типаwordnet.Часть исследователей считает, что онтологии должны описывать знания о мире ибыть независимыми от конкретного языка. Однако для того, чтобы применить такого роданезависимую от языка онтологию в практических задачах информационных технологий,которые во многом связаны с переработкой неструктурированной информации, текстов,необходимо установить отношения между понятиями языковонезависимой онтологии изначениями лексических единиц конкретного естественного языка.
Кроме того, частьисследователей (см. например, (Wilks, 2008)) подвергают сомнению возможностьсоздания большой онтологии совершенно независимо от естественного языка.Онтологии обычно классифицируются на онтологии верхнего уровня,описывающие наиболее общие знания о мире, и предметные онтологии, описывающиезнания о конкретных предметных областях. Так и знания о языке делятся наобщеупотребительные («литературный язык») и терминологию конкретной предметнойобласти.Но какой бы текст, принадлежащий значимой предметной области, мы ни взяли, онвсегда включает и общеупотребительные языковые единицы, и термины даннойпредметной области, а понимание этого текста требует как общих знаний о мире, так изнаний в данной конкретной области. На практике же одни исследователи создаютонтологии верхнего уровня, другие создают онтологии предметных областей,общезначимый язык изучается лингвистами, а термины – языковые единицы конкретныхпредметных областей - исследуются терминологами.
Однако лингвистический ресурс,предназначенный для поддержки автоматической обработки текста в рамках современныхинформационных технологий, должен каким-то образом совмещать эти разные типызнаний.Более того, для удобства создания того или иного терминологического ресурса,онтологии для некоторой предметной области, исследователи, разработчики считают, чтоэта область некоторым образом отделима от других предметных областей. Однакосовременные информационные системы имеют дело со сверхбольшими коллекциямидокументов, значимая часть которых содержит документы, включающие терминологиюразных предметных областей. Так, в экономических документах значимую роль занимаеттерминология правовой области, а в правовых документах- экономическаятерминология, в документах по банковскому делу значимое место занимает терминологияналоговой сферы, бухгалтерии, фондового рынка и т.п.16Таким образом, при всем обилии научной литературы по вопросам построенияинформационно-поисковых тезаурусов, тезаурусов типа WordNet, онтологий открытымиостаются следующие вопросы:- каким образом в прикладных компьютерных ресурсах оптимально сочетатьописание взаимоотношений лексических единиц и описание онтологическихзнаний о мире,- какая модель описания неструктурированной широкой предметной областинаиболее оптимальна для того, чтобы, с одной стороны, создать ее в разумныесроки и охватить всю важную для специалистов терминологию, с другойстороны, чтобы созданная формализованная модель была полезна в широкомкруге приложений информационного поиска и автоматической обработкитекстов,- каким образом оптимально сочетать описание общеупотребительной лексикилитературного языка и терминологии конкретной предметной области вформализованных моделях, предназначенных для компьютерных приложений.В данной книге предлагаются подходы к решению вышеперечисленных вопросов.Книга посвящена описанию опыта автора по созданию сверхбольших лингвистическихресурсов для автоматической обработки текстов в рамках современных информационныхтехнологий и сопоставлению созданных ресурсов и технологий с подобными проектами,развиваемыми в мире.Под руководством и с непосредственным участием автора книги разрабатываютсятакие онтологические ресурсы как Тезаурус русского языка РуТез, Онтология поестественным наукам и технологиям ОЕНТ, созданы ряд онтологических ресурсов вконкретных областях, таких как компьютерная безопасность, авиация, банковское дело,выборы и др.Созданные ресурсы применяются в таких технологиях автоматической обработкитекстов как автоматическое концептуальное индексирование, расширение поисковогозапроса, рубрицирование, автоматическое аннотирование отдельных документов и групптематически близких документов, кластеризация документов.Исследования, связанные с представлением знаний о языке и предметной области,были поддержаны рядом международных и российских научных грантов: грантами ФондаМакАртуров, Фонда Форда, российских научных фондов РФФИ и РГНФ, стипендиямикомпании Яндекс.Созданные ресурсы и технологии использовались в проектах, выполненных дляряда государственных и коммерческих организаций (ФГУП НИИ Восход,Государственная Дума Российской Федерации, Счетная палата Российской Федерации,Банк России, ФСБ, компания Гарант, компания Рамблер Медиа и др.)Материал, изложенный в книге, частично излагался в спецкурсах, читавшихся вМосковском государственном университете на филологическом факультете и факультетеВМиК в 2003-2005 году.Учебный курс, разработанный на основе предварительных материалов книги,вошел в число победителей:- открытого конкурса учебных курсов в области разработки программногообеспечения, организованного компанией Microsoft и факультетомвычислительной математики и кибернетики МГУ им.