Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 9
Текст из файла (страница 9)
При таком подходе ассоциативные отношения, выделяемые винформационно-поисковом тезаурусе, будут соответствовать смысловым отношениям,существующим в тексте (Герд, 2005).По текстам также может изучаться совместная встречаемость различных терминовв конкретных текстах, что не является достаточно надежным критерием установленияправильных ассоциативных отношений (Мдивани, 2004).Второй путь – это установление ассоциативных отношений через обращение кэнциклопедиям, терминологическим словарям, справочникам для логического анализаопределений терминов. Вместе с тем в случаях широких предметных областей,неустоявшихся терминологий, определения терминов могут значительно отличаться,отражать разные особенности концепций авторов словарей, что может привести кпоявлению ложных ассоциативных связей в тезаурусе.Серьезной проблемой является также и то, что словарная статья термина в словаре,энциклопедии может упоминать достаточно много других терминов.
Возникает вопрос,какие из них нужно ассоциировать с заглавным термином.Третий путь – обращение к специалистам, которые могут дать обоснованнуюоценку отношениям между терминами.Наконец, на основе всех источников может быть создан четкий перечень наиболееважных смысловых отношенийданной предметной области.
Как ассоциативныеотношения могут рассматриваться лишь те отношения, которые соответствуютсоставленному списку.В целом, можно отметить, что установление отношения АССОЦИАЦИИ, несмотряна все попытки ограничить установление этого отношения, являются наиболеесубъективными (Мдивани, 2004), часто встречается искусственное и надуманноеконструирование ассоциативных отношений (Герд, 2005). Особые проблемыустановления ассоциативных отношений возникают при создании тезауруса для больших,гетерогенных областей, не позволяющих четко зафиксировать типы смысловыхотношений, соответствующих ассоциативным отношениям тезауруса.Из приведенных примеров также очевидно, что хотя отношения ассоциациирассматриваются как симметричные, по сути, многие типы упомянутых отношений явноне симметричны, по крайней мере, в тех случаях, когда в качестве определяемого терминаслужит один из этих терминов.331.3.
Основные принципы разработки тезаурусовПри разработке информационно-поисковых тезаурусов первой задачей являетсяотбор терминов для включения в тезаурус. Существует несколько возможных источниковтерминов для разработки информационно-поисковых тезаурусов.Прежде всего, должны быть изучены существующие тезаурусы в близкихпредметных областях. Они могут содержать значимое количество полезных терминов длянового тезауруса.Термины - кандидаты для внесения в тезаурус могут быть предложены экспертамипредметной области.Кроме того, термины тезауруса могут быть получены из текстов предметнойобласти применением автоматизированных методов или ручной обработки документов.При ручной обработке документов сначала некоторое время индексаторы индексируютпоступающие документы наиболее релевантными ключевыми словами, которые затемсводятся в единый список, которые и может служить основой для тезауруса(Архангельская, Базарнова, 2001; Z39.19).После того, как список терминов-кандидатов получен, из него исключаютсяслишком частотные термины, поскольку предполагается, что они являютсямалоинформативными для различения отдельных документов.
Относительномалочастотные термины могут быть удалены из списка или представлены как аскрипторыболее общих или более частотных понятий.Слишком конкретные термины также могут быть исключены из списка терминовкандидатов, поскольку считается, что если тезаурус содержит слишком много уровнейиерархии, то им трудно управлять, возрастает субъективность индексирования, так какиндексаторы могут использовать для индексирования документов дескрипторы разногоуровня (Z39.19; Герд, 2005).Если в списке обнаруживается несколько близких по смыслу терминов, то из нихвыделяется наиболее представительный термин, остальные термины могут быть частичноисключены и переведены в аскрипторы (Архангельская, Базарнова, 2001).Шемакин Ю.И.
(Шемакин, 1974, стр. 41) подчеркивает, что из синонимическихрядовтезаурусаисключаютсяявныесинонимичныетермины,например,РАЗВЕДЫВАТЕЛЬНАЯ ИНФОРМАЦИЯ – РАЗВЕДЫВАТЕЛЬНЫЕ СВЕДЕНИЯ,НАВИГАЦИОННЫЕ СИСТЕМЫ – СИСТЕМЫ НАВИГАЦИИ. Такая рекомендациясвязана с тем, что эта информация очевидна для человека-индексатора, большоеколичество таких синонимических терминов в тезаурусе может затруднять работучеловека-индексатора.Разработчики тезауруса LIV Исследовательской службы Конгресса США (LIV,1994) описывают правила включения терминов в тезаурус следующим образом:- термины тезауруса должны представлять понятия, которые реальноупоминаются в литературе, и должны отбираться из соображенийэффективности их использования в поиске документов;- важным фактором включения термина является частотность его упоминания втекстах, которую необходимо периодически проверять;- включение новых терминов в тезаурус должно происходить с учетом ужевключенных тезаурусных терминов.
Термины-кандидаты должны проверятьсяна предмет соответствия их общности/специфичности к другим терминамтезауруса. Также должно проверяться, представляет ли термин-кандидатотдельное понятие, которому нет соответствий среди существующих терминовтезауруса. Необходимо избегать включения терминов, чьи значенияпересекаются со значениями уже существующих тезаурусных терминовнастолько, что индексаторам и пользователям будет трудно различать междуними и др.34Таким образом, разработка хорошего информационно-поискового тезаурусапредставляет собой достаточно сложный, многоэтапный процесс, в котором необходимонайти «золотую середину». С одной стороны, набор дескрипторов тезауруса должно бытьдостаточен для описания произвольного документа предметной области, с другойстороны, дескрипторов не должно быть слишком много, поскольку слишком большаявеличина тезауруса повышает субъективность индексирования и затрудняет развитие ииспользование тезауруса.Не случайно, значительная доля информационно-поисковых тезаурусов в самыхшироких областях включает не более 10 тысяч терминов и 6-7 тысяч дескрипторов.Широко известным исключением являются Тезаурус по архитектуре и искусству(Тезаурус AAT), содержащий более 30 тысяч дескрипторов, что, видимо, связано соспецификой соответствующей предметной области, когда нужно индексировать нестолько документы, сколько конкретные музейные предметы.Другим известным исключением, сверхбольшим тезаурусом является тезаурус помедицине MeSH, что связано с гетерогенностью области медицины, состоящей измножества подобластей с собственной терминологией.1.4.
Конкретные тезаурусыРассмотрим принципы устройства и функционирования некоторых известныхинформационно-поисковых тезаурусов. Специфика предметной области каждоготезауруса находит отражение в его структуре.1.4.1 Тезаурус Европейского союза EUROVOCМногоязычный тезаурус EUROVOC разработан специально для содержательнойобработки и поиска документов по всем направлениям деятельности институтов ЕС.Последнее третье издание тезауруса на девяти языках было опубликовано в 1995 году.Тезаурус составлен в соответствии с международными стандартами ИСО 2788-1986 иИСО 5964-1985 и имеет стандартную структуру информационно-поискового тезауруса,предназначенного для ручного индексирования:- термины тезауруса разделены на дескрипторы, которые используются дляиндексирования документов и аскрипторы (условные синонимы), которыевходят в классы условной эквивалентности дескрипторов;- установлены иерархические отношения между дескрипторами (объединяютотношения «род-вид» и «часть целое»);- установлены ассоциативные отношения между дескрипторами;- дескрипторы объединены в более широкие тематические классы, называемыемикротезаурусами.В 2001 году Парламентская библиотека Российской Федерации подготовиларусскую версию тезауруса EuroVoc, которая содержит переводы всех дескрипторовтезауруса EUROVOC, а также более 5 тысяч понятий, отражающих российскуюспецифику (EUROVOC, 2001).1.4.2.
Тезаурус исследовательской службы Конгресса СШАТезаурус Legislative Indexing Vocabulary (далее тезаурус LIV) используется дляиндексирования и поиска законов, законопроектов, политической литературы висследовательской службе Конгресса США (LIV, 1994).Разработка тезауруса была начата в 1967 году. Последняя версия тезауруса LIVбыла подготовлена в 1995 году и включает более 10 тысяч терминов, среди которых около5 тысяч дескрипторов.35Тезаурус включает термины из широкой области общественной жизни, включаякак социальные науки, так и социальные аспекты естественных и прикладных наук.Большое количество предметных областей исследований, проводимых Исследовательскойслужбой, отражаются в смешении в тезаурусе разных типов терминологии - более общейи более конкретной, широко употребляемой и относящейся к более узким предметнымобластям.Дескрипторы тезауруса разбиты на 80 тематических областей, называемых topterms (термины верхнего уровня).1.4.3.
Тезаурус ООН UNBISМногоязычный Тезаурус UNBIS (UNBIS, 1976), созданный Библиотекой им. ДагаХаммаршельда Департамента общественной информации, содержит терминологию,используемую в качестве дескрипторов при анализе документов и других материалов,относящихся к программам и деятельности ООН. Он используется в качестве спискапредметных рубрик Библиографическо-информационной системы ООН (ЮНБИС) ивключен в список тематических терминов Системы официальной документации. Будучимногоотраслевым, тезаурус отражает широкий круг вопросов, которыми занимается ООН;термины тезауруса предназначены для их точного и четкого обозначения с учетомспецифики предмета.В настоящее время тезаурус существует на всех официальных языках ОрганизацииОбъединенных Наций: арабском, китайском, английском, французском, русском ииспанском.1.4.4.
Тезаурус по архитектуре и искусству(Art and Architecture Thesaurus)Тезаурус по искусству и архитектуре (Тезаурус AAT) создается фондом Пола Гетти(www.getty.edu), содержит 34 тысячи понятий (дескрипторов) и 131 тысячу терминов поискусству, архитектуре, архивным материалам и материальной культуре от античности донаших дней.Дескрипторы тезауруса подразделяются на 7 фасетов: ассоциированные понятия,физические свойства, стили и периоды, АГЕНТЫ (люди и организации),ДЕЯТЕЛЬНОСТЬ,МАТЕРИАЛЫ, ОБЪЕКТЫ (Art and Architecture Thesaurus, 1994).Каждый фасет подразделяется на иерархии. Всего насчитывается 33 иерархии.Таким образом, тезаурус AAT отличается, с одной стороны, значительно большейвеличиной, с другой стороны, более строгой организацией в иерархии. Количествоуровней в иерархиях также значительно больше, чем в ранее упомянутых тезаурусах.