Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 10
Текст из файла (страница 10)
Нанаш взгляд, это объясняется тем, что основным назначением тезауруса являетсяиндексирование не только документов по культуре и искусству, но и собственномузейных объектов, что требует большого количества конкретных сущностей. При этомтакая направленность тезауруса носит более структурированный характер, чем широкиеобласти ранее упомянутых тезаурусов.Каждому дескриптору может соответствовать несколько терминов (аскрипторов),которые включают термины в различных грамматических числах, термины винвертированном порядке, варианты написания термина, а также синонимы различногопроисхождения.
Наличие большого количества морфологических форм терминов неменее, чем в два раза завышает число терминов, описанных в тезаурусе.Дескрипторы тезауруса снабжены стандартными для тезаурусов отношениямиВЫШЕ-НИЖЕ и АССОЦИАЦИЯ.Основное внимание разработчики уделили установлению для каждого дескриптораотношения ВЫШЕ. Для некоторых дескрипторов описаны два отношения ВЫШЕ, одно изкоторых считается основным, другое вспомогательным.36При описании отношений НИЖЕ, если имеется несколько основанийклассификации, то под каждое основание классификации заводится отдельныйдескриптор. Например, =вместилища= делятся по форме (=мешки=, =бочки=, =ящики= ит.п.), =вместилища по функции= (=вместилища для церемоний=, =вместилища.
дляденег=, =вместилища для тканей= и т.п.), =вместилища по расположению= (=седельныесумки=, =настенные сумки= и др.). Отношения АССОЦИАЦИЯ занимают относительнонебольшой процент всего набора отношений тезауруса AAT.Авторы тезауруса считают, что наиболее полное покрытие тезаурус обеспечиваетдля искусства Западной Европы и Америки.Пример словарной статьи:athletic shoes (спортивные ботинки)Note: Shoes designed to be worn for sports (ботинки, предназначенные для спорта)Terms:athletic shoesathletic shoetrainers (athletic shoes)trainershoes, athleticshoes, sportshoes, trainingsport shoestraining shoesHierarchical position (позиция в иерархии):<shoes by function>, (ботинки по функции)shoes (footwear), (ботинки)<footwear by form>, (обувь по форме)<accessories worn on the legs or feet>, (аксессуары, носимые наногах)<costume accessories worn>,(носимые аксессуарыкостюма)<costume accessories>, (аксессуары костюма)costume, (костюм)Furnishings and equipment,Objects facet.В последнее время разработчики тезауруса вместо обобщенного отношенияассоциации стали использовать конкретные виды семантических отношений, например,понятие embroidery (visual works) (вышивка (продукт труда)) связано с понятиемembroidering (вышивание) отношением «activity/event producing is»:embroidery (visual works)activity/event producing isembroideringВсего предлагается использовать около 40 различных семантических подвидовотношения ассоциации.1.4.5.
Тезаурус в области медицины MeSHТезаурус MeSH развивается Национальной медицинской библиотекой США дляиндексирования и поиска документов в медико-биологической сфере (Medical SubjectHeadings, 1992). В настоящее время (2009) год тезаурус содержит более 25 тысяч37дескрипторов. Дескрипторы снабжены толкованиями и списком синонимов или близкихпо смыслу терминов (entry terms).Отношения между дескрипторами могут быть иерархическими – такие отношенияпредставлены в виде иерархических деревьев – и ассоциативными. Расположение в дереверазмечается посредством специальных меток – номеров в дереве, и каждый дескрипторможет входить в несколько деревьев, то есть ему сопоставлено несколько таких номеров.На рис.
1.1. показана словарная статья дескриптора ВОСПАЛЕНИЕ ЛЕГКИХ. Данныйдескриптор относится к двум иерархическим деревьям – одно дерево ЛЕГОЧНЫЕЗАБОЛЕВАНИЯ, второе – РЕСПИРАТОРНЫЕ ИНФЕКЦИИ.Рис.1.1. Словарная статья тезауруса MeSHНомера дескриптора в иерархических деревьях могут изменяться с развитиемтезауруса, при этом каждый дескриптор имеет уникальный идентификационный номер,который остается неизменным в течение всего времени существования дескриптора.На верхнем уровне иерархии тезауруса находится 16 дескрипторов: АНАТОМИЯ,ОРГАНИЗМЫ, БОЛЕЗНИ, ХИМИЧЕСКИЕ ВЕЩЕСТВА И ЛЕКАРСТВА, МЕТОДЫ ИОБОРУДОВАНИЕ, ПСИХИАТРИЯ И ПСИХОПАТОЛОГИЯ ...
ПЕРСОНЫ, ГЕОГРАФИЯи др.В тезаурусе также имеется стандартный набор квалификаторов (allowablequalifiers), которые могут быть добавлены к дескриптору для сужения тематики,например, BS – кровоснабжение, PP – физиопатология, MI – Микробиология и др. Такиеквалификаторы особенно важны в многотематических документах, в которыхупоминается много понятий в разных аспектах, тогда посредством квалификаторов можноточнее определить, какое понятие с какой точки зрения рассматривается.Таким образом, в тезаурусе MESH, как и тезаурусе AAT достаточно большойобъем дескрипторов сочетается со значительной структурированностью ииерархичностью, что, несомненно, также связано с особенностями предметной областитезауруса.381.5. Правила индексирования документов дескрипторамиинформационно-поискового тезаурусаРассмотрим особенности применения информационно-поисковых тезаурусов дляручного индексирования документов экспертами-индексаторами.Правила индексирования документов регулируются несколькими ГОСТами (ГОСТ7.66-92; ГОСТ 7.59-2003).
Приведем некоторые нормативные положения, регулирующиепроцесс ручного индексированияПод индексированием понимается выражение содержания документа и/или смыслаинформационного запроса на информационно-поисковом языке. Для обеспеченияэффективного информационного поиска основное содержание документа (а принеобходимости - его форму и назначение) следует представлять с необходимой идостаточной полнотой и точностью в поисковом образе документа (ПОД) в виде терминовиндексирования.Индексирование следует проводить на основе непосредственного анализадокумента с учетом характера информационно-поискового массива, элементом которогостановится ПОД, характера информационных потребностей пользователей даннойинформационно-поисковой системы (ИПС), в соответствии с общими принципамииндексирования и особенностями их применения в конкретной организации.Одним из основных методов индексирования является так называемоекоординатное индексирование, то есть индексирование, цель которого состоит вовсестороннем отражении содержания документа или запроса путем включения впоисковый образ всех необходимых для этого терминов индексирования.Метод координатного индексирования базируется на представлении о том, чтоосновное смысловое содержание документа может быть с достаточной степенью точностии полноты выражено набором ключевых слов, содержащихся в индексируемом тексте.Координатное индексирование может быть свободным или нормализованным(контролируемым).
Свободное координатное индексирование означает индексированиеключевыми словами, выбранными непосредственно из полного текста документа ипредставленными в ПОДе в терминологии автора без нормализации, с минимальнымконтролем над лексикой и без учета того, какие ключевые слова уже использовалисьранее для индексирования таких же или близких по смыслу документов.При нормализованном индексировании поисковый образ документов составляетсяиз дескрипторов нормализованного списка – тезауруса.Процесс нормализованного индексирования включает следующие этапы, которыеосуществляют в указанной ниже последовательности:- анализ и определение содержания документа, как объекта индексирования;- выбор понятий, характеризующих основное содержание документа;- выбор терминов индексирования для обозначения понятий;- формирование поискового образа документа из терминов индексирования.Число характеристик и понятий, отраженных в ПОД, определяет его полноту иявляется важнейшим показателем качества индексирования.
В ПОДе необходимо отразитьвсе понятия, которые могут иметь ценность для пользователей системы. В документеможет быть выявлено более одной темы из сферы интересов пользователей.Число терминов индексирования, приписываемых одному документу, определяетсяколичеством сведений, содержащихся в документе.
Ограничение числа терминов должнобыть основано на содержательном отборе наиболее важных понятий.Полнота индексирования, принятая в каждой информационно-поисковой системе,определяется ее функциональным назначением. Объем документа также сильно влияет наполноту индексирования. Необходимо учитывать указанные факторы и на их основепроизводить экспертный отбор понятий из документа, не стремясь включить в ПОД всеупомянутые в нем понятия.39Поскольку понятия, упоминаемые в документе, могут быть разной значимостиотносительно его основного содержания, в ГОСТе 7.66-92 обсуждаются возможностипроставления весов для дескрипторов индексатором: информационный вес терминаиндексирования отражает в ПОД важность данного понятия для данного документа.Число градаций информационного веса определяется потребностями конкретнойпоисковой системы.
Важными категориями дескрипторов в документе, которые следуетразличать, являются:- понятия, выражающие главную тему документа;- понятия, выражающие побочные темы документа;- понятия, использованные в документе как вспомогательные для изложения егосодержания.Допускается использовать указатель отрицательного веса, которым помечаюттермины индексирования для указания на то, что данное понятие не рассматривается вдокументе.В качестве примера инструкции, регулирующей индексирование по конкретномуинформационно-поисковому тезаурусу,рассмотримположения,принятыевинформационной службе ООН, в которой для индексирования используется тезаурусUNBIS (см.
раздел. 1.4.3) (UNBIS Guidelines, 2009).В документах службы отмечается, что для определения основного содержаниядокумента не является достаточным просматривание только заголовков документов.Нужно дополнительно обращать внимание на заголовки подразделов, на рефераты,содержание, названия глав, введение и заключение, приложения.Индексаторы должны выбирать понятия, которые наилучшим образом выражаютосновное содержание текста.
В дополнение к определению основных тем документа,процесс индексирования включает определение подтем, которые могут быть полезны впоиске специальной информации или для уточнения каких-либо аспектов основных темдокумента. При этом индексатор должен учитывать интересы потенциальных клиентов изапросы, которые они могут задать. Индексаторы должны задавать следующие вопросы:- Какие понятия документа могут быть интересны пользователяминформационной системы?- Какие термины индексирования и их комбинации лучше всего отвечаютосновным направлениям поиска?Индексаторы должны учитывать, что в тексте могут быть просто упоминаемыесущности или примеры и не индексировать такие сущности. Для этого полезно задаватьсебе следующие вопросы:- Является ли эта сущностей темой документа, или это простое упоминание?- Найдет ли пользователь, ищущий по этой теме достаточно информации втексте, чтобы оправдать выбор этого понятия как темы текста?При переводе сформулированной темы на язык дескрипторов тезаурусаиндексаторы должны выбрать наиболее соответствующий и наиболее специфичныйдескриптор тезауруса.
При этом индексатор должен осознавать, что слова документамогут отличаться от терминов тезауруса. Например, документ может обсуждать проблемыкоренных народов Америки (indigenous peoples of the Americas), но наиболее подходящийтермин тезауруса будет AMERINDIANS, а не INDIGENOUS PEOPLES. Документ можетотноситься к статистическим данным, но дескриптор STATISTICAL DATA тезаурусаUNBIS используется только, когда документ действительно использует статистическиеданные, иначе используется дескриптор STATISTICS.
Документ, обсуждающий нефтьOIL, может использовать термин OIL INDUSTRY, но индексатор должен знать, что втезаурусе UNBIS дескриптор OIL INDUSTRIES относится только к промышленности поизвлечению масла из растений, а для переработки нефти нужно использовать дескрипторPETROLEUM INDUSTRY. Индексаторы должны проверять комментарии к дескрипторам,чтобы удостовериться, что они проиндексировали текст правильно.40Документ информационной службы ООН обращает внимание на сложностьиндексирования больших документов, в которых главная тема документа развиваетсябольшим количеством более специфичных тем, которые также хотелось бы отразить прииндексировании документа. С 1999 года индексаторы могут применять ранжированноеиндексирование, присваивая ранг 1 понятиям основной темы документа и величину 2вторичным сущностям.