1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 15
Текст из файла (страница 15)
Иерархическая организованность тезауруса и наличие тезаурусных связей позволяет использовать понятия среды дескрипторов и главных дескрипторов (онорных дескринторов) среды для формирования дескрипторных кустов, используемых при автоматическом рубрицировании текстов в данной технологии В целом же комплекс знаний представляет собой иерархическую сеть, полнота и целостность которой поддерживается и отслеживается экспертами. Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм: ° дизъюнкция опорных дескрипторов О, г О, ~ ... ч 1з; ° конъюнкция дизъюнкций опорных дескрипторов (Оп ч Э„Н ...
ч О, ) й ... й (О„, ~г 0 Н ... Ч 0 ). Для каждой рубрики рубрикатора может быть выбран свой тип представления. После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизьюнкций рубрики входит данный дескриптор.
Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанав- Глава 4. Документальные системы 75 (яоЫ (йп (гсксгчс ! ~пса! 1 )евс!гу))) ливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор рубрики) в иерархии дескрипторного куста. Одной рубрике может соответствовать нссколько опорных дескрипторов. Дальнейшее развитие данной технологии состоит в предоставлении пользователю возможности описывать рубрику на ЕЯ.
Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дсскрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик. Представленная технология автоматического рубрицирования текстов позволяет классифицировать различные типы текстовой информации, быстро настраиваться на различные рубрикаторы и типы документов. Но и имеет существенные ограничения в своем использовании, так как трудоемкость разработки гезауруса достаточно высока и требует больших временных затрат (от нескольких месяцев до нескольких лет), кроме того, формирование тезауруса производится в соответствии с той или иной предметной областью, что делает невозможным использование одного тезауруса при классификации текстов из различных предметных областей.
Основу методов, использующих продукиионную,иод~чь представления знаний, составляет выделение из текста концепций (или понятий), заранее описанных экспертом, Каждое понятие предметной области описываются экспертом при помощи особой конструкции — определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединять эти слова и фразы при помощи стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов- шаблонов ( Й, ~ и т.д.), что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа.
Поскольку описание понятий производится экспертом вручную, то это не доставляет особых неудобств, зато позволяет значительно повысить производительность. В дополнсние к этим функциям в языке определения понятий может быть предусмотрена возможность введения контекстуальных ограничений, заключающаяся в указании порядка следования слов в тексте, расстояния между словами и т.д.
Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия. Ниже приведен пример определения понятия золото; Базы данных. Интеллектуальная обработка информации Процесс рубрицирования разбивается на два этапа, Первым из них является выделение понятий из текста„которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений.
Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения. На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами. Решение принимается на основе нравил рубрицироваиия, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил.
Выражения, записанные на языке правил, схожи с конструкцией ЖФеп в алгоритмических языках программирования. Ф 1ея1 (ог [аа1га11ап-до! 1аг-сопсер11 (аль [до1! аг-сопсер!) [аца1га1!а-сопсер11 (по~ [цв-с!о Наг-сопсерц) (по1 [а-ЙоНаг-сопсерч) ")) ас6оп: (аззяеп ацз$га11ап-до!1аг-са$едогу) ) Язык правил позволяет основывать решения на комбинации понятий, появившихся в тексте. Кроме того, он позволяет учесть вероятность появления, а также положение каждого понятия в тексте. Существует также возможность учета длины сообщения.
Совокупность определений понятий и правил рубрицирования составляет базу правил. (см. рис. 4,3) Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечения высоко квалифицированных специалистов как в предметной области„так и в области инженерии знаний. Суть этого процесса заключается в обработке большего массива отрубрицированных документов, в ходе юторого для каждой из рубрик выявляются статистические закономерности, основанные на частоте встречаемости слов и фраз, а также совместной частоте встречаемости отдельных из них. Полученные данные затем используются экспертами при выявлении характерных слов и фраз для описания понятий и формирования правил рубрицирования.
Глааа 4. Документальные системы Рис. 4.3. Процесс рубрицированик Преимушествами данного подхода являются высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались. Основными недостатками подобных систем являются, как и в предыдущем случае: ° высокая трудоемкость и значительные затраты, необходимые для разработки системы; жесткая привязка баз знаний и алгоритмов к предметной области, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов. Большинство же систем автоматического рубрицирования текстов требуют более быстрого и дешевого построения.
4.4З.2. Методы, основанные на обучении по примерам Системы автоматического рубрицирования, основанные на обучении по примерам, рассматривают в качестве понятий, которым нужно обучиться, рубрики. Машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную. Можно выделить статистические и нейросетевые методы рубрицирования.
Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектон сравнения, Под терминологическим портретом документа понимают совокупность наиболее важных терминов, содержащихся в тексте документа. В качестве по- Базы данных. Интеыектуальная обработка информации казателя важности термина в документе чаще всего используется частота его встречаемости.
Под терминологическим портретом рубрики понимается набор наиболее характерных для этой рубрики терминов с их весами ~в работах по статистическим моделям рубрицирования под терминологическим портретом рубрики часто понимается множество ее характеристических терминов и частоты их встречаемости в рубрике). Таким образом, семантика рубрики задается однозначно только ее терминологическим портретом. Отметим, что терминологический портрет можно рассматривать как частный случай тезауруса, имеющего более простую модель и допускающего его автоматическое построение и корректировку. Формирование терминологических портретов каждой рубрики производится экспертом не вручную, а с помощью одной из технологий обучения рубрикатора. При этом роль эксперта сводится к формированию для каждой рубрики обучающей выборки — совокупности максимально коротких фрагментов текстов, содержащих полное и минимально избыточное лингвистическое наполнение одной обучаемой рубрики.
Выделение характеристических терминов для рубрики производится автоматически, на основе их весов, которые могут быть получены в процессе анализа обучающей выборки. Например, и „вЂ” 1од— Ж„ й у' где Ф вЂ” количество документов в обучающей выборке, принадлежащих рубрике г, ф; количество документов в обучающей выборке, принадлежащих рубрике г и содержащих термин г. Список характеристических терминов рубрики упорядочен по убыванию весов терминов в ней. Таким образом, единую модель для всех рубрик одного рубрикатора можно представить в виде двухмерной матрицы весов (и~, ~. Рубрицирование выполняется по некоторому решающему правилу, учитывающему как важность терминов в документе, так и их веса для рубрик.