1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 15

Файл №844135 1626434812-e667f6b6e7e69d3a0798830a58e9075b (Корнеев, Гареев, Васютьн, Райх - Базы данных) 15 страница1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135) страница 152021-07-162021-07-16СтудИзба

Корнеев, Гареев, Васютьн, Райх - Базы данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 15)

Иерархическая организованность тезауруса и наличие тезаурусных связей позволяет использовать понятия среды дескрипторов и главных дескрипторов (онорных дескринторов) среды для формирования дескрипторных кустов, используемых при автоматическом рубрицировании текстов в данной технологии В целом же комплекс знаний представляет собой иерархическую сеть, полнота и целостность которой поддерживается и отслеживается экспертами. Существует два типа представления рубрик последовательностью опорных дескрипторов в виде булевских нормальных форм: ° дизъюнкция опорных дескрипторов О, г О, ~ ... ч 1з; ° конъюнкция дизъюнкций опорных дескрипторов (Оп ч Э„Н ...

ч О, ) й ... й (О„, ~г 0 Н ... Ч 0 ). Для каждой рубрики рубрикатора может быть выбран свой тип представления. После того как для всех рубрик рубрикатора установлены связи с соответствующими опорными дескрипторами, автоматически определяются рубрики для всех дескрипторов тезауруса. Таким образом, для каждого дескриптора создается список соответствующих рубрик с указанием того, в какую из дизьюнкций рубрики входит данный дескриптор.

Каждая рубрика в данной технологии фиксирует запрос пользователя, который описывается посредством дескрипторов тезауруса. При этом в тезаурусе находится куст дескрипторов, соответствующий данной рубрике, и устанав- Глава 4. Документальные системы 75 (яоЫ (йп (гсксгчс ! ~пса! 1 )евс!гу))) ливается связь между рубрикой и наивысшим дескриптором (опорный дескриптор рубрики) в иерархии дескрипторного куста. Одной рубрике может соответствовать нссколько опорных дескрипторов. Дальнейшее развитие данной технологии состоит в предоставлении пользователю возможности описывать рубрику на ЕЯ.

Суть процесса рубрицирования в рамках данного подхода состоит в выделении из текста опорных дсскрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик. Представленная технология автоматического рубрицирования текстов позволяет классифицировать различные типы текстовой информации, быстро настраиваться на различные рубрикаторы и типы документов. Но и имеет существенные ограничения в своем использовании, так как трудоемкость разработки гезауруса достаточно высока и требует больших временных затрат (от нескольких месяцев до нескольких лет), кроме того, формирование тезауруса производится в соответствии с той или иной предметной областью, что делает невозможным использование одного тезауруса при классификации текстов из различных предметных областей.

Основу методов, использующих продукиионную,иод~чь представления знаний, составляет выделение из текста концепций (или понятий), заранее описанных экспертом, Каждое понятие предметной области описываются экспертом при помощи особой конструкции вЂ” определения понятия, объединяющего в себе набор характерных для данного понятия слов и фраз. Определение понятия представляет собой выражение, записанное на специальном языке, позволяющем объединять эти слова и фразы при помощи стандартных булевых функций. В определении понятия при записи слов и фраз допускается использование символов- шаблонов ( Й, ~ и т.д.), что позволяет отказаться от процедуры морфологического анализа, используемой для нормализации лексики документа.

Поскольку описание понятий производится экспертом вручную, то это не доставляет особых неудобств, зато позволяет значительно повысить производительность. В дополнсние к этим функциям в языке определения понятий может быть предусмотрена возможность введения контекстуальных ограничений, заключающаяся в указании порядка следования слов в тексте, расстояния между словами и т.д.

Кроме того, фразам в определении понятия могут быть назначены экспертные веса, показывающие, насколько каждая из фраз характерна для данного понятия. Ниже приведен пример определения понятия золото; Базы данных. Интеллектуальная обработка информации Процесс рубрицирования разбивается на два этапа, Первым из них является выделение понятий из текста„которое можно представить как процесс распознавания, основывающийся на использовании данных из базы определений.

Решение о наличии понятия в тексте принимается путем вычисления справедливости выражения, определяющего понятие, относительно данного текста. Если выражение справедливо, то считается, что понятие присутствует в тексте. Кроме того, если в определении понятия присутствуют экспертные веса, то вычисляется вес или вероятность появления данного понятия в обрабатываемом тексте с учетом частоты встречаемости фраз в тексте сообщения. На втором этапе принимается решение о принадлежности текста к конкретной рубрике. На его вход поступают выделенные на первом этапе из текста понятия, с возможными весами. Решение принимается на основе нравил рубрицироваиия, которые, так же как и определения понятий, формулируются экспертом заранее с использованием языка правил.

Выражения, записанные на языке правил, схожи с конструкцией ЖФеп в алгоритмических языках программирования. Ф 1ея1 (ог [аа1га11ап-до! 1аг-сопсер11 (аль [до1! аг-сопсер!) [аца1га1!а-сопсер11 (по~ [цв-с!о Наг-сопсерц) (по1 [а-ЙоНаг-сопсерч) ")) ас6оп: (аззяеп ацз$га11ап-до!1аг-са$едогу) ) Язык правил позволяет основывать решения на комбинации понятий, появившихся в тексте. Кроме того, он позволяет учесть вероятность появления, а также положение каждого понятия в тексте. Существует также возможность учета длины сообщения.

Совокупность определений понятий и правил рубрицирования составляет базу правил. (см. рис. 4,3) Разработка базы правил представляет собой очень трудоемкий процесс, требующий привлечения высоко квалифицированных специалистов как в предметной области„так и в области инженерии знаний. Суть этого процесса заключается в обработке большего массива отрубрицированных документов, в ходе юторого для каждой из рубрик выявляются статистические закономерности, основанные на частоте встречаемости слов и фраз, а также совместной частоте встречаемости отдельных из них. Полученные данные затем используются экспертами при выявлении характерных слов и фраз для описания понятий и формирования правил рубрицирования.

Глааа 4. Документальные системы Рис. 4.3. Процесс рубрицированик Преимушествами данного подхода являются высокое качество рубрицирования и высокое быстродействие на тех текстовых потоках, для которых они проектировались. Основными недостатками подобных систем являются, как и в предыдущем случае: ° высокая трудоемкость и значительные затраты, необходимые для разработки системы; жесткая привязка баз знаний и алгоритмов к предметной области, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов. Большинство же систем автоматического рубрицирования текстов требуют более быстрого и дешевого построения.

4.4З.2. Методы, основанные на обучении по примерам Системы автоматического рубрицирования, основанные на обучении по примерам, рассматривают в качестве понятий, которым нужно обучиться, рубрики. Машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную. Можно выделить статистические и нейросетевые методы рубрицирования.

Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектон сравнения, Под терминологическим портретом документа понимают совокупность наиболее важных терминов, содержащихся в тексте документа. В качестве по- Базы данных. Интеыектуальная обработка информации казателя важности термина в документе чаще всего используется частота его встречаемости.

Под терминологическим портретом рубрики понимается набор наиболее характерных для этой рубрики терминов с их весами ~в работах по статистическим моделям рубрицирования под терминологическим портретом рубрики часто понимается множество ее характеристических терминов и частоты их встречаемости в рубрике). Таким образом, семантика рубрики задается однозначно только ее терминологическим портретом. Отметим, что терминологический портрет можно рассматривать как частный случай тезауруса, имеющего более простую модель и допускающего его автоматическое построение и корректировку. Формирование терминологических портретов каждой рубрики производится экспертом не вручную, а с помощью одной из технологий обучения рубрикатора. При этом роль эксперта сводится к формированию для каждой рубрики обучающей выборки вЂ” совокупности максимально коротких фрагментов текстов, содержащих полное и минимально избыточное лингвистическое наполнение одной обучаемой рубрики.

Выделение характеристических терминов для рубрики производится автоматически, на основе их весов, которые могут быть получены в процессе анализа обучающей выборки. Например, и „вЂ” 1одвЂ” Ж„ й у' где Ф вЂ” количество документов в обучающей выборке, принадлежащих рубрике г, ф; количество документов в обучающей выборке, принадлежащих рубрике г и содержащих термин г. Список характеристических терминов рубрики упорядочен по убыванию весов терминов в ней. Таким образом, единую модель для всех рубрик одного рубрикатора можно представить в виде двухмерной матрицы весов (и~, ~. Рубрицирование выполняется по некоторому решающему правилу, учитывающему как важность терминов в документе, так и их веса для рубрик.

Характеристики

Тип файла

DJVU-файл

Размер

10,72 Mb

Материал

Корнеев, Гареев, Васютьн, Райх - Базы данных

Тип материала

Книга

Предмет

Базы данных

Высшее учебное заведение

НГУ

Список файлов книги

korneev-gareev-vasjutn-rajh-bazy-dannyh.zip

1626434812-e667f6b6e7e69d3a0798830a58e9075b.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.