1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 13

Файл №844135 1626434812-e667f6b6e7e69d3a0798830a58e9075b (Корнеев, Гареев, Васютьн, Райх - Базы данных) 13 страница1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135) страница 132021-07-162021-07-16СтудИзба

Корнеев, Гареев, Васютьн, Райх - Базы данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Интеллектуальная обработка информации мер: "замок" (дверной) вЂ” "замок" (дворец). Однако, поскольку ДИПС оперируют с сообщениями на естественном языке, представленными в письменной форме, вследствие чего фонетика языка не оказывает решающего влияния на смысл таких сообщений, омографы могут быть приравнены к омонимичным словам. Эллшюность. Во многих сообщениях на ЕЯ встречаются эллипсы или пропуски подразумеваемых слов.

Эллипсность сообщения зачастую играет отрицательную роль при непосредственной работе с ним человека. Очевидно, что она тем более отрицательно скажется в том случае, если сообщения на ЕЯ будут обрабатываться компьютером. 4.3.2. Информационно-поисковые языки Невозможность исполыювания ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств. Информационно-яоискавьии языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска ~141.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности. ИПЯ принято разбивать на два основных типа: ° классификационные языки, ° дескрипторные языки. Принципиальная разница между данными типами языков заключена в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые понятия, заранее включены также словосочетания и фразы, выражающие сложные понятия.

Для записи смыслового содержания сообщений в таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствующего сложного понятия (в виде словосочетания или фразы) из готового набора.

Например: Политика. Внутренняя, Федеральная Политика. Внутренняя. Региональная Политика. Внешняя .. Глава 4. Документальные системы Таким образом, с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозначенным лексическими единицами ~ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных. Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик.

В целом под рубрикатором некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками вЂ” объектами, инкапсулирующие знания о конкретных фрагментах данной предметной области. Все нелистовые вершины являются классификационными родово-видовыми обобщениями листовых вершин и используются лишь при ведении информационного поиска.

Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей. На рис. 4.2 приведен пример рубрикатора некоторой предметной области. Уроеень 1 (знемь~) Уроеень 2 Уровень У-1 Уровень К 1рубрннн3 Рис. 4.2. Пример рубрикатора Следует подчеркнуть одну особенность классификационных языков. Поскольку сложные понятия задаются заранее, до начала процедуры записи сооб- Базы данных.

Интеллектуалаиал обработка ииформации шсний с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых. Другой тип языков составляют дескрипторные ИПЯ, в которых ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции вЂ” предложения или фразы вЂ” создаются в этих языках путем объединения (координации) ЛЕ во время процедуры представления смыслового содержания документов системы.

Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных понятий. Фактически из небольшого числа ЛЕ данные языки позволяют строить предложения, выражающие практически любой смысл. Такие ИПЯ носят также название посткоординируемых, поскольку координация между словами предложения возникает во время его записи. Различают дескрипторные ИПЯ с гралтапгикой и без грилтатики.

Первые характеризуются наличием ряда жестких правил формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: "Иванов владеет автомобилем" может выглядеть так: "владеть Иванов автомобиль". В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП нс играет роли. Т.е.

приведенный выше пример может быть одинаково представлен последовательностями "владеть Иванов автомобиль", "Иванов владеть автомобиль" и т.п. Кроме того, различают дескрипторные ИПЯ с контролируаиой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.

4.4. Обработка входящей текстовой информации Т.к. документы, поступающие на вход ДИПС, записаны на ЕЯ, в ней обязательно должна проводиться операция перевода текстов входных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора вЂ” рубрицированием. На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю.

При их использовании говорят о полнотекстово и индексировании. Глава 4. Документальные системы В операции перевода можно выделить два этапа: 1. Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. 2. Выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД), Этап анализа смыслового содержания текста связан с необходимостью ис- пользования лингвистических и экстралингвистических знаний. Лингвистичес- кие знания являются общими для одного языка и на сегодняшний день являют- ся достаточно хорошо формализованными, в то время как экстралингвистичес- кие сильно зависят от конкретной предметной области, а задача их формализа- ции является одной из самых сложных.

В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвисгическому анализу, прово- димому с целью нориализаиии слов н словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существи- тельных вЂ” именительному падежу, единственному числу и т.п.), под нормали- зацией словосочетаний вЂ” нормализация составляющих и запись их в опреде- ленной последовательности (например, сначала записывается основное слово, а затем вЂ” зависимые слова).

Нормализованные слова и словосочетания часто называют терминами. 4.4.1. Лингвистический анализ текста Лингвистический анализ текста может состоять из двух этапов: 1. морфологического анализа; 2. синтаксического анализа. Цель морфологического анализа состоит в получении основ (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (например, часть речи, род, число, падеж) для каждой из словоформ.

Различают точные и приближенные методы морфологического анализа. Точных методы базируются на использовании словаря основ слов или словоформ, приближенные вЂ” на экспериментально установлснной связи между конечными буквосочетаниями словоформ и их грамматической информацией. Использование словаря словоформ в точных методах позволяет легко преодолеть трудности морфологичсского анализа, связанные с такими явлениями в русском языке, как, например, чередование гласных и согласных. При таком подходе задача получения основ слов и грамматических признаков сводится в основном к поиску в словаре и выбору соответствующей информации (собственно же морфологический анализ требуется лишь в том случае, если слово- Базы данных. Ино~еллектуальнаи обрабопта информации форма не найдена в словаре).

При достаточно полном словаре скорость обработки материала достаточно высока, но объем необходимой памяти в 2 вЂ” 3 раза больше, чем при использовании словаря основ. Морфологичсский анализ с использованием словаря основ базируется на флективном анализе, цель которого вЂ” правильное выделение основы слова. Основная трудность при использовании данного подхода связана с явлением омонимии основ слов. Для ее устранения проверяется совместимость выделенной основы слова и его окончания.

Характеристики

Тип файла

DJVU-файл

Размер

10,72 Mb

Материал

Корнеев, Гареев, Васютьн, Райх - Базы данных

Тип материала

Книга

Предмет

Базы данных

Высшее учебное заведение

НГУ

Список файлов книги

korneev-gareev-vasjutn-rajh-bazy-dannyh.zip

1626434812-e667f6b6e7e69d3a0798830a58e9075b.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.