Главная » Просмотр файлов » 1626434812-e667f6b6e7e69d3a0798830a58e9075b

1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 14

Файл №844135 1626434812-e667f6b6e7e69d3a0798830a58e9075b (Корнеев, Гареев, Васютьн, Райх - Базы данных) 14 страница1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135) страница 142021-07-16СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 14)

В основе приближенных методов морфологического анализа лежит гипотеза, согласно которой по конечным буквам и буквосочетаниям можно практически однозначно определить грамматический класс слова. Основа слова выделяется следующим образом — от конца слова последовательно отсосдиняется по 1-й букве и полученные буквосочетания сравниваются со списком окончаний, соответствуюших данному грамматическому классу. Как только появится совпадение, делается вывод о том, что оставшаяся часть слова — его основа.

Для анализа обычно хватает биграмм, триграммы и четырехграммы используются редко. В результате проведения морфологического анализа могут возникать неоднозначности при определении грамматической информации, которые снимаются после проведения синтаксического анализа. Задачей синтаксического анализа является осушествление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи по управлению в виде дерева зависимостей, Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном языке и собственно алгоритма синтаксического анализа, т.с. набора стандартных операторов, обрабатывающих текст на основе этих знаний.

Источником знаний (грамматических) являются данные, полученные в результате морфологического анализа, а также различные таблицы, которые априорно заполнены стандартным образом и представляют собой результат эмпирической обработки текстов на ЕЯ человеком с целью выделения опредсленных закономерностей, необходимых для проведения синтаксического анализа.

Основу этих таблиц составляют совокупности конфигураций или наборы валентпостей (синтаксических и семантико-синтаксических), представляющих собой списки лексических единиц с указанием для каждой из них всех возможных вариантов связей с другими единицами выражения на ЕЯ ~т.е. потенциальных связей).

При практической реализации синтаксического анализа стараются добиваться полной независимости правил переработки данных таблиц от их содержимого, чтобы изменение в случае необходимости этого содержимого не влекло за собой перестройку самого алгоритма Более подробно см. книгу 1151. Глава 4. Долменлипьные сиспияы 4.4.2.

Автоматическое индексирование Автоматическое индексирование документов может основываться на простых, однословных или многословных составных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы более осмысленны, обладают большей дискриминирующей мощью. Для генерации фраз может использоваться как синтаксический анализ, так и ряд эвристических алгоритмов. Ниже приведено описание одного из них. Предположим, что термин-фраза состоит из основы фразы (обычно это ес главная часть) и остальных компонентов. Термин с частотой вхождения в документы, превышающей установленный порог, например ЙГ> 2, отмечается как основа фразы.

Другими компонентами фразы должны быть термины со средней или низкой частотой вхождения. При этом учитывается их связь с основой фразы, например, размещение их в одном предложении или на некотором заданном расстоянии друг от друга. Для генерации групп взаимосвязанных слов по замеченным закономерностям совместного их вхождения в документы применяются методы группирования или кластеризации терминов.

Если представить матрицу терминов-документов в виде двухмерного массива, то вышеупомянутый метод сравнивает друг с другом столбцы матрицы и делает заключение о том, входит ли та или иная группа терминов в несколько документов совокупности. Если такое неоднократное вхождение имеет место, то термины считаются связанными и группируются в один класс. Простые и составные термины, выполняющие чисто грамматическую функцию, заносятся в так называемые списки исключения и удаляются. Основу современных методов автоматического индексирования составляет присваиванис весовых коэффициентов терминам на основе статистических характеристик. Предположим, что в исследуемой совокупности имеется Ж документов.

Пусты~', — частота вхождения термина Т в документ О,. Индексирование на основе частоты термина позволяет достичь лишь одной из целей индексирования — полноты поиска. Между тем термины, сконцентрированные в отдельных документах совокупности, можно использовать для повышения точности поиска. Это позволит отделить документы, где такие термины встречаются, от тех, где их нст. Пусть ф — число документов, в которых встречается термин У; Тогда всли- 1' У чина! од(Эйф) может служить хорошим индикатором того, является ли термин Т, дискриминатором документов. Базы данных.

Интеллектуальная обработка информации Частоту термина и полученную выше величину можно объединить в рамках единой модели индексирования по частоте (здесь и .. обозначает вес терми»т на Т в документе В„). и», = (1, 10К9И9. Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у множеств терминов двух документов, тем ближе расположены соответствующие точки в пространстве документов ~иными словами, повышается плотность точек в пространстве документов), и наоборот.

В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его введение увеличивает среднее расстояние между документами. Другими словами, термин с хорошими дискриминирующими качествами снижает плотность в пространстве документов. Дискриминирующая характеристика термина Т,, обозначаемая е~к, вычисляется как разность между плотностями пространства документов до и после введения термина Т. Оказалось, что часто встречающиеся термины имеют отрицательные значения дискриминирующих характеристик, термины со средней частотой — положительные, а для редко встречающихся терминов эти значения близки к нулю.

Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания, основанную на выражении и», =фЬ», Полученные значения весов терминов могут использоваться в процессе принятия решения о включении каждого из терминов в ПОД. Однако чаще решение не принимается, а в ПОД заносятся все термины, встретившиеся в документе, и их веса. 4.4.3.

Автоматическое рубрицирование В современных исследованиях по данной проблеме выделяют два основных подхода ~18]: рубрицирование, основанное на знаниях, и рубрицирование, основанное на обучении по при,мерам. Глава 4. Докумектальные системы 4.4.3.1. Методы автоматического рубринирования, основанные на знаниях В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками.

Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети (см. 1181) и продукционная модель (см. ~171). В первом случае знания о предметной области описываются независимо от рубрикатора в специального вида тезаурусе, который связывается с одним или более рубрикаторами гибкой системой отношений.

Под тезаурусом понимается иерархическая сеть понятий и отношений между ними. Тезаурус может быть разработан независимо от какой-либо системы рубрицирования. В нем могут быть накоплены разнообразные варианты представления в тексте понятий предметной области (дескрииворов). В качестве вариантов (синонимов или эквивалентов) дескрипторов в тезаурусе встречаются именные и глагольные группы, отдельные существительные, прилагательные или глаголы.

Тезаурус может быть разработан в полуавтоматическом режиме. Например„ сначала обрабатывается совокупность документов большого объема при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. Затем выбранные группы слов исследуются экспертами и принимается решение относительно того: ° может ли данная группа слов быть включена в тезаурус (в этом случае она становится термином); ° является ли данный термин дескриптором или синонимом другого дескриптора; ° как должны быть описаны отношения данного термина, Кроме того, в комплекс знаний могут также быть включены дополнительные базы данных, например: географическая база данных, содержащая описания географических объектов, база данных организаций, персоналий и т.д.

Тезаурус и базы данных имеют одну структуру и состоят из следующих частей: 1, Дескрипторов, которые соответствуют понятиям или конкретным обьекгам. Обычно дескриптором является существительное или именная группа. 2. Каждый дескриптор имеет совокупность текстовых входов или синонимов. Текстовый вход может быть существительным, прилагательным или Базы данных. Интеллектуальная обработка информации группой существительного. Одно слово может быть синонимом различных дескрипторов. Устранение смысловой неоднозначности производится во время автоматического обработки документа.

3. Отношения между дескрипторами внутри каждой базы данных, например: ° более широкий термин (выше); ° более узкий термин (ниже); ° связанный термин (ассоциация); ° целое для термина (часть); ° часть для термина (целое). 4. Отношения между дескрипторами различных баз данных. В данном случае добавляется отношение — "равенство термина", которое появляется, когда базы данных содержат дескрипторы, соответствующие одному понятию или объекту. Дескриптор 01 находится в дескринторной среде дескриптора О, если между 01 и 0 существует дескрипторное отношение или существует транзитивная зависимость. Дескриптор Э называют главнььи дескриптором среды.

Характеристики

Тип файла
DJVU-файл
Размер
10,72 Mb
Тип материала
Предмет
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6529
Авторов
на СтудИзбе
301
Средний доход
с одного платного файла
Обучение Подробнее