Диссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных), страница 6

PDF-файл Диссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных), страница 6 Технические науки (19643): Диссертация - Аспирантура и докторантураДиссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анал2018-01-18СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных". PDF-файл из архива "Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 6 страницы из PDF

С учётом исключения из 178 сущностей предметной областиосталось 113. Экспериментальные данные включали 56020 корреляций междуалфавитом и объектами сущностей предметной области при различныхискажениях алфавита и данных.2. Исследование ошибок ложного обнаружения, возникающих из-за того,что количество отсутствия лексем алфавита в объектах другой сущностипредметной области пропорционально их встречи в объектах поисковой сущностипредметной области, что даёт коэффициент корреляции Пирсона >= 0,7 [70].Пример данных такого случая представлен в таблице 1.6.34Таблица 1.6Пример корреляционных данных с номером id = 304546 между даннымисущности предметной области с № 162 и алфавитом сущности с № 50,приводящих к ложному обнаружениюлексемаколичествовстреч вобъектахчастоты валфавитеinRingsArbered_olTsErs200001000432222222Указанные данные дают максимальный (0,8838) и минимальный (0,7499)коэффициенты корреляции больше 0,7, что приводит к ложному обнаружению.Чтобы избавится от такого рода ошибок, необходимо учитывать количествоненулевых значений встречи лексем алфавита в объектах исследуемой сущностипредметной области.Экспериментальные данные по ложным и правильным обнаружениям для113 сущностей предметной области с учётом количества ненулевых встреч лексемалфавита в объектах исследуемой сущности предметной области обобщены исведены в таблицу 1.7.Таблица 1.7Ложное и правильное распознавание от количества нулевых встречNd(количество ненулевых встреч лексем алфавита вобъектах исследуемой сущности), %Количество ложных обнаруженийКоличество правильных обнаружений10 20143 7700Их графики представлены на рисунке 1.13.304414031050161606670518800309006335Рисунок 1.13.

Зависимости ложного и правильного обнаружения сущностейпредметной области от количества ненулевых встреч лексем алфавита (Nd)Условие Nd >= 60±5% обеспечивает оптимальное соотношение междуколичествомошибокобнаруженныхложногосущностейобнаруженияпредметнойиобласти.количествомОднакоправильноимеетсязонанеоднозначности, из-за которой возможны как ложное обнаружение, так ипропуск обнаружения.Поэтому, учитывая количество ненулевых встреч лексем алфавита вобъектах исследуемой сущности предметной области, полностью от ошибокизбавиться невозможно.Произведено построение в среде Mathcad полиноминальной регрессионнойзависимости [31] ошибки ложного обнаружения от количества ненулевых встречлексем алфавита.36Исходные данные:Независимая переменнаяФункцияВызов функции, реализующей полиноминальную регрессию:z := regress (x, y, 4), где x, y – исходные данные; 4 – степень полинома.Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымисдляполинома со степенью 3.Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымисдляполинома со степенью 4.Выбрана 4-я степень в силу того, что для неё корреляция = 0,999.37Извлечение коэффициентов полинома из вектора z.Y-(Nd) = 248,778 - 13,432∙Nd + 0,309∙Nd2 - 3,337∙10-3∙Nd3 + 1,361∙10-5∙Nd4;Выполнена проверка регрессионного полинома для v := 90g := 248,778 – 13,432×v + 0,309×v×v – 0,003337×v×v×v + 0,00001361×v×v×v×v = 3,077Рисунок 1.14.

Полиноминальная регрессионная зависимость ошибки ложногообнаружения от количества ненулевых встреч лексем алфавита.Произведено построение в среде Mathcad регрессионной зависимости [31]правильного обнаружения от количества ненулевых встреч лексем алфавита.38Исходные данные:Независимая переменнаяФункцияВызов функции, реализующей полиноминальную регрессию:z := regress (x, y, 4), где x, y – исходные данные; 4 – степень полинома.Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымисдляполинома со степенью 2.Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымиполинома со степенью 3.сдля39Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымисдляполинома со степенью 4.Коэффициентрегрессионнойкорреляциизависимостиэкспериментальнымиданнымисдляполинома со степенью 5.Выбрана 4-я степень в силу того, что для неё корреляция = 0,998.Извлечение коэффициентов полинома из вектора z.Y+(Nd) = 1,278 - 0,216∙Nd + 1,3∙10-2∙Nd2 - 3,36∙10-4∙Nd3 + 3,351∙10-6∙Nd4;Выполнена проверка регрессионного полинома для v := 60g := 248,778 – 13,432×v + 0,309×v×v – 0,003337×v×v×v + 0,00001361×v×v×v×v =3,07740Рисунок 1.15.

Регрессионная зависимость правильного обнаружения отколичества ненулевых встреч лексем алфавита3. Устранение ошибок ложного обнаружения, возникающих из-за того, чтоалфавит частотной идентификации сущности содержит часто употребляемыелексемы, содержащиеся в данных объектов других сущностей предметнойобласти.Чтобы не возникало ложного обнаружения из-за того, что алфавитчастотной идентификации сущности содержит часто употребляемые лексемы,располагающихся в данных объектов других сущностей предметной областипредложено из него их исключить. Чем короче лексема, тем больше вероятность,что она встретится в данных объектов других сущностей предметной области.Поэтому признаком исключения стала длина лексемы, в частности минимальнодопустимое количество символов (Nc).На рисунке 1.16 представлены зависимости автокорреляции для данныхБТИЗ (для 30% выборки), выпрямительного диода, импульсного диода, ПТ отминимально допустимого количества символов в лексемах.41Рисунок 1.16.

Зависимости корреляции от минимально допустимогоколичества символов в лексемах на примере БТИЗ, выпрямительного иимпульсного диодов, полевого транзистораКорреляция алфавита частотной идентификации сущности БТИЗ с даннымиБТИЗ (рисунок 1.16) лежит в пределах ramin … ramax, находясь по значению вышекорреляций алфавита частотной идентификации сущности БТИЗ с даннымивыбранных для сравнения сущностей предметной области – диодами и полевымтранзистором, что предотвращает возникновение ошибки ложного обнаружения.Из графиков видно, что при увеличении ограничения на минимально допустимоеколичество символов в лексемах (Nc) коэффициент корреляции Пирсонауменьшается. При этом коэффициент корреляции Пирсона для данных, взятыхдля сравнения, уменьшается быстрее, чем для данных, по которым построеналфавит (данных сущности БТИЗ).Результаты могут считаться достоверными при обнаружении сильнойвзаимосвязи (корреляция >= 0,7).

Эта величина корреляции для БТИЗ может бытьдостигнута при объёме выборки не менее 30% от эталонных данных (рисунок1.17).42Рисунок 1.17. Зависимости автокорреляции БТИЗ и корреляции ПТ отминимально допустимого количества символов в лексемах для различныхвыборокОшибки пропуска обнаружения связаны с погрешностью вычислениякоэффициента корреляции Пирсона, которая может возникнуть в связи с:-отсутствиемуникальностииспользуемойприидентификациипоследовательности частот (близость их к среднему значению) встречи лексемалфавита в данных;- погрешностью вычисления коэффициента корреляции Пирсона, котораяможет возникнуть из-за:-искаженийанализируемых данных(несоответствияисходных,используемых при построении алфавита частотной идентификациисущности предметной области и анализируемых при идентификацииприкладных данных);- искажений алфавита частотной идентификации сущности предметнойобласти (изменения алфавита, исключения из него некоторых лексем сцелью уменьшения вычислительных затрат).43Ошибка пропуска обнаружения возникает из-за отсутствия уникальностипоследовательности используемых при идентификации частот, что не даётвозможности их различить, вычислить коэффициент корреляции Пирсона:nrXA =å(Xi- X ) * ( Ai - A)i =1nå(Xj =1.n- X ) * å ( A j - A)2j2j =1Коэффициент корреляции Пирсона для значений, близких к среднему,равен 0, поэтому должно выполняться условие1 nå ( X i - X )2 = 0n i =1или1 nå ( Ai - A) 2 = 0 .n i =1Ошибки пропуска обнаружения связаны с погрешностью вычислениякоэффициента корреляции Пирсона.Ошибки пропуска обнаружения возникают из-за искажений анализируемыхданных, связанных с уменьшением выборки - объёма анализируемых данных отисходных.При уменьшении количества объектов сущности предметной областипогрешность расчёта коэффициента корреляции (разница между максимальной иминимальной корреляциями) увеличивается (рисунок 1.18).Рисунок 1.18.

Зависимость ошибки корреляции от величины выборкидля БТИЗЗависимость ошибки корреляции от величины выборки (V) была полученана основе расчёта автокорреляций между частотами встречи лексем алфавитачастотной идентификации сущности в объектах для 100% выборки и частотами44встречи в объектах для 30%, 40%, 60%, 70%, 80% выборок для 35 различныхвыборок, равномерно расположенных по всей совокупности исходных данных.В качестве ошибки расчёта корреляции для определённого объёма выборки(Δra) бралась величина, равная разности подсчитанных максимальной иминимальной автокорреляций.Для 113 принимающих в исследовании сущностей предметной областиполучены обобщённые зависимости ошибки корреляции от величины выборки - V(таблица 1.8, рисунок 1.19).

При уменьшении выборки V количество ошибок"пропуска сущности" возрастает.Таблица 1.8Ошибки пропуска сущностейпредметной области от величинывыборкиV3040607080Количествоошибок Y-112102623728Рисунок 1.19. Зависимость количестваошибок "пропуска сущностипредметной области", возникающихдля 113 сущностей (Y-) от величинывыборки (V)Построение регрессионной зависимости [31] выполнено в среде Mathcad наоснове метода наименьших квадратов.45Исходные данные:Независимая переменнаяФункцияВызов функции, реализующей полиноминальную регрессию:z := regress (x, y, 1), где x, y – исходные данные; 1 – степень полинома.Извлечение коэффициентов полинома из вектора z:Y-(V) = 169,326 - 180,581∙V;corr(y, p) = 0,993Рисунок 1.20. График регрессионной зависимости количества ошибок"пропуска сущности" от возникающих для 113 сущностей предметной области отвеличины выборкиСреднее значение ошибки вычисления корреляции Δra уменьшается как идля БТИЗ.46Таблица 1.9Ошибки корреляции от величины выборкиОбъём выборки V0,30,4 0,6 0,7 0,8максимальная1,41 1,69 2 1,11 1,43Δraсредняя0,43 0,43 0,28 0,17 0,19Δraминимальная0,007 0000ΔraРисунок 1.21.

Обобщённыезависимости ошибки корреляцииот величины выборки для 113принимающих участие висследовании сущностейпредметной областиОшибки пропуска обнаружения из-за искажения алфавита частотнойидентификации сущности предметной области могут быть связаны с [69]:- исключением лексем с более низкой частотой встречи с цельюуменьшения их общего количества;- исключением лексем с меньшим количеством символов, чем задано сцелью уменьшения вероятности ошибки "ложного обнаружения" (первого рода).Исключение лексем с более низкой частотой встречи приводит кувеличению ошибки расчёта коэффициента корреляции Пирсона (Δra)иповышению производительности расчётов благодаря уменьшению количествалексем (NL), рисунок 1.22.47Рисунок 1.22. Зависимости ошибки корреляции и количества лексем валфавите частотной идентификации сущности предметной области от частотногоограничения алфавита на примере БТИЗИсключение лексем из алфавита частотной идентификации сущностипредметной области, содержащих меньшее количеством символов, чем задано(Nc), понижает нижний порог допустимого значения автокорреляции (ramin), чтоприводит к увеличению вероятности ложного срабатывания (рисунок 1.23).Рисунок 1.23.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5209
Авторов
на СтудИзбе
430
Средний доход
с одного платного файла
Обучение Подробнее