Диссертация (1090776), страница 5

Файл №1090776 Диссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных) 5 страницаДиссертация (1090776) страница 52018-01-182018-01-18СтудИзба

Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

При этомколичество повторений должно быть не менее двух.При создании алфавита каждое ключевое слово объекта сущностипредметной области разбивается на возможные комбинации символов с длиной от271 до 10 со смещением относительно начала. Если комбинация более одного разавстречается в объектах сущности предметной области и её ещё нет в алфавите, тоона добавляется в него.

Для получения нормированной частоты встречи лексем всреднем на объект сущности предметной области количество повторов делится наколичество объектов сущности предметной области.Частотное распределение лексем алфавита для поля "Наименование"биполярного транзистора с изолированным затвором (БТИЗ) представлено нарисунке 1.9.Рисунок 1.9.Частотное распределение лексем алфавита для поля"Наименование" БТИЗ: NL - количество лексем; F - нормированная частотавстречи лексем это [количество повторений лексемы] / [количество объектовсущности предметной области] в объектах сущности предметной областиС учётом процедуры получения лексем алфавита существует вероятностьвхождения одной лексемы в другую, более длинную. При этом, если количествоих встреч в объектах сущности предметной области одинаково, то одна из этихдвух лексем с точки зрения корреляционного анализа бесполезна в силу того, чтоона дублирует другую, повторяя её частотные характеристики.

Для устраненияизбыточности алфавита введена процедура его нормализации.28Рисунок 1.10. Алгоритм удаления лексем при нормализации алфавита частотнойидентификации сущности предметной областиПри нормализации из алфавита удаляются лексемы, входящие в другиелексемы с аналогичной частотой повторов в объектах сущности предметнойобласти (рисунок 1.10). При этом для повышения устойчивости к ошибкамложного срабатывания из повторяющихся удаляется более короткая лексема.После нормализации в алфавите частотной идентификации сущностипредметной области для поля "Наименование" БТИЗ произошло сокращениечисла лексем с 8571 до 2255 (в 3,8 раза). 5 из 68 гармоник спектра частотногораспределения лексем сжались до уровня в одну лексему (рисунок 1.11).Рисунок 1.11.

Частотное распределение лексем алфавита поля "Наименование"частотной идентификации сущности БТИЗ после нормализации29В ходе нормализации более длинные лексемы поглотили более короткие(таблица 1.4).Таблица. 1.4Количественное сокращение лексем алфавита частотной идентификациисущности предметной области с учётом их длиныдлина лексемы (количество символов)45678123910до нормализации364169341283141313741224942617332после нормализации36218297283249246243174177332уменьшилась на0%47%68%78%82%82%80%81%71%0%Самые короткие лексемы длиной в 1 символ, хотя и входят в более длинныелексемы, но частота их вхождения в объекты сущности предметной областизаметно отличается от них, благодаря чему они остались в алфавите частотнойидентификации сущности предметной области и не поглотились более длинными.Выполнена нормализация алфавитов частотной идентификации для 178сущностей предметной области.

В среднем нормализация уменьшила количестволексем в алфавите частотной идентификации сущности предметной области в 5,2раза. При этом максимальное уменьшение количества лексем составило 17,3 раза,а минимальное 1,2 раза.Согласно предварительной оценки трудоёмкости вычисления корреляций,Трудоёмкостьвычислениякорреляции=количестволексемалфавита*количествообъектов*размервыборкиобъём алфавита влияет на трудоёмкость вычисления корреляции, т.е. наидентификацию сущности предметной области по частотным характеристикамданных её объектов. Практикой подтверждено, что скорость вычислений посленормализации алфавитов увеличилась примерно в 5 раз.Благодаря нормализации алфавита увеличилась точность вычислениякорреляции: сократилось расхождение вычисления корреляции (разность междумаксимальной и минимальной корреляциями для различных выборок) в среднем30на 0,02036 на каждую корреляцию для 57458 участвующих в экспериментевычислений.

Предположительно это связано с тем, что стало меньше болеекоротких лексем - ведь чем длиннее лексема, тем меньше вероятность её встречив данных, не относящихся к поисковой сущности предметной области, чтопонижает вероятность ложного обнаружения.1.4.4. Анализ и устранение ошибок, возникающих при идентификациисущностей предметной областиЧтобы установить принадлежность анализируемых данных к поисковойсущности предметной области, для каждой лексемы алфавита поля частотнойидентификации сущности предметной области вычисляется количество еёповторов в анализируемых данных.

Затем между найденными количествамиповторов и повторами лексем алфавита частотной идентификации сущностипредметной области вычисляется коэффициент корреляции Пирсона, по величинекоторого можно судить о принадлежности анализируемых данных к поисковойсущности предметной области используемого алфавита:nrXA =å(Xnå(Xj =1гдеi- X ) * ( Ai - A)i =1nj,- X ) 2 * å ( A j - A) 2j =1A(i) = {A1, A2, ... An} - частоты встречи лексем алфавита частотнойидентификации сущности предметной области; X(j) = {X1, X2, ... Xn} - частотывстречи лексем алфавита в анализируемых данных.Принятие решения о принадлежности данных к сущности предметнойобласти в методе происходит по величине коэффициента корреляции Пирсона. Изтеории статистики при высокой степени взаимосвязи он должен быть от 0,7 до 1,при средней - от 0,5 до 0,7, при слабой - от 0,2 до 0,5 [41, 47, 48, 94].Из формулы расчёта коэффициента корреляции Пирсона видно, чтозначения Xi и Aiдолжны быть отличны от среднего, иначе коэффициенткорреляции будет равен 0.

Это накладывает ограничение на возможность31идентификациисущностейпредметнойобластинаосновевычислениякоэффициента корреляции Пирсона.Для возможности идентификации сущности предметной области спомощью коэффициента корреляции Пирсона дисперсия (отклонение значениймножества от его средней величины) должна быть строго больше 0:sX =1 n(X i - X )2ån i =1sA =1 n( Ai - A) 2 .ån i =1илиПри идентификации сущности предметной области возможны два видаошибок [71]: первого рода (ложного обнаружения); второго рода (пропускаобнаружения).Ошибки ложного обнаружения возникают, если:- данные объектов различных сущностей предметной области сходны;- количество отсутствия лексем алфавита в данных объектов другихсущностей предметной области пропорционально их встречи в данных объектовпоисковой сущности предметной области;-алфавитчастотнойидентификациисущностисодержитчастоупотребляемые лексемы в данных объектов других сущностей предметнойобласти.1.

Исследование ошибок ложного обнаружения, возникающих из-засхожести данных объектов различных сущностей предметной области. Примерсхожести данных объектов различных сущностей представлен на рисунке 1.12.32Рисунок 1.12. Пример схожести данных объектов различных сущностейпредметной области с номерами 171 и 73Если данные у различных сущностей сходны, то по этим данным ихневозможно идентифицировать. В этом случае для возможной идентификациинеобходимо использовать дополнительные данные с привлечением к работеэксперта.При корреляционным анализе данных по 178 сущностям предметнойобласти по полю "Наименование" оказались полностью идентичными 22сущности предметной области; 49 сущностей предметной области по объектамполя "Наименование" полностью вошли в другие сущности из списка. Этосвязано с тем, что большая часть сущностей взята из таблиц БД Solid Works безэкспертной оценки на их уникальность.Результаты оценки схожести сущностей предметной области, производимойна основе расчёта количеств сходных объектов, приведены в таблице 1.5.33Таблица 1.5Матрица схожести используемых в исследовании сущностей предметной областис номерами 31, 41, 50, 62, 78, 89, 110, 119, 129, 139 по объектамВ матрице указано процентное соотношение вхождения объектов однойсущности предметной области в другую по полю "Наименование".Дляповышениядостоверностиисследованияошибокложнойидентификации сущности предметной области схожие (не менее чем на 30%) почастотам повторов лексем сущности предметной области исключены израссмотрения.

Характеристики

Тип файла

PDF-файл

Размер

4 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

РТУ МИРЭА

Список файлов диссертации

metody-algoritmy-i-programmnye-instrumenty-dostizheniya-interoperabelnosti-prikladnogo-programmnogo-obespecheniya-na-osnove-chastotnogo-analiza-dannyh-1157139447-1516278366.rar

Документы

Заключение диссертационного совета.pdf

Заключение организации, где выполнялась работа.pdf

Отзыв ведущей организации.pdf

Отзыв второго оппонента.pdf

Отзыв на автореферат 2.pdf

Отзыв на автореферат_1.pdf

Отзыв на автореферат_3.pdf

Отзыв на автореферат_4.pdf

Отзыв на автореферат_5.pdf

Отзыв научного руководителя.pdf

Отзыв первого оппонента.pdf

Протокол о принятии диссертации.pdf

Протокол о рассмотрении диссертации.pdf

Решение диссертационного совета по результатам защиты диссертации.pdf

Сведения о ведущей организации.pdf

Сведения о втором оппоненте.pdf

Сведения о первом оппоненте.pdf

Автореферат.pdf

Диссертация.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.