Главная » Просмотр файлов » Диссертация

Диссертация (1090776), страница 5

Файл №1090776 Диссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных) 5 страницаДиссертация (1090776) страница 52018-01-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

При этомколичество повторений должно быть не менее двух.При создании алфавита каждое ключевое слово объекта сущностипредметной области разбивается на возможные комбинации символов с длиной от271 до 10 со смещением относительно начала. Если комбинация более одного разавстречается в объектах сущности предметной области и её ещё нет в алфавите, тоона добавляется в него.

Для получения нормированной частоты встречи лексем всреднем на объект сущности предметной области количество повторов делится наколичество объектов сущности предметной области.Частотное распределение лексем алфавита для поля "Наименование"биполярного транзистора с изолированным затвором (БТИЗ) представлено нарисунке 1.9.Рисунок 1.9.Частотное распределение лексем алфавита для поля"Наименование" БТИЗ: NL - количество лексем; F - нормированная частотавстречи лексем это [количество повторений лексемы] / [количество объектовсущности предметной области] в объектах сущности предметной областиС учётом процедуры получения лексем алфавита существует вероятностьвхождения одной лексемы в другую, более длинную. При этом, если количествоих встреч в объектах сущности предметной области одинаково, то одна из этихдвух лексем с точки зрения корреляционного анализа бесполезна в силу того, чтоона дублирует другую, повторяя её частотные характеристики.

Для устраненияизбыточности алфавита введена процедура его нормализации.28Рисунок 1.10. Алгоритм удаления лексем при нормализации алфавита частотнойидентификации сущности предметной областиПри нормализации из алфавита удаляются лексемы, входящие в другиелексемы с аналогичной частотой повторов в объектах сущности предметнойобласти (рисунок 1.10). При этом для повышения устойчивости к ошибкамложного срабатывания из повторяющихся удаляется более короткая лексема.После нормализации в алфавите частотной идентификации сущностипредметной области для поля "Наименование" БТИЗ произошло сокращениечисла лексем с 8571 до 2255 (в 3,8 раза). 5 из 68 гармоник спектра частотногораспределения лексем сжались до уровня в одну лексему (рисунок 1.11).Рисунок 1.11.

Частотное распределение лексем алфавита поля "Наименование"частотной идентификации сущности БТИЗ после нормализации29В ходе нормализации более длинные лексемы поглотили более короткие(таблица 1.4).Таблица. 1.4Количественное сокращение лексем алфавита частотной идентификациисущности предметной области с учётом их длиныдлина лексемы (количество символов)45678123910до нормализации364169341283141313741224942617332после нормализации36218297283249246243174177332уменьшилась на0%47%68%78%82%82%80%81%71%0%Самые короткие лексемы длиной в 1 символ, хотя и входят в более длинныелексемы, но частота их вхождения в объекты сущности предметной областизаметно отличается от них, благодаря чему они остались в алфавите частотнойидентификации сущности предметной области и не поглотились более длинными.Выполнена нормализация алфавитов частотной идентификации для 178сущностей предметной области.

В среднем нормализация уменьшила количестволексем в алфавите частотной идентификации сущности предметной области в 5,2раза. При этом максимальное уменьшение количества лексем составило 17,3 раза,а минимальное 1,2 раза.Согласно предварительной оценки трудоёмкости вычисления корреляций,Трудоёмкостьвычислениякорреляции=количестволексемалфавита*количествообъектов*размервыборкиобъём алфавита влияет на трудоёмкость вычисления корреляции, т.е. наидентификацию сущности предметной области по частотным характеристикамданных её объектов. Практикой подтверждено, что скорость вычислений посленормализации алфавитов увеличилась примерно в 5 раз.Благодаря нормализации алфавита увеличилась точность вычислениякорреляции: сократилось расхождение вычисления корреляции (разность междумаксимальной и минимальной корреляциями для различных выборок) в среднем30на 0,02036 на каждую корреляцию для 57458 участвующих в экспериментевычислений.

Предположительно это связано с тем, что стало меньше болеекоротких лексем - ведь чем длиннее лексема, тем меньше вероятность её встречив данных, не относящихся к поисковой сущности предметной области, чтопонижает вероятность ложного обнаружения.1.4.4. Анализ и устранение ошибок, возникающих при идентификациисущностей предметной областиЧтобы установить принадлежность анализируемых данных к поисковойсущности предметной области, для каждой лексемы алфавита поля частотнойидентификации сущности предметной области вычисляется количество еёповторов в анализируемых данных.

Затем между найденными количествамиповторов и повторами лексем алфавита частотной идентификации сущностипредметной области вычисляется коэффициент корреляции Пирсона, по величинекоторого можно судить о принадлежности анализируемых данных к поисковойсущности предметной области используемого алфавита:nrXA =å(Xnå(Xj =1гдеi- X ) * ( Ai - A)i =1nj,- X ) 2 * å ( A j - A) 2j =1A(i) = {A1, A2, ... An} - частоты встречи лексем алфавита частотнойидентификации сущности предметной области; X(j) = {X1, X2, ... Xn} - частотывстречи лексем алфавита в анализируемых данных.Принятие решения о принадлежности данных к сущности предметнойобласти в методе происходит по величине коэффициента корреляции Пирсона. Изтеории статистики при высокой степени взаимосвязи он должен быть от 0,7 до 1,при средней - от 0,5 до 0,7, при слабой - от 0,2 до 0,5 [41, 47, 48, 94].Из формулы расчёта коэффициента корреляции Пирсона видно, чтозначения Xi и Aiдолжны быть отличны от среднего, иначе коэффициенткорреляции будет равен 0.

Это накладывает ограничение на возможность31идентификациисущностейпредметнойобластинаосновевычислениякоэффициента корреляции Пирсона.Для возможности идентификации сущности предметной области спомощью коэффициента корреляции Пирсона дисперсия (отклонение значениймножества от его средней величины) должна быть строго больше 0:sX =1 n(X i - X )2ån i =1sA =1 n( Ai - A) 2 .ån i =1илиПри идентификации сущности предметной области возможны два видаошибок [71]: первого рода (ложного обнаружения); второго рода (пропускаобнаружения).Ошибки ложного обнаружения возникают, если:- данные объектов различных сущностей предметной области сходны;- количество отсутствия лексем алфавита в данных объектов другихсущностей предметной области пропорционально их встречи в данных объектовпоисковой сущности предметной области;-алфавитчастотнойидентификациисущностисодержитчастоупотребляемые лексемы в данных объектов других сущностей предметнойобласти.1.

Исследование ошибок ложного обнаружения, возникающих из-засхожести данных объектов различных сущностей предметной области. Примерсхожести данных объектов различных сущностей представлен на рисунке 1.12.32Рисунок 1.12. Пример схожести данных объектов различных сущностейпредметной области с номерами 171 и 73Если данные у различных сущностей сходны, то по этим данным ихневозможно идентифицировать. В этом случае для возможной идентификациинеобходимо использовать дополнительные данные с привлечением к работеэксперта.При корреляционным анализе данных по 178 сущностям предметнойобласти по полю "Наименование" оказались полностью идентичными 22сущности предметной области; 49 сущностей предметной области по объектамполя "Наименование" полностью вошли в другие сущности из списка. Этосвязано с тем, что большая часть сущностей взята из таблиц БД Solid Works безэкспертной оценки на их уникальность.Результаты оценки схожести сущностей предметной области, производимойна основе расчёта количеств сходных объектов, приведены в таблице 1.5.33Таблица 1.5Матрица схожести используемых в исследовании сущностей предметной областис номерами 31, 41, 50, 62, 78, 89, 110, 119, 129, 139 по объектамВ матрице указано процентное соотношение вхождения объектов однойсущности предметной области в другую по полю "Наименование".Дляповышениядостоверностиисследованияошибокложнойидентификации сущности предметной области схожие (не менее чем на 30%) почастотам повторов лексем сущности предметной области исключены израссмотрения.

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных
Документы
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6310
Авторов
на СтудИзбе
312
Средний доход
с одного платного файла
Обучение Подробнее