Главная » Просмотр файлов » Диссертация

Диссертация (1090776), страница 7

Файл №1090776 Диссертация (Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных) 7 страницаДиссертация (1090776) страница 72018-01-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

Зависимости автокорреляции от минимально допустимогоколичества символов в лексемах для различных выборок (в % от исходныхданных)Чем меньше выборка данных (по сравнению с объёмом исходныхэталонных данных), тем крутизна уменьшения порога выше.При увеличении ограничения Nc понижается нижний порог допустимогозначения коэффициента корреляции Пирсона из-за уменьшения покрытия48объектов сущности предметной области алфавитом частотной идентификациисущности предметной области.Покрытие алфавита объектов сущности предметной области - этостепень вхождения лексем алфавита в объекты сущности предметной области.При отсутствии ограничений на длину лексем алфавита частотнойидентификации сущности предметной области обычно алфавит полностьюпокрывает все объекты сущности предметной области на 100%; если же действуетограничение на длину, то часть лексем алфавита отбрасывается, в силу чего, какправило алфавит не полностью может покрывать объекты сущности предметнойобласти.

Процесс уменьшения покрытия от величины ограничения индивидуалендля каждой сущности предметной области.Полученыследующиеизмененияпокрытияалфавитачастотнойидентификации сущности предметной области от изменения ограничения наколичество символов в лексемах алфавита Nc (таблица 1.10, рисунок 1.24).Таблица 1.10Покрытие алфавита частот идентификации сущности предметной области отограничения на количество символовNcКоличествозаписей12345678910лучшее(для сущности с №12)12256100100100100100100100100100100усреднённое значениедля всехрассматриваемыхсущностей-----100999390877771666259худшее(для сущности с №119)10100904020200000049Рисунок 1.24. Зависимость покрытия алфавита объектов сущности предметнойобласти от ограничения на количество символов в лексемах алфавитаПри этом покрытие алфавита влияет на количество ошибок, возникающихпри идентификации сущности предметной области.Для 10 диапазонов покрытия рассчитано нормированное количествовозникших ошибок пропуска обнаружения, правильной идентификации (таблица1.11, рисунок 1.25).Таблица 1.11Влияние покрытия алфавитом объектов сущности предметной области на еёраспознаваниеДиапазон покрытиянормированноеколичествоошибокпропуска обнаружениянормированноеколичествоправильно не обнаруженных сущностейнормированноеколичествоправильно обнаруженных сущностей0-1010202030304040505060607070808090901000000,08750,1080,1050,13260,12080,25590,25420,570,51720,97290,6252,13041,47362,97953,131813,23825,918300,034400,01250,0650,12280,12240,14280,21420,205Подсчёт ошибок ложного обнаружения в связи с тем, что много сущностейпредметнойобластисходныпообъектам,непроводился.Нормировкавыполнялась делением на количество вычислений, имеющих соответствующийдиапазон.50Рисунок 1.25.

Влияние покрытия алфавитом объектов сущности предметнойобласти на её распознаваниеВидно, что скорость нарастания ошибок пропуска сущностей предметнойобласти при максимальным покрытии значительно меньше, чем правильное необнаружение сущности предметной области, поэтому покрытие необходимо братьпо возможности максимальным (из последнего диапазона).То есть ограничение на количество символов в лексемах Nc можноувеличивать, пока покрытие алфавита частотной идентификации сущностипредметной области будет не меньше 90%. В этом случае правильное необнаружение сущности предметной области будет максимальным.Исследования с учётом искажения алфавита частотной идентификации сущностипредметной областиВ зависимости от покрытия алфавитом объектов сущности предметнойобласти, удаляя объекты, данные возможно искажать различными способами.51Удалять объекты можно в порядке минимального вхождения в него лексемалфавита(стратегияблагоприятногоисключения)либовпорядкемаксимального вхождения в него лексем алфавита (стратегия неблагоприятногоисключения).В первом случае в силу того, что удаляемые объекты не входят (либоминимально входят) в лексемы алфавита частотной идентификации сущностипредметной области, их исключение минимально влияет на расчёт коэффициентакорреляции Пирсона.

Во втором случае влияние искажения данных являетсянаивысшим.От порядка исключения объектов зависит величина коэффициентакорреляции.Для каждого из ограничений на количество символов в лексемах (Nc)рассчитанминимальнонеблагоприятногодопустимыйисключенияобъёмобъектов,выборкипри(V)обеспечивающийстратегиикоэффициенткорреляции Пирсона 0,7.Данные по количеству правильно распознанных сущностей предметнойобласти для различных выборок по неблагоприятной стратегии сведены в таблицу1.12 (рисунок 1.26).Таблица 1.12Количество правильно распознанных сущностей предметной области принеблагоприятной стратегии исключения объектов сущности предметной областиот ограничения на минимальное количество символов в лексемах алфавитачастотной идентификации сущности предметной областиВеличина выборки(количество используемых объектовот эталона)0% - 20%21% - 45%46% - 85%86% - 100%Nc12345678910100000 0 0 0 088 47 32 23 24 21 18 21 22 2475 108 109 102 103 86 69 75 73 6011 19 34 48 48 68 87 79 80 9052Рисунок 1.26.

Зависимость количества правильно распознанных сущностейпредметной области для различных объемов выборок от ограничения наколичество символов в лексемах алфавита частотной идентификации сущностипредметной области при неблагоприятной стратегии исключения объектовсущности предметной областиПо результатам исследования сделаны следующие выводы:- чтобы выполнялось правильное распознавание, величина выборки должнабыть больше 20%;- чем больше выборка (V), тем строже возможно установить условие наминимальное количество символов в лексемах алфавита (Nc) частотнойидентификации сущности предметной области для лексем алфавита частотнойидентификациисущностипредметнойобласти,обеспечиваяправильноераспознавание сущностей предметной области;- для диапазона 21-45%-ной выборки: при небольшой части объектовданныхсущностипредметнойобласти,участвующихвидентификации,увеличение ограничения на Nc приводит к уменьшению покрытия объектовалфавитом сущности предметной области, поэтому количество правильныхобнаружений падает;- для диапазона 86-100%-ной выборки: чем выше ограничение наминимальное количество символов в лексемах алфавита (Nc), тем хуже уалфавита покрытие объектов сущности предметной области, поэтому дляправильной идентификации сущности предметной области требуется большоеколичество её объектов (наибольшая выборка 86-100%).53Данные по количеству правильно распознанных сущностей предметнойобласти для различных выборок по благоприятной стратегии сведены в таблицу1.13 (рисунок 1.28).Таблица 1.13Количество правильно распознанных сущностей предметной областипри благоприятной стратегии исключения объектов сущности предметнойобласти от ограничения на минимальное количество символов в лексемахалфавита частотной идентификации сущности предметной областиВеличина выборки(количество используемых объектов отэталона)0% - 20%21% - 45%46% - 85%86% - 100%1 247 3473 7050 615 9333646612430635822Nc5336062206295854347325052408325345459325545431034534245Рисунок 1.27.

Зависимости количества правильно распознанных сущностейпредметной области для различных объёмов выборок от ограничения наколичество символов в лексемах алфавита частотной идентификации сущностипредметной области при благоприятной стратегии исключения объектовсущности предметной областиПо результатам исследования сделаны следующие выводы:- при благоприятной стратегии исключения для выборки 0 до 20%правильная идентификация становится возможной.54- при благоприятной стратегии исключения объектов сущности предметнойобласти зависимости количества правильно распознанных сущностей предметнойобласти для различных объёмов выборок от ограничения на количество символовв лексемах алфавита частотной идентификации сущности предметной областиболее равномерные.- всё зависит от индивидуальных особенностей объектов сущностейпредметнойобласти:длянекоторыхобъектоввозможнаправильнаяидентификация при выборке < 20%, для некоторых – невозможна, и необходимобъём не меньшей 86 - 100% от эталонных данных.1.4.5.

Метод идентификации сущности предметной области на основечастотного анализа данныхМетод идентификации сущности предметной области на основе частотногоанализа данных [75] заключается в расчёте частот встречи лексем алфавитачастотной идентификации сущности в данных с последующим расчётомкоэффициента Пирсона между рассчитанными частотами данных и частотамивстречи в данных поисковой сущности предметной области лексем алфавита.Направильностьоценкипринадлежностикалфавитучастотнойидентификации сущности предметной области влияет объём её данных(относительно эталонных, по которым создавался алфавит идентификациисущности).

Характеристики

Список файлов диссертации

Методы, алгоритмы и программные инструменты достижения интероперабельности прикладного программного обеспечения на основе частотного анализа данных
Документы
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее