Диссертация (1090776), страница 8
Текст из файла (страница 8)
На идентификацию сущности предметной области от объёма выборкианализируемых влияетиндивидуальные особенности повторения лексем в еёобъектах: даже при благоприятном исключении (в первую очередь, редкоиспользуемых в алфавите) объектов сущности из выборки для одних сущностейпредметной области возможна правильная идентификация при объёме выборки <20%, а для других же объём выборки необходим не меньше 86-100% отэталонных данных.Критерием принятия решения о принадлежности данных к сущностипредметной области с учётом возможных ошибок является расчётная величина55коэффициентакорреляцииПирсона,бо́льшаяповеличине0,7,междунеобходимыми и рассчитанными частотами встречи лексем алфавита частотнойидентификации сущности предметной области в данных - при условии, что вобъектах данных встречается не менее 60 ± 5% лексем алфавита частотнойидентификации сущности предметной области.ВЫВОДЫРазработан метод идентификации сущности предметной области на основечастотного анализа данных, заключающийся в расчёте частот встречи лексемалфавита частотной идентификации сущности предметной области в данных споследующим расчётом коэффициента Пирсона между рассчитанными частотамиданных и частотами встречи в данных поисковой сущности предметной областилексем алфавита частотной идентификации сущности предметной области,позволяющий достичь интероперабельности прикладного ПО.Направильностьоценкипринадлежностикалфавитучастотнойидентификации сущности предметной области влияет объём её данных(относительно эталонных, по которым создавался алфавит идентификациисущности предметной области).
На идентификацию сущности предметнойобласти от объёма выборки анализируемых данных влияютиндивидуальныеособенности повторения лексем в её объектах: даже при благоприятномисключении (в первую очередь, редко используемых в алфавите) объектовсущности предметной области из выборки для одних сущностей предметнойобласти возможна правильная идентификация при объёме выборки < 20%, а длядругих же объём выборки необходим не меньше 86-100% от эталонных данных.Эксперименты показали, что гарантированно со 100%-ной вероятностьюневозможноидентифицироватьсущностьпредметнойобласти,используячастотный анализ данных [77]:- в одном случае из-за неполноты данных может произойти пропускобнаружения;56- в другом случае, из-за того что объекты различных сущностей предметнойобласти мало различимы, происходит ложное обнаружение.Эти недостатки частотного анализаданных предложено устранитьпривлечением эксперта.Критерием принятия решения о принадлежности данных к сущностипредметной области с учётом возможных ошибок является расчётная величинакоэффициентакорреляцииПирсона,бо́льшаяповеличине0,7,междунеобходимыми и рассчитанными частотами встречи лексем алфавита частотнойидентификации сущности предметной области в данных - при условии, что вобъектах данных встречается не менее 60 ± 5% лексем алфавита частотнойидентификации сущности предметной области.Нормализация алфавита частотной идентификации сущности предметнойобласти (исключение из алфавита лексем, входящих в другие лексемы этого жеалфавита с аналогичной частотой повтора в объектах сущности предметнойобласти) позволяет в среднем уменьшить число лексем алфавита в 3,8 раза иускорить процессвычислениякорреляциив5раз,уменьшаяошибкураспознавания в среднем на 0,02036 на каждую идентификацию.Несмотря на то, что в некоторых случаях (из-за схожести в данных объектовсущности предметной области либо их искажения) невозможноправильноидентифицировать сущность предметной области на основе частотного анализа.Данный метод в целом облегчает реализацию взаимодействия между прикладнымПО, упрощая работу оператора, обеспечивая интероперабельность прикладногоПО.Идентификация сущности предметной области на основе частотногоанализа их данных, в отличие от существующих методов обеспеченияинтероперабельности,позволяетввестивпроцесссогласованияданныхобъединяемых программ и программных систем элементы автоматизации,переложив часть функций распознавания сущностей предметной области навычислительную машину.57ГЛАВА 2.РАЗРАБОТКА МЕТОДА ОЦЕНКИ ИНТЕРОПЕРАБЕЛЬНОСТИПРИКЛАДНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ НА ОСНОВЕОБЪЕКТНО-ОРИЕНТИРОВАННЫХ ПОЛИХРОМАТИЧЕСКИХМНОЖЕСТВ СОСТАВА И СВОЙСТВ ИХ ДАННЫХГлава посвящена созданию удобного для оценки интероперабельностипредставления информации по составу и свойствам данных прикладного ПО ввиде объектно-ориентированного полихроматического множества, а такжеразработке метода оценки его интероперабельности.2.1.
Аналитический обзор методов оценки интероперабельности прикладногопрограммного обеспеченияИнтероперабельность - это способность двух и более систем к обменуинформацией и к использованию информации, полученной в результате обменадруг с другом.Среди методов оценки можно выделить субъективные, где главная рольиграют экспертные оценки, и объективные, где главная роль принадлежитклассическим измерительным процедурам и математическим методам обработкирезультатов [52]:1)Многокритериальнаяметодикаоценкиинтероперабельности,разработанная Петровым А.Б., Стариковской Н.А., Батовриным В.К., КоролёвымА.С.,основаннаянаэкспертнойоценкехарактеристик,влияющихнаинтероперабельность системы [15, 19, 99].Методика сравнительной оценки систем для определения степени ихинтероперабельности состоит из шести этапов:1 этап: Выделение свойств систем и их детализация.
В качестве возможныхсвойствсистемы,информационныхпредназначенныхсистемподляэтойоценкиметодике,интероперабельностииспользуются[99]:функциональность системы, производительность системы, удобство работы с58системой, уровень защиты информации, степень проработанности алгоритмаработысистемы,масштабсистемы,стоимостьпользованиясистемой,адаптивность системы к внешним и внутренним изменениям, зависимостьпользователя от конкретного производителя.2 этап: Выделение интервалов значений для каждой детализированнойединицы каждого свойства.3 этап: Присвоение каждой детализированной единице одного из четырёхрангов согласно интервалам значений, в которых они находятся. Самый высокийранг - 4, самый низкий - 1.4 этап: Расчёт средних рангов свойств, характеризующих степеньинтероперабельности, для каждой рассматриваемой системы:Rср = ∑r1, r2, ..., rn/n,(2.1)где Rср - средний ранг свойства;r1, r2, ..., rn - ранги детализированных единиц данного свойства;n - количество детализированных единиц данного свойства.5 этап: Расчёт совокупного взвешенного ранга системы:Rвзв = ∑ Rср.1f1, Rср.2f2, ..., Rср.nfn,(2.2)где Rвзв - совокупный взвешенный ранг системы;Rср.1; Rср.2; ..., Rср.n - средние ранги свойств системы;f1, f2, ..., fn - веса свойств системы.6 этап: Принятие решения о степени интероперабельности системы наосновеееправиламисовокупногооценки.взвешенногоОтнесениеранга,системыкруководствуясьоднойизрешающимивосьмистепенейинтероперабельности.2) Оценка интероперабельности систем на основе расчёта коэффициентасовместимости как отношения объема согласованных между системами данных кобщему объёму данных [124]:Ксовм = ΣДсогл / (ΣДсогл + ΣДнесогл).(2.3)59Многокритериальная методика оценки интероперабельности основана наметодеинтервальнойиэкспертнойвзвешеннойоценки.Дляоценкиинтероперабельности (способности двух и более систем к обмену информацией)рассматриваются свойства только одной системы, а не всех систем, междукоторыми возникает взаимодействие, что может негативно повлиятьна еёоценку.
Методика в ряде случаёв зависит от человеческого фактора, что можетснижать точность оценки интероперабельности.В диссертационной работе оценка интероперабельности выполняется наоснове коэффициента совместимости. Для возможности вычисления количествасогласованных однотипных данных прикладного ПО, определяющего его уровеньинтероперабельности, необходимо перейти к структурному описанию объектовпредметной области ПО.2.2. Объектно-ориентированные полихроматические множества составаи свойств данных как средство структурного описания прикладногопрограммного обеспеченияСуществующаяинтероперабельности,БатовринымВ.К.,многокритериальнаяразработаннаяКоролёвымА.С.,ПетровымметодикаА.Б.,основаннаянапооценкеСтариковскойэкспертнойН.А.,оценкехарактеристик, влияющих на интероперабельность системы, в ряде случаёвзависит от человеческого фактора.Поэтому необходимоперейтик структурномуописанию объектовпредметной области ПО для возможности вычисления количества согласованныходнотипных данных, определяющего его уровень интероперабельности.Для структурного описания объектов предметной области в CALSтехнологияхиспользуютсяполихроматические(многоцветные)множествасостава и свойств данных (ПS) (В.В.
Павлов, В.П. Соколов, О.С. Самсонов и др.)[96]. ПS-множества, в отличие от обычных множеств, имеют средства описанияразнородных и разнообразных свойств объектов. Цвет в этой теории означаетнекоторое свойство или атрибут объекта.60Полихроматическое множество представляется в виде следующего кортежа:(2.4)На рисунке 2.1 показана онтологическая модель ПS-множества:Рисунок 2.1.
Онтологическая модель базовых понятий ПS – множества: А –элементы; F(a) - персональные цвета элементов; [A x F(A)] - матрица унитарныхцветов; [A x F(a)] - матрица соответствия персональных цветов; [A x A(F)] матрица вычисленийС помощью ПS-множества возможно описать системы, содержащие неболее двух иерархических уровней, что делает невозможным использованиеполихроматических множеств для описания много иерархической систем. Дляподдержки многоуровневости в исходное ПS-множество автором введеныматрицы наследования и включения, вследствие чего получено объктноориентированное полихроматическое множество (ООПS-множество) [74]:ООПSA = (A, F(A), [A×F(A)], [F(A)×F(A)], [A×A]N, [F(A)]V).(2.5)ООПS-множество описывает состав и свойства сущностей предметнойобласти и предназначено для их идентификации.