Автореферат (1090774), страница 3
Текст из файла (страница 3)
Этот процессне формализуем и выполняется экспертами вручную, что в конечном счётеограничивает интероперабельность прикладного ПО.Как правило, до объединения прикладных программ они уже длительное времяиспользуются и содержат данные, в которых заложено их смысловое назначение.Используя частотные распределения данных как их «идентификатор», возможнообнаружить данные одной программы в других предназначенных длявзаимодействия программах, тем самым обеспечив интероперабельностьприкладного ПО благодаря увеличению количества согласованных данных.Данные ПО соответствуют конкретным понятиям прикладной области –сущностям предметной области. Каждая сущность предметной области имеет наборхарактеристик - поля сущности.
Каждая сущность предметной области прииспользовании ПО воплощается в наборе значений - объектах сущности.В реляционных базах данных прикладных программ, как правило, каждаясущность хранится в отдельной таблице. Поля сущности хранятся в отдельныхстолбцах таблицы сущности. Объект сущности предметной области - это сделаннаязапись в соответствующей таблице сущности.У сущности предметной области может быть множество полей, но основнымключевым полем, как правило, выступает поле "Наименование". Оно уникальносреди его объектов, являясь их именем.
В работе из всей совокупности полейданных по объектам сущности предметной области рассматривается только поле"Наименование".В качестве данных для исследования использованы данные по биполярнымтранзисторам с изолированным затвором (БТИЗ),выпрямительным диодам,импульснымдиодам,полевымтранзисторам(ПТ),общероссийскиеклассификаторы, табличные данные, имеющие ключевое строковое поле из БДСАПР SolidWorks.В качестве признака уникальности данных (его объектов) сущности предметнойобласти в методе используются частоты повторов цепочек символов - лексем поля"Наименование" объектов сущности предметной области.
Набор лексемидентификации сущности предметной области образует алфавит частотнойидентификации сущности предметной области. Он состоит из лексем, которыевстречаются не менее чем в двух объектах сущности предметной области.При создании алфавита каждое ключевое слово объекта сущности предметнойобласти разбивается на возможные комбинации символов с длиной от 1 до 10 сосмещением относительно начала. Если комбинация более одного раза встречается вобъектах сущности предметной области и её ещё нет в алфавите, то она добавляетсяв его алфавит.Затем алфавит нормализуется - из него удаляются лексемы алфавита, входящие вдругие лексемы алфавита с аналогичной частотой повтора в объектах сущностипредметной области, которая, как показала практика, в среднем в 5 раз увеличиваетскорость идентификации сущности предметной области и уменьшает ошибку ихраспознавания в среднем на 0,02036 на каждую идентификацию.Чтобы установить принадлежность анализируемых данных к полю поисковойсущности предметной области, для каждой лексемы алфавита поля поисковойсущности предметной области вычисляется количество её повторов ванализируемых данных.
Затем между найденными количествами повторов и10повторами лексем алфавита частотной идентификации сущности предметнойобласти вычисляется коэффициент корреляции Пирсона, по величине которогоможно судить о принадлежности анализируемых данных к полю поисковойсущности предметной области используемого алфавита.КоэффициенткорреляцииПирсонаневозможноиспользоватьдляпоследовательностей, имеющих равномерное распределением, т.е. у которыхзначения близки к среднему.
Поэтому сумма отклонений значений от среднейвеличины должна быть строго больше 0.Принятие решения о принадлежности данных сущности предметной области вметоде происходит по величине коэффициента корреляции Пирсона. Согласнотеории статистики, при высокой степени взаимосвязи она должна быть от 0,7 до 1,при средней – от 0,5 до 0,7, при слабой – от 0,2 до 0,5.При идентификации сущности предметной области возможны два вида ошибок:второго рода (пропуск обнаружения сущности предметной области); первого рода(ложное обнаружение сущности предметной области).Ошибки пропуска обнаружения связаны с погрешностью вычислениякоэффициента корреляции Пирсона, которая может возникнуть из-за искажений:- анализируемых данных (несоответствия исходных, используемых припостроении алфавита поля сущности предметной области и анализируемых приидентификации прикладных данных);- алфавита (изменения алфавита, исключения из него некоторых лексем дляуменьшения вычислительных затрат).Искажение анализируемых данных связано с уменьшением их объёма.
Приуменьшении выборки - объёма анализируемых данных от исходных уменьшаютсяточность расчёта корреляции (рис. 1) и увеличивается количество ошибок (рис. 2).Зависимость ошибки корреляции дляБТИЗ от величины выборки (V) полученана основе расчёта автокорреляцииповторов лексем алфавита БТИЗ дляразличного объёма (выборки) данныхБТИЗ с повторами лексем алфавита висходной 100%-ной выборке для 35различныхвыборок,равномернорасположенных по всей совокупности Рис. 1.
Зависимость ошибки корреляцииисходных данных со смещением отноот величины выборки для БТИЗсительно начала. В качестве ошибкирасчёта корреляции для определённогообъёма выборки (V) бралась величина(∆ra),равнаяразностисредиподсчитанныхмаксимальнойиминимальной автокор-реляций для 35выборок.Для 178 принимающих участие висследовании сущностей предметнойобластиполученаобобщённая Рис.
2. Зависимость количества ошибокрегрессионная зависимость ошибки "пропуск сущности", возникающих для 178корреляции от величины выборки (рис. сущностей (Y-) от величины выборки (V)2): Y-(V) = 169,326 - 180,581∙V.11Искажения алфавита связаны с:- исключением лексем с более низкой частотой встречи для уменьшения ихобщего количества;- исключением лексем с меньшим количеством символов, чем задано дляуменьшения вероятности ошибки ложного обнаружения.Частотноераспределениелексемалфавита поля "Наименование" БТИЗпредставлено на рис. 3.
Здесь NL количество лексем; F - нормированнаячастота встречи лексем, равная [количествоповторений лексемы] / [количество объектовсущности]вобъектахсущностипредметной области.Из частотного распределения лексемРис. 3. Частотное распределениевидно, что большая часть лексем имеетлексем поля "Наименование" БТИЗневысокое количество встреч в объектахсущности предметной области, поэтомудляувеличенияскоростиидентификации сущности предметнойобласти их исключают из алфавита.Исключение лексем с более низкойчастотойвстречиприводиткувеличениюошибкирасчётакоэффициента корреляции Пирсона(∆ra), но при этом к повышению Рис.
4. Зависимости ошибки корреляциипроизводительности расчётов благодаряи количества лексем в алфавите отуменьшению количества лексем (NL),частотного ограничения алфавитарис. 4.Исключение лексем из алфавитачастотной идентификации сущностипредметнойобласти,содержащихменьшее количеством символов, чемзадано (Nc), понижает нижний порогдопустимого значения автокорреляции(ramin), что приводит к увеличениювероятности ложного срабатывания (рис.5).Причём, чем меньше объём выборкиданных (по сравнению с объёмом Рис. 5. Зависимости автокорреляции отминимально допустимого количестваисходных эталонных данных), темсимволов в лексемах для различныхкрутизна уменьшения порога выше.выборок (в % от исходных данных)При ужесточении ограничения наминимально допустимое количество символов в лексемах алфавита понижаетсянижний порог допустимого значения коэффициента корреляции Пирсона из-зауменьшения покрытия алфавитом частотной идентификации объектов сущностипредметной области.
Покрытие алфавита объектов сущности предметной области это степень вхождения лексем алфавита в объекты сущности.12Экспериментально (для 178 сущностей предметной области) выявленоуменьшение покрытия алфавита объектов сущности предметной области приужесточении ограничения на минимально допустимое количество символов влексеме алфавита.При уменьшении покрытия алфавита объектов сущности предметной областиколичество ошибок обнаружения возрастает.Поэтому при формировании алфавита рекомендовано повышать ограничение наминимально допустимое количество символов в лексемах до тех пор, пока покрытиебудет не меньше 90%.Ошибки ложного обнаружения возникают, если: алфавит частотнойидентификации сущности предметной области содержит часто употребляемыелексемы, располагающиеся в данных объектов других сущностей предметнойобласти; количество отсутствия лексем алфавита в объектах другой сущностипредметной области пропорционально их встречи в объектах поисковой сущностипредметной области.Для борьбы с первой причиной возникновения ошибки предложено изменятьалфавит частотной идентификации сущности, исключая из него часто используемыелексемы в полях данных других сущностей предметной области.
Чем корочелексема, тем больше вероятность, что она встретится в данных полей другихсущностей предметной области. Поэтому признаком исключения стала длиналексемы, в частности минимально допустимое количество символов (Nc).На рис. 6 представлены зависимостиавтокорреляции для данных БТИЗ (для30%-ной выборки), выпрямительногодиода, импульсного диода, ПТ отминимально допустимого количествасимволов в лексемах.Автокорреляция данных БТИЗ лежитв пределах от ramax до ramin, находясь позначению выше корреляций алфавитаБТИЗ с данными сущностей, выбранныхдля сравнения: диодами и полевымтранзистором,чтопредотвращаетРис. 6.
Зависимости корреляции отвозникновениеошибкиложногообнаружения. Из графиков видно, что минимально допустимого количествасимволов в лексемах алфавитапри увеличении ограничения наминимально допустимое количество символов в лексемах (Nc) корреляцияуменьшается. При этом корреляция алфавита частотной идентификации сущностипредметной области с данными сущностей предметной области, выбранных длясравнения, при увеличении ограничительной длиной лексем распознаваниястремится к 0 быстрее, чем с данными поисковой сущности БТИЗ.Результаты могут считаться достоверными при обнаружении сильнойвзаимосвязи (корреляция >= 0,7).
Эта величина корреляции для БТИЗ может бытьдостигнута при объёме выборки не менее 30% от эталонных данных (рис. 7).Для борьбы со второй причиной возникновения ошибки предложено учитыватьколичество ненулевых значений встречи лексем алфавита в объектах исследуемойсущности предметной области. На основе экспериментальных данных по13корреляциям для 113 сущностей предметной области по их 188615 объектам (рис. 8)получено дополнительное условие: количество ненулевых значений должно быть>= 60 ± 5 % от общего числа, при котором можно считать, что данные принадлежатпоисковой сущности предметной области.Рис.