Диссертация (1090776), страница 5
Текст из файла (страница 5)
При этомколичество повторений должно быть не менее двух.При создании алфавита каждое ключевое слово объекта сущностипредметной области разбивается на возможные комбинации символов с длиной от271 до 10 со смещением относительно начала. Если комбинация более одного разавстречается в объектах сущности предметной области и её ещё нет в алфавите, тоона добавляется в него.
Для получения нормированной частоты встречи лексем всреднем на объект сущности предметной области количество повторов делится наколичество объектов сущности предметной области.Частотное распределение лексем алфавита для поля "Наименование"биполярного транзистора с изолированным затвором (БТИЗ) представлено нарисунке 1.9.Рисунок 1.9.Частотное распределение лексем алфавита для поля"Наименование" БТИЗ: NL - количество лексем; F - нормированная частотавстречи лексем это [количество повторений лексемы] / [количество объектовсущности предметной области] в объектах сущности предметной областиС учётом процедуры получения лексем алфавита существует вероятностьвхождения одной лексемы в другую, более длинную. При этом, если количествоих встреч в объектах сущности предметной области одинаково, то одна из этихдвух лексем с точки зрения корреляционного анализа бесполезна в силу того, чтоона дублирует другую, повторяя её частотные характеристики.
Для устраненияизбыточности алфавита введена процедура его нормализации.28Рисунок 1.10. Алгоритм удаления лексем при нормализации алфавита частотнойидентификации сущности предметной областиПри нормализации из алфавита удаляются лексемы, входящие в другиелексемы с аналогичной частотой повторов в объектах сущности предметнойобласти (рисунок 1.10). При этом для повышения устойчивости к ошибкамложного срабатывания из повторяющихся удаляется более короткая лексема.После нормализации в алфавите частотной идентификации сущностипредметной области для поля "Наименование" БТИЗ произошло сокращениечисла лексем с 8571 до 2255 (в 3,8 раза). 5 из 68 гармоник спектра частотногораспределения лексем сжались до уровня в одну лексему (рисунок 1.11).Рисунок 1.11.
Частотное распределение лексем алфавита поля "Наименование"частотной идентификации сущности БТИЗ после нормализации29В ходе нормализации более длинные лексемы поглотили более короткие(таблица 1.4).Таблица. 1.4Количественное сокращение лексем алфавита частотной идентификациисущности предметной области с учётом их длиныдлина лексемы (количество символов)45678123910до нормализации364169341283141313741224942617332после нормализации36218297283249246243174177332уменьшилась на0%47%68%78%82%82%80%81%71%0%Самые короткие лексемы длиной в 1 символ, хотя и входят в более длинныелексемы, но частота их вхождения в объекты сущности предметной областизаметно отличается от них, благодаря чему они остались в алфавите частотнойидентификации сущности предметной области и не поглотились более длинными.Выполнена нормализация алфавитов частотной идентификации для 178сущностей предметной области.
В среднем нормализация уменьшила количестволексем в алфавите частотной идентификации сущности предметной области в 5,2раза. При этом максимальное уменьшение количества лексем составило 17,3 раза,а минимальное 1,2 раза.Согласно предварительной оценки трудоёмкости вычисления корреляций,Трудоёмкостьвычислениякорреляции=количестволексемалфавита*количествообъектов*размервыборкиобъём алфавита влияет на трудоёмкость вычисления корреляции, т.е. наидентификацию сущности предметной области по частотным характеристикамданных её объектов. Практикой подтверждено, что скорость вычислений посленормализации алфавитов увеличилась примерно в 5 раз.Благодаря нормализации алфавита увеличилась точность вычислениякорреляции: сократилось расхождение вычисления корреляции (разность междумаксимальной и минимальной корреляциями для различных выборок) в среднем30на 0,02036 на каждую корреляцию для 57458 участвующих в экспериментевычислений.
Предположительно это связано с тем, что стало меньше болеекоротких лексем - ведь чем длиннее лексема, тем меньше вероятность её встречив данных, не относящихся к поисковой сущности предметной области, чтопонижает вероятность ложного обнаружения.1.4.4. Анализ и устранение ошибок, возникающих при идентификациисущностей предметной областиЧтобы установить принадлежность анализируемых данных к поисковойсущности предметной области, для каждой лексемы алфавита поля частотнойидентификации сущности предметной области вычисляется количество еёповторов в анализируемых данных.
Затем между найденными количествамиповторов и повторами лексем алфавита частотной идентификации сущностипредметной области вычисляется коэффициент корреляции Пирсона, по величинекоторого можно судить о принадлежности анализируемых данных к поисковойсущности предметной области используемого алфавита:nrXA =å(Xnå(Xj =1гдеi- X ) * ( Ai - A)i =1nj,- X ) 2 * å ( A j - A) 2j =1A(i) = {A1, A2, ... An} - частоты встречи лексем алфавита частотнойидентификации сущности предметной области; X(j) = {X1, X2, ... Xn} - частотывстречи лексем алфавита в анализируемых данных.Принятие решения о принадлежности данных к сущности предметнойобласти в методе происходит по величине коэффициента корреляции Пирсона. Изтеории статистики при высокой степени взаимосвязи он должен быть от 0,7 до 1,при средней - от 0,5 до 0,7, при слабой - от 0,2 до 0,5 [41, 47, 48, 94].Из формулы расчёта коэффициента корреляции Пирсона видно, чтозначения Xi и Aiдолжны быть отличны от среднего, иначе коэффициенткорреляции будет равен 0.
Это накладывает ограничение на возможность31идентификациисущностейпредметнойобластинаосновевычислениякоэффициента корреляции Пирсона.Для возможности идентификации сущности предметной области спомощью коэффициента корреляции Пирсона дисперсия (отклонение значениймножества от его средней величины) должна быть строго больше 0:sX =1 n(X i - X )2ån i =1sA =1 n( Ai - A) 2 .ån i =1илиПри идентификации сущности предметной области возможны два видаошибок [71]: первого рода (ложного обнаружения); второго рода (пропускаобнаружения).Ошибки ложного обнаружения возникают, если:- данные объектов различных сущностей предметной области сходны;- количество отсутствия лексем алфавита в данных объектов другихсущностей предметной области пропорционально их встречи в данных объектовпоисковой сущности предметной области;-алфавитчастотнойидентификациисущностисодержитчастоупотребляемые лексемы в данных объектов других сущностей предметнойобласти.1.
Исследование ошибок ложного обнаружения, возникающих из-засхожести данных объектов различных сущностей предметной области. Примерсхожести данных объектов различных сущностей представлен на рисунке 1.12.32Рисунок 1.12. Пример схожести данных объектов различных сущностейпредметной области с номерами 171 и 73Если данные у различных сущностей сходны, то по этим данным ихневозможно идентифицировать. В этом случае для возможной идентификациинеобходимо использовать дополнительные данные с привлечением к работеэксперта.При корреляционным анализе данных по 178 сущностям предметнойобласти по полю "Наименование" оказались полностью идентичными 22сущности предметной области; 49 сущностей предметной области по объектамполя "Наименование" полностью вошли в другие сущности из списка. Этосвязано с тем, что большая часть сущностей взята из таблиц БД Solid Works безэкспертной оценки на их уникальность.Результаты оценки схожести сущностей предметной области, производимойна основе расчёта количеств сходных объектов, приведены в таблице 1.5.33Таблица 1.5Матрица схожести используемых в исследовании сущностей предметной областис номерами 31, 41, 50, 62, 78, 89, 110, 119, 129, 139 по объектамВ матрице указано процентное соотношение вхождения объектов однойсущности предметной области в другую по полю "Наименование".Дляповышениядостоверностиисследованияошибокложнойидентификации сущности предметной области схожие (не менее чем на 30%) почастотам повторов лексем сущности предметной области исключены израссмотрения.