Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса), страница 4
Описание файла
Файл "Автореферат" внутри архива находится в папке "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса". PDF-файл из архива "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
На вход алгоритма подается текст ТЗ и отчетный документ. Пользовательопределяет параметры метода, пригодные для конкретного случая, добавляетспецифичные словосочетания маркеров и выбирает термины текста ТЗ. Значение меры сходства в результате разбора документа должно находиться в пределах от 0,3 до 0,9 у близких по смыслу текстов и в пределах от 0,4 до 0,8 междудокументами ТЗ и принадлежащим им отчетам.
Показателями пригодноститекста по точечной диаграмме являются отношение выделенных фрагментов кколичеству фрагментов и кучность выделения. Хорошим процентным показателем выделения предложений со словосочетаниями-маркерами из документов,написанных по ГОСТ, является 8-17% (70-80% на коротких технических записках). При большом проценте выделения значимых частей ТЗ (15% и более), номаленьком значении процентного отношения найденных ключевых словосочетаний в тексте отчета (15-20%), пользователь может просмотреть список мерmv, показывающий, какие требования ТЗ не представлены в отчете. Значениемеры mv варьируется в пределах от 0 до 1, со средним показателем 0,6 для описанных в отчете требований, 0,2 и меньше, для плохо описанных.
На основе результатов пользователь принимает решение о насыщенности документа.Для принятия решения о необходимости проверки отчетного документа ипоиска недостающих требований был разработан метод визуализации результатов. Принимая во внимание среднее количество символов и слов в предложении, был выбран максимальный размер фрагмента, пригодного для поставленной задачи. Размер ТЗ может варьироваться от 10 до 90 страничных текстов, на12писанных по всем правилам ГОСТ. Можно предполагать, что верхняя границасимволов в тексте ТЗ равна 162 000 знаков, а нижняя – 18 000 (С учетом, чтостраница содержит 1800 символов).
Принимая средний размер предложения в100 символов за фрагмент, можно подсчитать их минимальное и максимальноеколичество: 180-1 620.Представим цвет каждой точки в виде аддитивной цветовой модели с переменными R, G, B, варьирующимися в диапазоне от 0 до 255. Введем начальный цвет (R1,G1,B1), конечный цвет (Rf,Gf,Bf), число фрагментов ТЗ f, шаг d:.(5)Цвет фрагмента меняется в заданном диапазоне, где переменные R, G, Bкаждого следующего фрагмента повышаются на значение d. Поскольку структура взаимного расположения требований в ТЗ дублируется в отчетном документе, можно предположить, что чем ближе цвет на диаграмме, тем ближефрагменты текста по значению.
Резкая смена цвета может наблюдаться при переходе от одной части отчета к другой, если сначала описываются общие требования к системе, а в последующем тексте они последовательно расшифровываются. Во всех остальных случаях резкая и частая смена цвета означает непоследовательное изложение требований, либо чрезмерное их перемешивание.В третьей главе рассматриваются практическая реализация и возможности использования систем документооборота.Для оценки эффективности метода было разработано программное обеспечение (ПО) на языке C++ (используемая среда – Embarcadero C++ BuilderXE2) для ОС Windows. Параметрами его работы являются размер значимогофрагмента, список словосочетаний-маркеров, термины предметной области ипроценты отсечки слишком частотных или слишком редких значимых n-грамм.Для уточнения данных параметров был проведен ряд экспериментов с документами ТЭК.
В результате их анализа были выбраны параметры метода(приведены в таблице 1) и список словосочетаний-маркеров, представленныйна Рис. 3. В качестве контрастной коллекции текстов была выбрана свободнораспространяемая библиотека Мошкова (http://www.lib.ru/, 680 млн словоупотреблений), которая содержит в себе тексты, написанные литературным языкомразличными авторами. Это позволяет выделить разные авторские стили и исключить их из рассмотрения при анализе ПД.Таблица 1. Параметры работы методаПроценты отсечки (p1 и p2)85%15%Количество слов (n)2Размер фрагмента (r1 и r2)11Рис. 3.
Словосочетания-маркерыСистема получает на вход ТЗ и отчет, проводит их разбор, получая списки значимых n-грамм, и частей ТЗ, визуализирует результат для ЛПР. На выход пользователю выдаются графики распределения найденного текста и стати13стическая информация о найденных n-граммах. Основными задачами разработанной системы являются: обработка документов, хранение информации и вывод результатов. Структура разработанной программы представлена на Рис. 4.Рис. 4.
Общая структура программыРеализация метода обеспечивается работой основных модулей:Модуль выделения терминов предметной области – выделяет термины наоснове документа ТЗ и контрастной коллекции текстов.Модуль поиска ключевых фрагментов – выделяет фрагменты ТЗ, содержащие термины и словосочетания-маркеры.Модуль разбора отчетного документа – ищет n-граммы в тексте отчета.Модуль визуализации результатов – выводит результаты работы. строитграфики, предоставляет оба текста и результаты выделения требований.Пользовательможет сохранять изагружать настройкисистемы и создаватьпрофили обработкиопределенных типовдокументов (Рис.
5).Всего создано 4 хранилища документов:база данных документов (хранит ТЗ иобработанные отчетные документы оргаРис. 5. Пример работы программынизации), хранилищеколлекции документов (содержит контрастные коллекции), база данных терминов (хранит выделенные программой термины предметной области), база настроек метода (хранит пользовательские наборы настроек).Анализ ПД, разрабатываемой в ходе проектирования, отличается отанализа текущего документооборота. В ходе проектирования на предприятияхТЭК в ТЗ может ставиться задача проектирования комплексной системы,относящейся к нескольким предметным областям.
При этом для производствапишется несколько ТЗ, описывающих свою предметную область. В связи с14Отчетыэтим актуальность разрабатываемого метода в области САПР, применяемых напредприятиях ТЭК, значительно выше, чем в области СЭД или анализатехнической документации на производстве. В целом, СЭД позволяюторганизовать работу с документами в организации, но не участвуют впроцессах проектирования, рассматриваемых в данной работе. При этомприменение СЭД возможно для автоматизации процесса поиска и перемещениядокументации в организации.
Предложенная система может быть встроена вкачестве одного из модулей СЭД предприятия, но сложностью здесь являетсяпривлечение специалиста, имеющего опыт разработки подобных модулей, т.к.проектирование модулей для СЭД требует знания их архитектуры.В четвертой главе описываются результаты экспериментов, подтверждающих качество работы метода.
На 1-м этапе эксперты читали ТЗ и отчеты ивысказывались о их содержании. Далее документы проверялись автоматически.На 2-м этапе проводилась перекрестная проверка текстов 6 ТЗ с текстами 9 отчетов. ТЗ 1-3 имеют близкую тематику, ТЗ 5 и 6 имеют близкую, но не связаны с1-3, отчет 0 не имеет ничего общего с ТЗ 1-6, отчеты 3+ и 6+ были переписаныпо требованию заказчика.Результаты проверки приведены в Табл.
2. Результаты удачных проверок вкорректной паре выделены темно-серым, а успешные проверки с другими отчетами – светло-серым фоном. Разработанный метод и ПО определили высокоекачество отчетов, написанных для ТЗ 1-3 и 6. Результат работы системы для отчета 3 и 6 совпал с мнением заказчика. Отчет 0 не показал совпадений ни дляодного из ТЗ. ТЗ 4 и 5 не предполагали подробного описания результатов работы и требований к ним. Также в ТЗ 5 требовалось дать рекомендации по улучшению изделия, что усложнило поиск соответствий.
Отчет 4 содержал информацию по предметной области ТЗ 5, поэтому их сходство выше.Таблица 2. Результаты кросс-проверки для предложенного метода1233+4566+010,5210,3940,370,4940,0320,0320,0060,0060,01120,1570,5920,390,450,0320,0090,0110,0090,043Технические задания3450,1920,0320,0250,5430,0560,0540,1580,050,0490,5350,0450,0510,0660,0320,0020,020,3070,0570,0070,0020,0310,0060,0020,0160,0350,0060,00660,0720,0620,050,0540,0310,0950,6380,7250,017Для повышения точности выделения ключевых фрагментов текста ТЗ былапроизведена еще одна серия экспериментов, связанная с выделением терминовпредметной области.
Исходя из результатов экспериментов, можно сказать, чтопредложенный метод выделяет корректную информацию, помогающую ЛПРпринимать правильные решения о тематике ТЗ, изложенных в нем требованияхи полноте изложений этих требований в отчетных документах.В следующей серии экспериментов проводилась проверка точности визуализации. В результате работы метода пользователь получает на выходе алго15ритма 3 диаграммы: маркеры в ТЗ, ключевые n-граммы в отчете по всему тексту, ключевые n-граммы в отчете по фрагментам. Точечные диаграммы отчетных документов представлены на Рис.
6 и 7. Каждому фрагменту текста ТЗ сопоставлен цвет, отображавшийся и в диаграмме отчета для соответствующихфрагментов. Цвет меняется от синего к зеленому в зависимости от номерафрагмента. Блоки из компактно расположенных 5-10 цветных точек описываютзаявленные в ТЗ требования. Отдельно стоящие цветные квадраты – единичнаяn-грамма в тексте.