Автореферат (1137088), страница 4

Файл №1137088 Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса) 4 страницаАвтореферат (1137088) страница 42019-05-202019-05-20СтудИзба

Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

На вход алгоритма подается текст ТЗ и отчетный документ. Пользовательопределяет параметры метода, пригодные для конкретного случая, добавляетспецифичные словосочетания маркеров и выбирает термины текста ТЗ. Значение меры сходства в результате разбора документа должно находиться в пределах от 0,3 до 0,9 у близких по смыслу текстов и в пределах от 0,4 до 0,8 междудокументами ТЗ и принадлежащим им отчетам.

Показателями пригодноститекста по точечной диаграмме являются отношение выделенных фрагментов кколичеству фрагментов и кучность выделения. Хорошим процентным показателем выделения предложений со словосочетаниями-маркерами из документов,написанных по ГОСТ, является 8-17% (70-80% на коротких технических записках). При большом проценте выделения значимых частей ТЗ (15% и более), номаленьком значении процентного отношения найденных ключевых словосочетаний в тексте отчета (15-20%), пользователь может просмотреть список мерmv, показывающий, какие требования ТЗ не представлены в отчете. Значениемеры mv варьируется в пределах от 0 до 1, со средним показателем 0,6 для описанных в отчете требований, 0,2 и меньше, для плохо описанных.

На основе результатов пользователь принимает решение о насыщенности документа.Для принятия решения о необходимости проверки отчетного документа ипоиска недостающих требований был разработан метод визуализации результатов. Принимая во внимание среднее количество символов и слов в предложении, был выбран максимальный размер фрагмента, пригодного для поставленной задачи. Размер ТЗ может варьироваться от 10 до 90 страничных текстов, на12писанных по всем правилам ГОСТ. Можно предполагать, что верхняя границасимволов в тексте ТЗ равна 162 000 знаков, а нижняя – 18 000 (С учетом, чтостраница содержит 1800 символов).

Принимая средний размер предложения в100 символов за фрагмент, можно подсчитать их минимальное и максимальноеколичество: 180-1 620.Представим цвет каждой точки в виде аддитивной цветовой модели с переменными R, G, B, варьирующимися в диапазоне от 0 до 255. Введем начальный цвет (R1,G1,B1), конечный цвет (Rf,Gf,Bf), число фрагментов ТЗ f, шаг d:.(5)Цвет фрагмента меняется в заданном диапазоне, где переменные R, G, Bкаждого следующего фрагмента повышаются на значение d. Поскольку структура взаимного расположения требований в ТЗ дублируется в отчетном документе, можно предположить, что чем ближе цвет на диаграмме, тем ближефрагменты текста по значению.

Резкая смена цвета может наблюдаться при переходе от одной части отчета к другой, если сначала описываются общие требования к системе, а в последующем тексте они последовательно расшифровываются. Во всех остальных случаях резкая и частая смена цвета означает непоследовательное изложение требований, либо чрезмерное их перемешивание.В третьей главе рассматриваются практическая реализация и возможности использования систем документооборота.Для оценки эффективности метода было разработано программное обеспечение (ПО) на языке C++ (используемая среда – Embarcadero C++ BuilderXE2) для ОС Windows. Параметрами его работы являются размер значимогофрагмента, список словосочетаний-маркеров, термины предметной области ипроценты отсечки слишком частотных или слишком редких значимых n-грамм.Для уточнения данных параметров был проведен ряд экспериментов с документами ТЭК.

В результате их анализа были выбраны параметры метода(приведены в таблице 1) и список словосочетаний-маркеров, представленныйна Рис. 3. В качестве контрастной коллекции текстов была выбрана свободнораспространяемая библиотека Мошкова (http://www.lib.ru/, 680 млн словоупотреблений), которая содержит в себе тексты, написанные литературным языкомразличными авторами. Это позволяет выделить разные авторские стили и исключить их из рассмотрения при анализе ПД.Таблица 1. Параметры работы методаПроценты отсечки (p1 и p2)85%15%Количество слов (n)2Размер фрагмента (r1 и r2)11Рис. 3.

Словосочетания-маркерыСистема получает на вход ТЗ и отчет, проводит их разбор, получая списки значимых n-грамм, и частей ТЗ, визуализирует результат для ЛПР. На выход пользователю выдаются графики распределения найденного текста и стати13стическая информация о найденных n-граммах. Основными задачами разработанной системы являются: обработка документов, хранение информации и вывод результатов. Структура разработанной программы представлена на Рис. 4.Рис. 4.

Общая структура программыРеализация метода обеспечивается работой основных модулей:Модуль выделения терминов предметной области – выделяет термины наоснове документа ТЗ и контрастной коллекции текстов.Модуль поиска ключевых фрагментов – выделяет фрагменты ТЗ, содержащие термины и словосочетания-маркеры.Модуль разбора отчетного документа – ищет n-граммы в тексте отчета.Модуль визуализации результатов – выводит результаты работы. строитграфики, предоставляет оба текста и результаты выделения требований.Пользовательможет сохранять изагружать настройкисистемы и создаватьпрофили обработкиопределенных типовдокументов (Рис.

5).Всего создано 4 хранилища документов:база данных документов (хранит ТЗ иобработанные отчетные документы оргаРис. 5. Пример работы программынизации), хранилищеколлекции документов (содержит контрастные коллекции), база данных терминов (хранит выделенные программой термины предметной области), база настроек метода (хранит пользовательские наборы настроек).Анализ ПД, разрабатываемой в ходе проектирования, отличается отанализа текущего документооборота. В ходе проектирования на предприятияхТЭК в ТЗ может ставиться задача проектирования комплексной системы,относящейся к нескольким предметным областям.

При этом для производствапишется несколько ТЗ, описывающих свою предметную область. В связи с14Отчетыэтим актуальность разрабатываемого метода в области САПР, применяемых напредприятиях ТЭК, значительно выше, чем в области СЭД или анализатехнической документации на производстве. В целом, СЭД позволяюторганизовать работу с документами в организации, но не участвуют впроцессах проектирования, рассматриваемых в данной работе. При этомприменение СЭД возможно для автоматизации процесса поиска и перемещениядокументации в организации.

Предложенная система может быть встроена вкачестве одного из модулей СЭД предприятия, но сложностью здесь являетсяпривлечение специалиста, имеющего опыт разработки подобных модулей, т.к.проектирование модулей для СЭД требует знания их архитектуры.В четвертой главе описываются результаты экспериментов, подтверждающих качество работы метода.

На 1-м этапе эксперты читали ТЗ и отчеты ивысказывались о их содержании. Далее документы проверялись автоматически.На 2-м этапе проводилась перекрестная проверка текстов 6 ТЗ с текстами 9 отчетов. ТЗ 1-3 имеют близкую тематику, ТЗ 5 и 6 имеют близкую, но не связаны с1-3, отчет 0 не имеет ничего общего с ТЗ 1-6, отчеты 3+ и 6+ были переписаныпо требованию заказчика.Результаты проверки приведены в Табл.

2. Результаты удачных проверок вкорректной паре выделены темно-серым, а успешные проверки с другими отчетами – светло-серым фоном. Разработанный метод и ПО определили высокоекачество отчетов, написанных для ТЗ 1-3 и 6. Результат работы системы для отчета 3 и 6 совпал с мнением заказчика. Отчет 0 не показал совпадений ни дляодного из ТЗ. ТЗ 4 и 5 не предполагали подробного описания результатов работы и требований к ним. Также в ТЗ 5 требовалось дать рекомендации по улучшению изделия, что усложнило поиск соответствий.

Отчет 4 содержал информацию по предметной области ТЗ 5, поэтому их сходство выше.Таблица 2. Результаты кросс-проверки для предложенного метода1233+4566+010,5210,3940,370,4940,0320,0320,0060,0060,01120,1570,5920,390,450,0320,0090,0110,0090,043Технические задания3450,1920,0320,0250,5430,0560,0540,1580,050,0490,5350,0450,0510,0660,0320,0020,020,3070,0570,0070,0020,0310,0060,0020,0160,0350,0060,00660,0720,0620,050,0540,0310,0950,6380,7250,017Для повышения точности выделения ключевых фрагментов текста ТЗ былапроизведена еще одна серия экспериментов, связанная с выделением терминовпредметной области.

Исходя из результатов экспериментов, можно сказать, чтопредложенный метод выделяет корректную информацию, помогающую ЛПРпринимать правильные решения о тематике ТЗ, изложенных в нем требованияхи полноте изложений этих требований в отчетных документах.В следующей серии экспериментов проводилась проверка точности визуализации. В результате работы метода пользователь получает на выходе алго15ритма 3 диаграммы: маркеры в ТЗ, ключевые n-граммы в отчете по всему тексту, ключевые n-граммы в отчете по фрагментам. Точечные диаграммы отчетных документов представлены на Рис.

6 и 7. Каждому фрагменту текста ТЗ сопоставлен цвет, отображавшийся и в диаграмме отчета для соответствующихфрагментов. Цвет меняется от синего к зеленому в зависимости от номерафрагмента. Блоки из компактно расположенных 5-10 цветных точек описываютзаявленные в ТЗ требования. Отдельно стоящие цветные квадраты – единичнаяn-грамма в тексте.

Характеристики

Тип файла

PDF-файл

Размер

456 Kb

Материал

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizirovannyj-kontrol-kachestva-tekstov-proektnoj-dokumentacii-na-predprijatijah-toplivno-jenergeticheskogo-kompleksa.rar

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.