Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса), страница 2
Описание файла
Файл "Автореферат" внутри архива находится в папке "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса". PDF-файл из архива "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Описанный в данной работе методбыл реализован в виде автоматизированной системы поддержки лиц, принимающих решение, по приемке отчетных документов. Разработанная программная система внедрена в использование в ФГБУ "САЦ Минэнерго России".Публикации. Всего автором опубликовано 5 научных работ, из них 2 вжурналах из перечня ВАК и одна в журнале, индексируемом в Scopus.Структура и объем работы. Диссертация содержит 131 страницу основного текста, 29 рисунков, 8 таблиц. Список литературы состоит из 146 позиций.СОДЕРЖАНИЕ РАБОТЫВо введении формулируются цели исследования, определяется научнаяновизна и практическая значимость результатов.
Дается обоснование актуальности темы работы.В первой главе рассматриваются задачи, возникающие при работе с такими полнотекстовыми документами, как ТЗ и отчетная документация.Развитие ТЭК России ведет к постоянной разработке новых проектов, направленных на развитие и взаимосвязь отраслей. Как следствие, в ходе проектирования создаются новые документы, в том числе и рабочая документация,написанная в свободной форме на естественном языке.
С увеличением количества текстовой информации растет и необходимость ее автоматической обработки и хранения. Данная задача решается с использованием систем PDM/PLMсистем. Хотя современные достижения в области информационной поддержкипроцессов жизненного цикла изделий (ИПИ- или CALS-технологий), как истандарты оформления документации (УСКД по ГОСТ 2.105-95), и создают основу для ручного контроля качества документации, они не позволяют решитьзадачу автоматизации определения полноты излагаемых в ней требований.Особенностью ТЭК является разработка межотраслевых проектов. В этихслучаях как ТЗ, поступающее на вход этапа проектирования системы, так и готовая ПД содержат в себе знания нескольких смежных предметных областей.Из-за этого для проверки документации по большому проекту необходима работа группы специалистов, чьи области знаний покрывают всю тематику проекта.
На практике не всегда имеется возможность выделить столько ресурсов напроверку отчетов. При работе с документами ТЭК необходимо учитывать, чтовсе документы имеют отраслевую принадлежность со своей собственной спецификой, терминологией и стандартами. Таким образом, при приемке ПД необходимо учитывать уникальные параметры каждой отрасли. Еще одной сложностью ТЭК является большой объем текстов ПД.В отличие от приемки итоговой (например, эксплуатационной) документации, на этапе проектирования отсутствует готовая система. При проектировании разработанная документация является единственным результатом, а ошиб6ки в ней приводят к ошибкам в проекте. Повышение качества ПД приводит кснижению затрат на разработку проекта. Как следствие невозможно корректноетестирование документации и существенно возрастают затраты на приемку.Наиболее часто применяемым способом проверки технических документов на практике является ручной анализ с привлечением экспертов.
Проверкамногостраничного документа может занять у опытного эксперта, знающегопредметную область и структуру документа, незначительное время. Однаколюбое изменение структуры или тематики приведет к увеличению трудозатратэксперта. Как минимум, при повторной приемке исправленного документа эксперт должен снова ознакомиться со всем документом для того, чтобы найти всеизменения в нем. В случае сложных проектных работ, в процессе которых порождается большой объем документации из различных областей знаний, дляпроверки выделяется группа совместно работающих экспертов.
Однако увеличение количества экспертов ведет к еще большему увеличению трудозатрат всвязи с необходимостью налаживания между ними взаимодействия и не всегдаприводит к полному покрытию всех предметных областей.Автоматическая обработка технической документации является одним изразвивающихся направлений обработки текстов на естественном языке. Системы автоматизации используются на стадии проектирования для накопления встандартизованной форме результатов труда разработчиков в установленномстандарте. Автоматизированные системы поддержки электронных моделей изделия обозначаются термином PDM – системы управления данными о продукте. На сегодняшний день существует множество популярных продуктов, упрощающих создание, ведение и проверку документации: Technical Guide Builder,Arbortext, Atlassian Confluence и др.
Использование данных систем облегчаетработу по созданию качественной документации при разработке систем и программных продуктов.Применение систем электронного документооборота (СЭД) для решенияпоставленной в диссертации задачи возможно при проверке полноты спискадокументации и заключается в сравнении текущего списка документации попроекту со списком требуемых документов.
Однако средства автоматизацииконтроля содержательной полноты документации в современных СЭД не предусмотрены. С другой стороны, на этапах проектирования (в особенности в области ТЭК) описанные системы работают с документами, оформленными в соответствии с требованиями ГОСТ, следовательно, возможность обработки ипроверки более свободной отчетной документации исключается.В целях повышения эффективности работы экспертов (оцениваемой вовремени на приемку ПД, а также точности принимаемых ими решений) необходимо разработать автоматизированную систему, помогающую экспертам впредварительной оценке проверяемых отчетов. Система должна находить описание требований в ТЗ, на основе которого проводилось проектирование, поним – описание требований в текстовой ПД.
Вся информация должна визуализироваться для того, чтобы ускорить процесс принятия решений. Эксперт должен получать информацию о степени покрытия списка требований в отчете.7Задача обработки технической документации ставилась уже неоднократно.Так, группа под руководством Невзорова В.Н. разрабатывала систему «Лота»для анализа документов, описывающих логику функционирования системы, носейчас ее развитие прекращено. Другая система разрабатывается в ВолГТУ подруководством Заболеевой-Зотовой А.В. и Орловой Ю.А. Она выделяет из ТЗосновные параметры разрабатываемой системы и заносить их для дальнейшегоанализа в заранее подготовленную фреймовую структуру.
Коммерческая система ABBYY Intelligent Search может быть настроена на выполнение поставленной в диссертации задачи, однако ее настройка требует существенных финансовых и временных затрат, выливающихся в самостоятельный проект.Рассмотренные системы опираются на использование онтологий. Но разработка онтологий является длительным и сложным процессом.
Если предприятие работает в нескольких предметных областях, разработка онтологии дляних потребует значительных ресурсов. В связи с этим в диссертационной работе ставится задача разработки нового метода, позволяющего проводить анализполноты ПД с использованием только имеющихся в распоряжении текстов спривлечением открытых и легкодоступных словарей и справочников. При этомна начальных этапах задача может решаться методами автоматической обработки текстов, а после того как будет разработана онтология предметной области, можно будет перейти к ее использованию. В связи с этим требуется разработка комбинированного метода, сочетающего в себе все плюсы использованияметодов автоматической обработки текстов и методов представления знаний.Постановка задачи приводит нас к необходимости использования методованализа текстов на естественном языке.
При работе с полнотекстовыми документами можно выделить несколько наиболее распространенных задач, применимых в данном случае. Задачей систем антиплагиата является нахождениесходных фрагментов в разных документах. Результаты описаны в работахгрупп Si, Lancaster, Gipp, Васина А.Д. и др. Но так как не предполагается, чтодокументация цитирует ТЗ, данные методы применимы лишь косвенно.
Методшинглов для определения нечетких дублей документов применяется в поисковых системах для уменьшения отклика на запрос и для поиска дубликатовстраницы. Согласно работам Зеленкова Ю.Г и Сегаловича И.В., метод шингловиспользуется для сравнения небольших фрагментов текста (до 1000 знаков), нопри сравнении документов большого объема точность метода понижается.
Вцелом метод также не подходит для решения поставленной задачи.Методы кластеризации и классификации позволяют автоматически рубрицировать документы для поиска и хранения в СЭД (см. работы Маннинга и др.и Песковой О.В.). Они не могут использоваться здесь напрямую, т.к. задача выделения тематических кластеров здесь не стоит.
Из описанных работ нас интересуют методы определения тематической близости документов и их фрагментов. Для них обычно используется текст документа целиком, однако они применимы и при сравнении фрагментов, при условии их корректного выделения.Так как документ включает термины разных предметных областей, снижается вероятность найти их в словаре.
В связи с этим использование стандарт8ных этапов анализа (графематического и морфологического) должно быть ограничено, а использование синтаксического анализа нецелесообразно.В связи с тем, что объектом исследования является именно текстовая ПД,необходимо применение методов автоматической обработки текстов и выделение значимых частей. Из них подходят две группы методов: методы выделениятерминов и многословных конструкций и методы определения тематическойблизости текстов.
В работах зарубежных (Ahmad K. и Gillam L.) и отечественных (Киселева М.В., Кочеткова Н.А.) авторов были проработаны вопросы выделения тематических терминов текста. Также проработано применение такихмер выделения важных слов и словосочетаний, как tf*idf, MI, t-score, LSA и др.Синтаксические анализаторы словарных помет позволяют работать с синонимами, сокращениями и пояснениями, указанными в тексте.