Автореферат (1137088), страница 2

Файл №1137088 Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса) 2 страницаАвтореферат (1137088) страница 22019-05-202019-05-20СтудИзба

Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Описанный в данной работе методбыл реализован в виде автоматизированной системы поддержки лиц, принимающих решение, по приемке отчетных документов. Разработанная программная система внедрена в использование в ФГБУ "САЦ Минэнерго России".Публикации. Всего автором опубликовано 5 научных работ, из них 2 вжурналах из перечня ВАК и одна в журнале, индексируемом в Scopus.Структура и объем работы. Диссертация содержит 131 страницу основного текста, 29 рисунков, 8 таблиц. Список литературы состоит из 146 позиций.СОДЕРЖАНИЕ РАБОТЫВо введении формулируются цели исследования, определяется научнаяновизна и практическая значимость результатов.

Дается обоснование актуальности темы работы.В первой главе рассматриваются задачи, возникающие при работе с такими полнотекстовыми документами, как ТЗ и отчетная документация.Развитие ТЭК России ведет к постоянной разработке новых проектов, направленных на развитие и взаимосвязь отраслей. Как следствие, в ходе проектирования создаются новые документы, в том числе и рабочая документация,написанная в свободной форме на естественном языке.

С увеличением количества текстовой информации растет и необходимость ее автоматической обработки и хранения. Данная задача решается с использованием систем PDM/PLMсистем. Хотя современные достижения в области информационной поддержкипроцессов жизненного цикла изделий (ИПИ- или CALS-технологий), как истандарты оформления документации (УСКД по ГОСТ 2.105-95), и создают основу для ручного контроля качества документации, они не позволяют решитьзадачу автоматизации определения полноты излагаемых в ней требований.Особенностью ТЭК является разработка межотраслевых проектов. В этихслучаях как ТЗ, поступающее на вход этапа проектирования системы, так и готовая ПД содержат в себе знания нескольких смежных предметных областей.Из-за этого для проверки документации по большому проекту необходима работа группы специалистов, чьи области знаний покрывают всю тематику проекта.

На практике не всегда имеется возможность выделить столько ресурсов напроверку отчетов. При работе с документами ТЭК необходимо учитывать, чтовсе документы имеют отраслевую принадлежность со своей собственной спецификой, терминологией и стандартами. Таким образом, при приемке ПД необходимо учитывать уникальные параметры каждой отрасли. Еще одной сложностью ТЭК является большой объем текстов ПД.В отличие от приемки итоговой (например, эксплуатационной) документации, на этапе проектирования отсутствует готовая система. При проектировании разработанная документация является единственным результатом, а ошиб6ки в ней приводят к ошибкам в проекте. Повышение качества ПД приводит кснижению затрат на разработку проекта. Как следствие невозможно корректноетестирование документации и существенно возрастают затраты на приемку.Наиболее часто применяемым способом проверки технических документов на практике является ручной анализ с привлечением экспертов.

Проверкамногостраничного документа может занять у опытного эксперта, знающегопредметную область и структуру документа, незначительное время. Однаколюбое изменение структуры или тематики приведет к увеличению трудозатратэксперта. Как минимум, при повторной приемке исправленного документа эксперт должен снова ознакомиться со всем документом для того, чтобы найти всеизменения в нем. В случае сложных проектных работ, в процессе которых порождается большой объем документации из различных областей знаний, дляпроверки выделяется группа совместно работающих экспертов.

Однако увеличение количества экспертов ведет к еще большему увеличению трудозатрат всвязи с необходимостью налаживания между ними взаимодействия и не всегдаприводит к полному покрытию всех предметных областей.Автоматическая обработка технической документации является одним изразвивающихся направлений обработки текстов на естественном языке. Системы автоматизации используются на стадии проектирования для накопления встандартизованной форме результатов труда разработчиков в установленномстандарте. Автоматизированные системы поддержки электронных моделей изделия обозначаются термином PDM – системы управления данными о продукте. На сегодняшний день существует множество популярных продуктов, упрощающих создание, ведение и проверку документации: Technical Guide Builder,Arbortext, Atlassian Confluence и др.

Использование данных систем облегчаетработу по созданию качественной документации при разработке систем и программных продуктов.Применение систем электронного документооборота (СЭД) для решенияпоставленной в диссертации задачи возможно при проверке полноты спискадокументации и заключается в сравнении текущего списка документации попроекту со списком требуемых документов.

Однако средства автоматизацииконтроля содержательной полноты документации в современных СЭД не предусмотрены. С другой стороны, на этапах проектирования (в особенности в области ТЭК) описанные системы работают с документами, оформленными в соответствии с требованиями ГОСТ, следовательно, возможность обработки ипроверки более свободной отчетной документации исключается.В целях повышения эффективности работы экспертов (оцениваемой вовремени на приемку ПД, а также точности принимаемых ими решений) необходимо разработать автоматизированную систему, помогающую экспертам впредварительной оценке проверяемых отчетов. Система должна находить описание требований в ТЗ, на основе которого проводилось проектирование, поним – описание требований в текстовой ПД.

Вся информация должна визуализироваться для того, чтобы ускорить процесс принятия решений. Эксперт должен получать информацию о степени покрытия списка требований в отчете.7Задача обработки технической документации ставилась уже неоднократно.Так, группа под руководством Невзорова В.Н. разрабатывала систему «Лота»для анализа документов, описывающих логику функционирования системы, носейчас ее развитие прекращено. Другая система разрабатывается в ВолГТУ подруководством Заболеевой-Зотовой А.В. и Орловой Ю.А. Она выделяет из ТЗосновные параметры разрабатываемой системы и заносить их для дальнейшегоанализа в заранее подготовленную фреймовую структуру.

Коммерческая система ABBYY Intelligent Search может быть настроена на выполнение поставленной в диссертации задачи, однако ее настройка требует существенных финансовых и временных затрат, выливающихся в самостоятельный проект.Рассмотренные системы опираются на использование онтологий. Но разработка онтологий является длительным и сложным процессом.

Если предприятие работает в нескольких предметных областях, разработка онтологии дляних потребует значительных ресурсов. В связи с этим в диссертационной работе ставится задача разработки нового метода, позволяющего проводить анализполноты ПД с использованием только имеющихся в распоряжении текстов спривлечением открытых и легкодоступных словарей и справочников. При этомна начальных этапах задача может решаться методами автоматической обработки текстов, а после того как будет разработана онтология предметной области, можно будет перейти к ее использованию. В связи с этим требуется разработка комбинированного метода, сочетающего в себе все плюсы использованияметодов автоматической обработки текстов и методов представления знаний.Постановка задачи приводит нас к необходимости использования методованализа текстов на естественном языке.

При работе с полнотекстовыми документами можно выделить несколько наиболее распространенных задач, применимых в данном случае. Задачей систем антиплагиата является нахождениесходных фрагментов в разных документах. Результаты описаны в работахгрупп Si, Lancaster, Gipp, Васина А.Д. и др. Но так как не предполагается, чтодокументация цитирует ТЗ, данные методы применимы лишь косвенно.

Методшинглов для определения нечетких дублей документов применяется в поисковых системах для уменьшения отклика на запрос и для поиска дубликатовстраницы. Согласно работам Зеленкова Ю.Г и Сегаловича И.В., метод шингловиспользуется для сравнения небольших фрагментов текста (до 1000 знаков), нопри сравнении документов большого объема точность метода понижается.

Вцелом метод также не подходит для решения поставленной задачи.Методы кластеризации и классификации позволяют автоматически рубрицировать документы для поиска и хранения в СЭД (см. работы Маннинга и др.и Песковой О.В.). Они не могут использоваться здесь напрямую, т.к. задача выделения тематических кластеров здесь не стоит.

Из описанных работ нас интересуют методы определения тематической близости документов и их фрагментов. Для них обычно используется текст документа целиком, однако они применимы и при сравнении фрагментов, при условии их корректного выделения.Так как документ включает термины разных предметных областей, снижается вероятность найти их в словаре.

В связи с этим использование стандарт8ных этапов анализа (графематического и морфологического) должно быть ограничено, а использование синтаксического анализа нецелесообразно.В связи с тем, что объектом исследования является именно текстовая ПД,необходимо применение методов автоматической обработки текстов и выделение значимых частей. Из них подходят две группы методов: методы выделениятерминов и многословных конструкций и методы определения тематическойблизости текстов.

В работах зарубежных (Ahmad K. и Gillam L.) и отечественных (Киселева М.В., Кочеткова Н.А.) авторов были проработаны вопросы выделения тематических терминов текста. Также проработано применение такихмер выделения важных слов и словосочетаний, как tf*idf, MI, t-score, LSA и др.Синтаксические анализаторы словарных помет позволяют работать с синонимами, сокращениями и пояснениями, указанными в тексте.

Характеристики

Тип файла

PDF-файл

Размер

456 Kb

Материал

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizirovannyj-kontrol-kachestva-tekstov-proektnoj-dokumentacii-na-predprijatijah-toplivno-jenergeticheskogo-kompleksa.rar

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.