Автореферат (1137088), страница 3

Файл №1137088 Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса) 3 страницаАвтореферат (1137088) страница 32019-05-202019-05-20СтудИзба

Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Подобные работыведутся как для открытых интернет-словарей, таких как Викисловарь (СмирновА.В. и Крижановская Н.Б.), так и для словарей, составленных по коллекции документов. Основной задачей подсистем морфологического анализа являетсянахождение нормальной формы рассматриваемого слова. Однако для их работынужны внешние словари, разработка и настройка которых на предметную область занимает время. Существующие словари не содержат части специальнойлексики, а методом пополнения таких словарей является ручной ввод. Автоматическое заполнение подобных словарей стало возможно с появлением свободных вычислительных мощностей современных компьютеров, но сталкивается спроблемой уникальности и особенности некоторых языков.Во второй главе описывается формальная основа метода.Под качеством проектной документации (ПД) в данной работе будет пониматься наличие в ней описания всех требований, изложенных в ТЗ.

То есть мыисходим не из полноты описания, а из процента упомянутых требований.Исследование особенностей ТЗ и отчетных документов показало, что требования к результатам работы обычно описываются с использованием особыхсинтаксических конструкций. Принимая во внимание, что большинство документации ТЭК пишется с использованием отраслевых стандартов (к примеру,ОСТ 153-00.0-002-98), для анализа требований нужен не весь текст ТЗ. Крометого, ТЗ содержит специфичные термины, используемые для описания проекта.Определение полноты документа основывается на использовании значимых словосочетаний, которые показывают описание требований, и специализированных терминов, характеризующих текст ТЗ.Представим текст как упорядоченное множество предложений: t = <si>.Представим предложение как упорядоченное множество слов: si = <wij>.

Подсловосочетанием будем понимать упорядоченное множество слов: c = <w>.Введем список словосочетаний-маркеров M = {c}, вводящих требования кизделию, поставленные заказчиком. Маркеры выбираются экспертом с учетомтематики конкретного ТЗ. Так же введем множество Ms = {c}, Ms M, содержащее базовые маркеры, пригодные для любой тематики.Предложение, в котором встречается маркер, расценивается как значимое.Т.е. предложение s, входящее в текст ТЗ, называется значимым, еслиc M: c s. Несколько предложений, где одно или несколько из них являются9значимыми, называется значимым фрагментом: f = <t, s, e>, где t – текст, в который входит фрагмент, s – номер начального предложения фрагмента, e – номер последнего предложения фрагмента.Эксперименты показали, что качество работы метода с документами ТЭКвозрастает, если во фрагмент включается одно предложение до и после значимого предложения.

Предыдущее предложение часто вводит определения илиопределяет общее направление и отрасль ТЭК, последующие расшифровываюттребования и содержат значения конкретных атрибутов (например, напряжениеили мощность). Параметры r1 и r2 алгоритма показывают размер значимогофрагмента вправо и влево от значимого предложения. Если ключевая фразавстречается в предложении, после которого идет перечисление, то выделяетсяэто предложение и весь текст до конца перечисления.Поскольку ТЭК России состоит из четырех основных отраслей и большогоколичества направлений, предварительное выделение специализированныхтерминов невозможно.

При этом для повышения точности выделения значимыхфрагментов текста необходимо выделять уникальные термины документа. Дляэтого используется мера странности. Пусть имеется набор текстов общей лексики (например, беллетристика), называемый контрастной коллекцией. Пустьтакже имеется набор текстов в заданной предметной области, называемый коллекцией предметной области. Тогда слова, редко встречающиеся в контрастнойколлекции, но часто в коллекции предметной области, считаются терминамиданной предметной области. Мера странности рассчитывается по формуле:(1)где ws – встречаемость слова в коллекции предметной области, wg - встречаемость слова в контрастной коллекции, ts –количество слов в коллекции предметной области, tg –количество слов в контрастной коллекции.

Терминами будем считать слова, для которых мера странности значительно больше единицы.Для вычисления специализированных терминов документа производитсядвойная выборка кандидатов в термины, предложенная в работах КочетковойН.А. Кандидаты в термины приводятся к начальной форме и могут состоятьтолько из существительных, прилагательных, причастий, порядковых числительных, предлогов и союза «и», а наречия и местоимения опускаются.

Для нихвычисляется мера странности по коллекции документов той же тематики, полученные кандидаты с малой странностью отбрасываются. Вторая выборка проводится по контрастной коллекции и образует список терминов, входящих впредметную область документа. Выделенные термины включаются в множество маркеров M, по ним ведется поиск значимых фрагментов.Метод проверки полноты отчетной документации по ТЗ работает в 4 шага.На первом шаге метода по тексту ТЗ ищутся ключевые фрагменты, к которым применяются приведенные выше правила. Каждый выделенный по правилам фрагмент из текста ТЗ t1 заносится в список F = {f}. Два значимых фрагмента могут быть объединены вместе, если их границы пересекаются или меж-10ду ними нет значимого текста: если fm = <t, s1, e1> и fm+1 = <t, s2, e2>: e1 >= s2, тоfm = <t, s1, e2>, а fm+1 удаляется.На втором шаге проводится выделение признаков из значимых фрагментов из списка F, а также производится поиск терминов специализации текста.Ключевые фрагменты разбиваются на группы из n слов (n-граммы) и заносятсяв список, куда попадают только n-граммы, которые включают находящиеся рядом друг с другом слова, не разделенные знаком.

Параметр n показывает, длинуизвлекаемых n-грамм. Для значимых фрагментов рассчитывается вектор признаков: a = <(w, f)>, где w f – n-грамма, а f – ее частота встречаемости.Некоторые словосочетания, общие для всех отраслей, встречаются во всехтекстах и не несут важной информации (к примеру, Минэнерго России).

Извектора признаков n-грамм отсеиваются термины, встречающиеся чаще p1 иреже p2 от встречаемости самой частой n-граммы (авторские особенности текста и шум). Оставшиеся n-граммы составляют множество векторов признаковТЗ VA1 = {a}. Также для всех фрагментов создается множество их собственныхсписков n-грамм: V = {Vi} ={a}.

Схема разбора ТЗ представлена на Рис. 1.Рис. 1. Алгоритм выделения значимых частей ТЗНа третьем шаге выбранные ключевые словосочетания ищутся в отчете.Находим те предложения <sj> текста отчета t2, в которых встречаются n-граммыиз VA1 (т.е.

статистику нахождения упоминания требований в отчете). Для каждого Vi считаем меру mvi, равную отношению количества найденных совпадений из Vi в тексте отчета t2 к количеству n-грамм в Vi :mvi =m / n ,(2)где m – количество f таких что f Vi и f t2, а n – количество f в Vi.Поскольку требования, поставленные в ТЗ, могут находиться в различныхабзацах отчета, то мера mvi показывает пользователю, какие конкретно предложения с требованиями не были найдены в отчете. Позиции вхождений n-граммVA1 и Vi в текст отчета t2 заносятся в списки PA1 и Pi соответственно.Из текста отчета формируется список n-грамм с частотами их встречаемости b = <(w, f)> и вектор признаков ПД VA2 = {b}.

На основе совпадающих nграмм в VA1 и VA2 косинусная мера сходства документов:v = cos(VA1, VA2) =.(3)Вместо косинусной меры может использоваться одна из метрик, вычисляемых при помощи онтологии, например, среднее по минимумам расстояниймежду словами, вычисленными как минимальный путь в графе.Текст отчета разбивается на абзацы, каждому из которых присваиваетсявектор признаков b, который формирует списки VOj ( VO = {VOj} = {b}). Зна11чимость абзаца с номером j вычисляется как максимум косинусной меры сходства вектора b с векторами a или равна нулю, если его значимость ниже порога:voj = maxi cos(ai, bj),(4)где ai Vi, а bj VOj.Значение i (номер значимого фрагмента ТЗ), при котором мера voj (рассчитанная по формуле 4) принимает наибольшее значение, показывает, описаниюкакого требования текста ТЗ соответствует j-й абзац текста отчета.

Схема разбора отчетного документа представлена на Рис. 2.Рис. 2. Разбор текста ТЗНа четвертом шаге метода ЛПР получает следующие данные:информацию о покрытии отчета фрагментами ТЗ в виде точечной диаграммы, построенной по полученным спискам PA1 и Pi;отсортированный по возрастанию список мер mvi и принадлежащим имфрагментам текста ТЗ;меру схожести документов v целиком и меру схожести по абзацам voj;позиции найденных в отчете упоминаний требований из ТЗ.Руководствуясь результатами, пользователь принимает решение о пригодности отчета. Общий алгоритм работы пользователя состоит из следующих шагов.

Характеристики

Тип файла

PDF-файл

Размер

456 Kb

Материал

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizirovannyj-kontrol-kachestva-tekstov-proektnoj-dokumentacii-na-predprijatijah-toplivno-jenergeticheskogo-kompleksa.rar

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.