Автореферат (Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса), страница 3
Описание файла
Файл "Автореферат" внутри архива находится в папке "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса". PDF-файл из архива "Автоматизированный контроль качества текстов проектной документации на предприятиях топливно-энергетического комплекса", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Подобные работыведутся как для открытых интернет-словарей, таких как Викисловарь (СмирновА.В. и Крижановская Н.Б.), так и для словарей, составленных по коллекции документов. Основной задачей подсистем морфологического анализа являетсянахождение нормальной формы рассматриваемого слова. Однако для их работынужны внешние словари, разработка и настройка которых на предметную область занимает время. Существующие словари не содержат части специальнойлексики, а методом пополнения таких словарей является ручной ввод. Автоматическое заполнение подобных словарей стало возможно с появлением свободных вычислительных мощностей современных компьютеров, но сталкивается спроблемой уникальности и особенности некоторых языков.Во второй главе описывается формальная основа метода.Под качеством проектной документации (ПД) в данной работе будет пониматься наличие в ней описания всех требований, изложенных в ТЗ.
То есть мыисходим не из полноты описания, а из процента упомянутых требований.Исследование особенностей ТЗ и отчетных документов показало, что требования к результатам работы обычно описываются с использованием особыхсинтаксических конструкций. Принимая во внимание, что большинство документации ТЭК пишется с использованием отраслевых стандартов (к примеру,ОСТ 153-00.0-002-98), для анализа требований нужен не весь текст ТЗ. Крометого, ТЗ содержит специфичные термины, используемые для описания проекта.Определение полноты документа основывается на использовании значимых словосочетаний, которые показывают описание требований, и специализированных терминов, характеризующих текст ТЗ.Представим текст как упорядоченное множество предложений: t = <si>.Представим предложение как упорядоченное множество слов: si = <wij>.
Подсловосочетанием будем понимать упорядоченное множество слов: c = <w>.Введем список словосочетаний-маркеров M = {c}, вводящих требования кизделию, поставленные заказчиком. Маркеры выбираются экспертом с учетомтематики конкретного ТЗ. Так же введем множество Ms = {c}, Ms M, содержащее базовые маркеры, пригодные для любой тематики.Предложение, в котором встречается маркер, расценивается как значимое.Т.е. предложение s, входящее в текст ТЗ, называется значимым, еслиc M: c s. Несколько предложений, где одно или несколько из них являются9значимыми, называется значимым фрагментом: f = <t, s, e>, где t – текст, в который входит фрагмент, s – номер начального предложения фрагмента, e – номер последнего предложения фрагмента.Эксперименты показали, что качество работы метода с документами ТЭКвозрастает, если во фрагмент включается одно предложение до и после значимого предложения.
Предыдущее предложение часто вводит определения илиопределяет общее направление и отрасль ТЭК, последующие расшифровываюттребования и содержат значения конкретных атрибутов (например, напряжениеили мощность). Параметры r1 и r2 алгоритма показывают размер значимогофрагмента вправо и влево от значимого предложения. Если ключевая фразавстречается в предложении, после которого идет перечисление, то выделяетсяэто предложение и весь текст до конца перечисления.Поскольку ТЭК России состоит из четырех основных отраслей и большогоколичества направлений, предварительное выделение специализированныхтерминов невозможно.
При этом для повышения точности выделения значимыхфрагментов текста необходимо выделять уникальные термины документа. Дляэтого используется мера странности. Пусть имеется набор текстов общей лексики (например, беллетристика), называемый контрастной коллекцией. Пустьтакже имеется набор текстов в заданной предметной области, называемый коллекцией предметной области. Тогда слова, редко встречающиеся в контрастнойколлекции, но часто в коллекции предметной области, считаются терминамиданной предметной области. Мера странности рассчитывается по формуле:(1)где ws – встречаемость слова в коллекции предметной области, wg - встречаемость слова в контрастной коллекции, ts –количество слов в коллекции предметной области, tg –количество слов в контрастной коллекции.
Терминами будем считать слова, для которых мера странности значительно больше единицы.Для вычисления специализированных терминов документа производитсядвойная выборка кандидатов в термины, предложенная в работах КочетковойН.А. Кандидаты в термины приводятся к начальной форме и могут состоятьтолько из существительных, прилагательных, причастий, порядковых числительных, предлогов и союза «и», а наречия и местоимения опускаются.
Для нихвычисляется мера странности по коллекции документов той же тематики, полученные кандидаты с малой странностью отбрасываются. Вторая выборка проводится по контрастной коллекции и образует список терминов, входящих впредметную область документа. Выделенные термины включаются в множество маркеров M, по ним ведется поиск значимых фрагментов.Метод проверки полноты отчетной документации по ТЗ работает в 4 шага.На первом шаге метода по тексту ТЗ ищутся ключевые фрагменты, к которым применяются приведенные выше правила. Каждый выделенный по правилам фрагмент из текста ТЗ t1 заносится в список F = {f}. Два значимых фрагмента могут быть объединены вместе, если их границы пересекаются или меж-10ду ними нет значимого текста: если fm = <t, s1, e1> и fm+1 = <t, s2, e2>: e1 >= s2, тоfm = <t, s1, e2>, а fm+1 удаляется.На втором шаге проводится выделение признаков из значимых фрагментов из списка F, а также производится поиск терминов специализации текста.Ключевые фрагменты разбиваются на группы из n слов (n-граммы) и заносятсяв список, куда попадают только n-граммы, которые включают находящиеся рядом друг с другом слова, не разделенные знаком.
Параметр n показывает, длинуизвлекаемых n-грамм. Для значимых фрагментов рассчитывается вектор признаков: a = <(w, f)>, где w f – n-грамма, а f – ее частота встречаемости.Некоторые словосочетания, общие для всех отраслей, встречаются во всехтекстах и не несут важной информации (к примеру, Минэнерго России).
Извектора признаков n-грамм отсеиваются термины, встречающиеся чаще p1 иреже p2 от встречаемости самой частой n-граммы (авторские особенности текста и шум). Оставшиеся n-граммы составляют множество векторов признаковТЗ VA1 = {a}. Также для всех фрагментов создается множество их собственныхсписков n-грамм: V = {Vi} ={a}.
Схема разбора ТЗ представлена на Рис. 1.Рис. 1. Алгоритм выделения значимых частей ТЗНа третьем шаге выбранные ключевые словосочетания ищутся в отчете.Находим те предложения <sj> текста отчета t2, в которых встречаются n-граммыиз VA1 (т.е.
статистику нахождения упоминания требований в отчете). Для каждого Vi считаем меру mvi, равную отношению количества найденных совпадений из Vi в тексте отчета t2 к количеству n-грамм в Vi :mvi =m / n ,(2)где m – количество f таких что f Vi и f t2, а n – количество f в Vi.Поскольку требования, поставленные в ТЗ, могут находиться в различныхабзацах отчета, то мера mvi показывает пользователю, какие конкретно предложения с требованиями не были найдены в отчете. Позиции вхождений n-граммVA1 и Vi в текст отчета t2 заносятся в списки PA1 и Pi соответственно.Из текста отчета формируется список n-грамм с частотами их встречаемости b = <(w, f)> и вектор признаков ПД VA2 = {b}.
На основе совпадающих nграмм в VA1 и VA2 косинусная мера сходства документов:v = cos(VA1, VA2) =.(3)Вместо косинусной меры может использоваться одна из метрик, вычисляемых при помощи онтологии, например, среднее по минимумам расстояниймежду словами, вычисленными как минимальный путь в графе.Текст отчета разбивается на абзацы, каждому из которых присваиваетсявектор признаков b, который формирует списки VOj ( VO = {VOj} = {b}). Зна11чимость абзаца с номером j вычисляется как максимум косинусной меры сходства вектора b с векторами a или равна нулю, если его значимость ниже порога:voj = maxi cos(ai, bj),(4)где ai Vi, а bj VOj.Значение i (номер значимого фрагмента ТЗ), при котором мера voj (рассчитанная по формуле 4) принимает наибольшее значение, показывает, описаниюкакого требования текста ТЗ соответствует j-й абзац текста отчета.
Схема разбора отчетного документа представлена на Рис. 2.Рис. 2. Разбор текста ТЗНа четвертом шаге метода ЛПР получает следующие данные:информацию о покрытии отчета фрагментами ТЗ в виде точечной диаграммы, построенной по полученным спискам PA1 и Pi;отсортированный по возрастанию список мер mvi и принадлежащим имфрагментам текста ТЗ;меру схожести документов v целиком и меру схожести по абзацам voj;позиции найденных в отчете упоминаний требований из ТЗ.Руководствуясь результатами, пользователь принимает решение о пригодности отчета. Общий алгоритм работы пользователя состоит из следующих шагов.