Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации, страница 3
Описание файла
PDF-файл из архива "Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Занесение слова в словарь сопровождается подсчетом частоты его встреч в текстахОВ.7В разделе описывается процедура сокращения общего числа различных слов в словарях.Для этого используются следующие (выбираемые в процессе настройки системы) показатели:• Частота слов• Information gain;• Mutual Information;2Статистика χ ;Коэффициент корреляции.Расчета показателей для всех слов общего словаря, в нем оставляют только заданноечисло слов, которые имеют наибольшие значения выбранного показателя (это число определяетпроизводительность алгоритмов и является параметром, вводимым в систему в процессенастройки). На основании полученного таким образом общего словаря V, осуществляетсясоставление частных словарей Vi , i=1,…,K для каждого класса, а также Vij для каждоготекстового фрагмента.Полученные таким образом словари определяют словарный состав, который будетучитываться в процессе классификации текстовых сообщений.В разделе 2.3.1.2.
вводится формальная модель лингвистической структуры категорий.Эта модель определяется как вероятностная модель i-го класса в форме: p ( X i | ci ) , где ci –символ i-ого класса, X i = ( x1 , x 2 ,..., x Vi ) - вектор, каждая компонента которого бинарна и••соответствует слову из словаря Vi.
Модель каждой категории строится независимо, поэтому длясокращения записи вводится обозначение: P( X = x) = p ( X i | ci ) . В качестве ОВрассматривается TV, содержащая тексты общей ОВ, отнесенные к i-ому классу.Для упрощения расчетов функция P( X = x) рассматривается как функцию совместнойплотности распределения n случайных величин Xi, каждая из которых определена на множестве{0,1}:P ( X = x) = P( X 1 = x1 , X 2 = x2 ,..., X n = xn ) ,(2)где xi =0, если i-ое слово присутствует в текстовом фрагменте X и xi=1 если наоборот.В разделе 2.3.1.2.1. обосновывается возможность представления (2) в виде законараспределения Гиббса:F∑ λi fi ( x )11 λ⋅ f ( x )p ( X = x) =ei=e,(4)Z (λ1 , λ2 ,..., λF )Z (λ )где f(x)={fi(x), i=1,…,F} – множество бинарных функций (признаки), λi - соответствующие им∑ λi fi ( x )- нормировочная постоянная.
Функции признакикоэффициенты (параметры), Z (λ ) = ∑ e ixявляются либо простыми и соответствуют одному отдельному слову (т.е. обращаются в 1 тогдаи только тогда, когда в векторе-аргументе соответствующая данному слову компонентаобращается в 1), либо составными и соответствуют конъюнкции простых признаков.В разделе 2.3.1.2.2. определяется задача формирования оптимального пространствапризнаков на основе вероятностной модели категории. Задача формирования пространствапризнаков решается с помощью выбора такого множества признаков {fi} и соответствующих имкоэффициентов λi в модели (4), чтобы результирующее распределение p(X=x) быломаксимально близко к эмпирической функции распределения p ' ( X = x) , которую получают изОВ TV.
Близость двух распределений в работе оценивается с помощью классическихфункционалов теории информации:p' ( x)→ min , (4.5)1. I ( p': p) = ∑ p' ( x) logp( x)xи двойственного ему функционалу82. I ( p : u ) = ∑ p ( X = x) logxпри условииp ( X = x)= ∑ p( X = x) log p( X = x) → min (12)u ( x)x∑ f ( x) p( X = x | f ) =∑ f ( x) p' ( X = x) = θ , i=1,…,Fixii(5)xгде θ i ∈ R, i = 1,..., F - постоянные.Далее в разделе описывается решение задачи с последовательного, многоитерационногоалгоритма.
Вначале определяется число признаков, которые необходимо добавить в модель(параметр алгоритма). На каждой итерации производится поиск очередного оптимальногопризнака из числа кандидатов (структурный синтез). Далее найденный признак включается вмодель, что достигается за счет оптимального выбора параметра λi , уточняющего модель сучетом нового признака (параметрический синтез). Алгоритм продолжается до тех пор, пока небудет добавлено требующееся количество признаков.В разделе 2.3.1.2.3 описывается методы, использующиеся при структурном синтезе, т.е. впроцессе выбора кандидата. Для этого применяется функционал (4.5) в форме:I ( f *) = inf I ( p ': p ( f *, β )) ,ββf *+ ∑ λi f i∑ λi f i + βf *1ie, Z ' ( f *, β ) = ∑ e i.Z ' ( f *, β )xПоскольку данный функционал являются выпуклыми, то для их строго решения могутприменяться классические методы теории оптимизации, такие как метод Ньютона,градиентного спуска и т.д.В рассматриваемом бинарном случае:⎡ 1 − P 1 ( f *)⎛ P 1 ( f *)E ' ( f *) ⎞⎤⎟⎟⎥ ,+ E ' ( f *) log⎜⎜f *опт = arg min ⎢log1f *∈Fc⎝ 1 − P ( f *) (1 − E ' ( f *)) ⎠⎦⎣ 1 − E ' ( f *)гдеf * - оцениваемый кандидат,p ( f *, β ) =где Fc – множество кандидатов, P 1 ( f *) - вероятность того, что признак f * равен 1относительно текущей модели p(x), E ' ( f *) - среднее значение признака f * на эмпирическойвыборке.В разделе 2.3.1.2.4.
описывается метод параметрического синтеза. При этом найденныйоптимальный признак добавляется в модель, после чего осуществляется пересчет всехкоэффициентов λi . Это достигается за счет условной минимизации функционала (12):Для практической реализации алгоритма поиска минимума (12) используется рядклассических методов. В частности, метод улучшенного итеративного масштабирования, методвыборки из распределения Гиббса, а также метод Ньютона.Приведенные подходы позволяют сформировать пространство признаков, включающее вкачестве признаков как отдельные слова, так и словосочетания.В разделе 2.3.2. описан применяющийся в работе метод синтеза многослойной нейроннойсети с переменной структурой.В разделе 2.3.2.1 приведена формальная постановка задачи оптимальной классификации сучетом специфики синтеза многослойной нейронной сети.
Эта задача рассматривается какзадача построения оптимальной гиперповерхности, разделяющей пространство векторовтекстовых фрагментов X на ряд непересекающихся областей, соответствующих отдельнымкатегориям. Если Y - пространство выходных сигналов, то оптимальное преобразованиеX → Y должно обеспечивать заданную вероятность отнесения входного вектора x ксоответствующей ему категории.
В данном разделе также определяется пространство указанийучителя E.В разделе 2.3.2.2 вводятся основные соотношения, описывающее характеристикивходного сигнала нейронной сети. В частности, определяются эмпирическая плотностьраспределения векторов k-ого класса: f k (x) ;априорные вероятности появления векторов из9k-го класса: p k ; совместный закон распределения вероятностей входного сигнала x и указанийучителя ε : f ( x, ε ) ; закон распределения указаний учителя f ε (ε ) ; закон распределения входнойсовокупности векторов f x (x) . Рассматриваются важные частные случаи: когда ни один изтекстовых фрагментов не отнесен экспертами сразу к двум классам; случай конечнойквалификации экспертов.В разделе 2.3.2.3 вводятся и определяются различные критерии оптимизации,использующиеся в задаче классификации. В частности, рассматривается критерий максимумаапостериорной вероятностиf (ε | x)и минимума средней функции риска R:N678K KR = ∑∑ pi lij ∫ ...∫ f i ( x)dx1 ...dx N , где lij – коэффициенты матрицы потерь.
Рассматриваютсяi =1 j =1Djнаиболее важные частные случаи данных критериев и характер оптимального решения задачиклассификации, получаемой при их использовании.В разделе 2.3.2.4 описан метод оптимального решения задачи классификации сприменением математического аппарата нейронных сетей с переменной структурой. Прииспользовании данного подхода разделяющая поверхность строится из отдельных линейныхгиперповерхностей (соответствующих нейроподобным элементам - НЭ) в видерезультирующей кусочно-линейной гиперповерхности.
Синтез нейронной сети осуществляетсяна основании последовательного обучения слоев. Выбор параметров отдельных НЭ на каждомшаге алгоритма осуществляется в соответствии с минимизацией функционала среднего рискачастного вида.В разделе 2.3.2.5 описывается последовательный алгоритм синтеза первого слоя.Алгоритм строится в несколько этапов.
На первом этапе производится построение частикусочно-линейной разделяющей гиперповерхности, отделяющей один выбранный класс от всехостальных K-1 классов. Затем рассматриваются только эти оставшиеся K-1 класса. Среди нихснова выбирается класс и осуществляется построение очередной части кусочно-линейнойгиперповерхности. Таким образом на каждом этапе решается задача отделения векторов двухвыбранных классов.Построениекусочно-линейнойгиперповерхности,разделяющейдваклассаосуществляется с помощью последовательного алгоритма, который заключается в постепенномувеличении числа гиперповерхностей, до тех пор, пока не будет достигнуто заданное качествоклассификации или выполнено другое условие останова. Процесс обучения основывается напостроении логического дерева.
В геометрической интерпретации это выглядит следующимобразом. Вначале исходное пространство признаков делится с помощью одного НЭ. Синтез НЭосуществляется с помощью минимизации функционала среднего риска в пространствекоэффициентов данного НЭ. Затем наоснованиитогожекритерияVIполученные при делении областиделятся еще раз и т.д.