Многоагентная автоматизированная система адаптивной фильтрации потоков текстовой информации (1025392), страница 5
Текст из файла (страница 5)
Также определяется программныйинтерфейс и протоколы взаимодействия.В разделе 3.6 определяется структура баз данных, применяющихся в системе, которыесистематизируются и классифицируются.Раздел 3.7 посвящен краткому описанию методическому обеспечения АСУ ИП. Оновключает в себя справочную систему и документацию, определенную требованиями ГОСТ.13Четвертаяглавапосвященаописаниюэкспериментальныхисследований,иллюстрирующих эффективность применения предложенных и разработанных моделей,методов и алгоритмов, решающих задачу адаптивной фильтрации текстовых сообщений.
Вразделе 4.1 описаны задачи, ставящиеся перед экспериментальными исследованиями,результаты которых описаны в последующих разделах данной главы.В разделе 4.2. производится оценка качества классификации в зависимости от объемаобучающей и проверочной выборки в различных сочетаниях. Качество классификацииэкспоненциально возрастает в зависимости от объема обучающей выборки (см. рис.
). Такую жетенденцию демонстрирует проверочная выборка. Эксперименты показали, что наилучшихрезультатов достигают систем, в которых общая выборка делиться в пропорции: 2/3 –обучающая, 1/3 – проверочная.Раздел 4.3 посвящен исследованию методов формирования пространства признаков. Вэкспериментах, описанных в этом разделе, рассматриваются два вида методов:• метод предварительного сокращения пространства признаков (по критериям частоты слов,information gain, mutual information, хи-квадрат, коэффициента корреляции);• метод учета значимых словосочетаний с использованием моделирования стохастическойструктуры категорий.Установлено, что методы предварительного снижения размерности, основанные на частотеслов, information gain, хи-квадрат и коэффициенте корреляции позволяют сократить до 90%уникальных слов без потери качества или даже с некоторым его увеличением (до 2% всоответствии с мерой средней точности) – см.
рис. 6. Все указанные методы можнорекомендовать в качестве альтернативы в процессе обучения. Однако, метод information gainрекомендуется в случае наиболее агрессивного сокращения пространства признаков; критерийчастоты слов может использоваться для сокращения времени обучения; промежуточныерезультаты показали критерии хи-квадрат и коэффициент корреляции.
Метод mutual informationпоказал наихудшие результаты и не должен использоваться в системах данного класса.Остальная часть раздела посвящена исследованию метода выбора значимых словосочетаний.Эксперименты показали, что качество классификации с использованием данного метода можетбыть повышено в пределах 2-5% в зависимости от числа учитываемых словосочетаний.Поскольку метод требует значительных объемов вычислений, его рекомендуется использоватьтолько в случаях, когда в обучающей выборке происходят значительные изменения и неприменять в штатных задачах дообучения.Раздел 4.4 посвящен оценке числаНЭ первого слоя, необходимыхдля реализации заданного качестваклассификации.Экспериментыпоказали, что увеличение числаНЭ первого слоя до 4-х на каждыйклассприводиткростувероятностиправильнойклассификации в пределах всреднем от 4% (2 НЭ 1-го слоя) до5,8% (4 НЭ первого слоя).Дальнейшее увеличение числанейроноввбольшинствеэкспериментов показало снижениевероятностиправильнойклассификации на проверочнойвыборке,чтообъясняетсяэффектомпереобученияРис.
6. Точность классификации при различных(overfitting)нейроннойсети.методах сокращения размерности пространствапризнаковВ разделе 4.5 изучена работа14различных методов, предлагаемых системой для обучения НЭ первого слоя. В экспериментах,описанных в этом разделе, рассматриваются два фактора, влияющих на качествоклассификации:• выбор критерия вторичной оптимизации (первый и второй моменты дискретной ианалоговой ошибки на выходе НЭ);• выбора шага процедуры настройки коэффициентов НЭ.Сравнение и оценка рассматриваемых критериев вторичной оптимизации показалаблизкие результаты для каждого из них. В частности, эксперименты с нейронными сетями, с 4мя НЭ на каждый класс в первом слое показал результаты, представленные на рис.Эксперименты с выбором шага проводились для следующих режимов:• постоянный шаг;• монотонно убывающий шаг;• адаптивный шаг.Наилучшие результаты показала процедура с адаптивным шагом, позволяющая повыситькачество классификации в пределах до 6%.ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИРазработаны принципы и методы построения многопользовательских автоматическихмногоагентных систем фильтрации потоков текстовых сообщений, функционирующих на базеадаптивных алгоритмов, а также их программная реализация.1) Проведен анализ и систематизация возможностей существующих корпоративных АСФНР и методов их интеграции в системы электронной почты.2) Выработаны требования к функциональному составу, алгоритмическому ипрограммному обеспечению, выполнение которых необходимо для построенияэффективных в современных условиях АСФ НР.3) На базе стандартной инфраструктуры систем электронной почты разработана иисследована многоагентная архитектура АСФ НР, позволяющая отдельнымпользователям участвовать в процессе фильтрации НР: воздействовать на алгоритмынастройки фильтров и осуществлять выбор степени жесткости фильтрации виндивидуальном порядке.4) Разработан комплекс средств, позволяющих производить сквозной учет поступающих вкорпоративную систему сообщений.5) Разработаны математические методы, позволяющие производить формированиеобучающей выборки с учетом значимости голосов отдельных пользователей.6) Разработаны математические методы выбора пространства признаков в задаче анализасодержания сообщений, что позволило повысить точность анализа за счет учетазначимых словосочетаний.7) Разработан метод синтеза нейронной сети с переменной структурой, входным сигналомкоторой являются разряженные векторы большой размерности (десятки тысяч).8) Проведены исследования и выбор методов программной и аппаратной реализациисредств фильтрации НР.9) Разработан аппаратно-программного комплекс фильтрации НР на основе разработанныхпринципов;10) Проведеныэкспериментальныеисследования,нагляднодемонстрирующиеэффективность применения разработанных принципов, моделей, методов и алгоритмов взадаче фильтрации НР в информационной сети Интернет.
Средняя вероятностьправильной фильтрации сообщений НР по профилям “жесткая”, “умеренная” и “мягкаяфильтрация” соответственно составила: 68,2%, 79,6%, 82,0%. Вероятность ложнойфильтрации пользовательских сообщений соответственно: 0%, 0,01%, 1,4%. Длясравнения, современные коммерческие системы в режиме с уровнем ложных сработокпорядка 2-3% достигают пикового показателя вероятности правильной фильтрации 7075%.15Основные положения диссертации изложены в следующих работах:1. Цыганов И.Г.
Нейросетевые методы автоматизированного анализа информационных потоковв масштабе реального времени Международная молодежная научно-техническая конференция“Наукоемкие технологии и интеллектуальные системы”. Сборник научных трудов – М., 2002 г.,с. 19-242. Цыганов И.Г. Оценка применимости нейросетевых парадигм при решении задачи сквозногосемантического анализа текстовых сообщений V Международная молодежная научнотехническая конференция “Наукоемкие технологии и интеллектуальные системы”. Сборникнаучных трудов – М., 2003 г., Часть I, с.
66-773. Цыганов И.Г. Генерирование тестовой выборки большой размерности и модальности в задачесамообучения нейронной сети V Международная молодежная научно-техническая конференция“Наукоемкие технологии и интеллектуальные системы”. Сборник научных трудов – М., 2003 г.,Часть I, с. 78-864. Цыганов И.Г. Neural Network Hardware-Software Complex for Raw Message StreamClusterization in Real Time Mode V Международная молодежная научно-техническаяконференция “Наукоемкие технологии и интеллектуальные системы”. Сборник научных трудов– М., 2003 г., Часть II, с. 120-1255.
Цыганов И.Г. О динамике настройки нейронной сети при решении задачи кластеризациивходного сигнала большой размерности и модальности V Международная молодежная научнотехническая конференция “Наукоемкие технологии и интеллектуальные системы”. Сборникнаучных трудов – М., 2003 г., Часть II, с. 126-1316. Цыганов И.Г. Применение нейросетевых методов для фильтрации SPAM сообщенийМеждународная молодежная научная конференция “Информатика и системы управления в XXIвеке”.
Сборник научных трудов. М., 2003 г., с. 26-337. Руденко М.И., Цыганов И.Г. Метрики текстов в автоматизированных системах обработкиинформации, VI Международная молодежная научно-техническая конференция “Наукоемкиетехнологии и интеллектуальные системы”. Сборник научных трудов – М., 2004 г., с.8. Цыганов И.Г. Метод аналитической настройки нейронных сетей в задаче контекстнойклассификации текстов, VI Международная молодежная научно-техническая конференция“Наукоемкие технологии и интеллектуальные системы”. Сборник научных трудов – М., 2004 г.,с.9.
Цыганов И.Г. Решение задачи автоматизированной контекстой классификации с помощьюстохастического моделирования лингвистической структуры категорий, VI Международнаямолодежная научно-техническая конференция “Наукоемкие технологии и интеллектуальныесистемы”. Сборник научных трудов – М., 2004 г., с.10. Цыганов И.Г.
Формирование пространства признаков в задаче категоризацииинтерактивных потоков текстовой информации, VI Международная молодежная научнотехническая конференция “Наукоемкие технологии и интеллектуальные системы”. Сборникнаучных трудов – М., 2004 г., с.11. Цыганов И.Г., Власов А.И. Адаптивная фильтрация информационных потоков вкорпоративных системах на основе механизма голосования пользователей // Информационныетехнологии, Сентябрь 2004.12. Цыганов И.Г., Власов А.И. Архитектура корпоративной многоагентной автоматизированнойсистемы фильтрации информационных потоков // Информационные технологии, Январь 2005.16.