Отзыв второго оппонента (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей)
Описание файла
Файл "Отзыв второго оппонента" внутри архива находится в следующих папках: Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей, Документы. PDF-файл из архива "Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве РТУ МИРЭА. Не смотря на прямую связь этого архива с РТУ МИРЭА, его также можно найти и в других разделах. Архив можно найти в разделе "остальное", в предмете "диссертации и авторефераты" в общих файлах, а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
отзыв официального оппонента Киселева Михаила Витальевича на диссертационную работу Ле Мань Ха «Вычислительный комплекс-классификатор текстов с использованием морфологнческого анализа и нсйро-семантических сетей», представленную на соискание ученой степени кандидата технических паук по специальности 05Л3,!5 «Вычислизсльные машины, комплексы и компьютерные сети» Антуааьнесгь темы диссертации определяется требованием создания современных шпоритмов„ способных нс только обработать огромное количество информации, но и решать лаями, которые несколько лет назад моглн регпать только вручную: разделение сакюв по тематическим капио~вм.
борьба со снамом, распознавание эмоциональной окраски текстов, персонификация рекламы и т,п. Спустя полвека технология машинного обучения, в том числе, обработка естественных текстов и их классификация, еще далеки от соисршспства. Создание интсллеь-гуальных систем, которые шюсобны решать творческие задачи без участия человека. имеет большое значение для развития технологии автоматической обработки данных.
Диссертация направлена на повьппение качества классификации текстов. Для этого, с одной стороны, автором решается задача морфологического анализа текстов, максимально эффективного с точки зрения скорости работы. С другой стороны, важное месю в диссертации занимаез рюработка вычислительного комплекса-классификатора текстов с использованием сетей глубинного обучения, одной из наиболее многообеща1оппгх нейросетевых парадигм в настоящее время. Научнан новизна, полученная в ходе выполнения диссертационной работы, заключается в следующем: в Разработан оригинальный метод обраоотки текстовых даниьгх лля создания морфологических словарей.
° Разрабо гни эффективный с точки зрения скорости и объема необходимой памяти метод морфологического анализа для предварительной обработки текстов, позволяющий строить морфологические характеристики для всех развитых словоформ. ° Разработаны математическое и программное обеспечения вычислительного комплекса классификации иа основе нейро-семантической саги для определения адекватно~о векторного представления грамматических структур предложений, который позволяет повысить точность классификации текстов на 5-12«4 по сравнению с другими мегодамн. ° Разработаны алгоритмическое и программное обеспечения вычислительного комплекса классификации на основе рекурсивного автоэнкодера, объединением векторов-лемм и векторов морфологичсских характеристик, который позволяет повысить точность классификации шкетов на 7-13«ь ° Разработан метод К-ближайших соссдей с использованием двоичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.
Основные научные результаты, полученные автором, заключаются в следующем: ° Разработан метод обработки текстовых данных н создания морфг логичсскнх словарей. ° Разработан метод морфолсн ичоского анализа для предварительной обработки текстов, позвиипощий получить морфологические характеристики словоформ.
° Разработан вычислительный комплекс на основе нейро-семантической сети для построения векторного представления грамматических сзрукгур предложений, который позволяет новысить точность классификации текстов на 5-124 по сравнению с другими методами.
° Разработан вычисяительный комплекс классификации на основе рекурсивного автоэнколера, объединения векторов-лемм и векторов морфологических характеристик, который позволяет повысить точность классификации текстов на 7-1304. ° Разработан вариант метода К-ближайших соседей с использованием лгюичного дерева для уменьшения количества вычислительных операций, который позволяет увеличить скорость классификации текстов в 2-4 раза.
Анализ содержании диссертации: Диссертационная работа Ле Мань Ха содержит введение, пять глав, заключение, список литературы н три приложения. Объем дисссртазни составляет 148 страниц, 4б рисунков и 11 таблиц. Список литературы включает 182 наименования. В первой главе диссертации проведен критичсский анализ существующих методов представления текстов: ТГ-Пэр, жогд2тес„О!от'е; а также основные мсюлы классификации текстов: метод Байеса, метод Роччио„метод К-ближайших соседей, метод опорных векторон, мультиномнальная лопк.гическая регрессия (Яойшах), рекурсивный автоэнкодер, свбрточная и рекуррентная нейронные сети. Вторая глава посвящена анализу методов глубокого обучения посредством искусственных нейронных сетей для обработки и классификации текстов.
Были рассмотрены многослойная нейронная сеть, метод обратного распространения ошибки для обучения нейронных сетей. автоэнкодер, сверточная и рскуррентная нейронные сети. Третья глава содержит результаты разработки вычислительного комплекса- классификатора тексзов с использованием морфо.югического анализа н нсйро-семантических сетей. Предложены нейро-семантическая сеть и рекурсивный автоэнкодер на основе морфологического анализа для получения векторного представления ~рамматнческих структур предложений текста.
Также разработан метод К ближайших соседей с использованием структуры данных двоичного дерева для умепынения количества вычислительных операций, таким образом повышает быстродействие алгоритма. В четвертой главе представлено экспериментальное исследование вычислительного комплекса-классификатора текстов. Бьши созданы морфологические словари для русского и английского языков, разработан вычислительный комплекс морфологического анализа текстов. По результатам диссертационного исследования также было разработано программное обеспеченно вычислительного комплекса-классификатора тексз ов на языках программирования С++ и Рутйоп с использованием библисчеки машинного обучения ТспвогГ!ош.
В заключении приведены основные результаты диссертационной работы. Разрабоппшые нейро-семантическая сеть и рекурсивный автоэнкодер позволяют повысить точность классификации тскстов на 5-13 % по сравнению с другими и«подами классификации. Предложенный алгоритм «К» ближайших соседен с использованием стрултуры данных двоичного дерева позволяет увеличить скорость классификации текстов в 2-4 раза.
Приложения содержат таблицы морфологических признаков, демо, пример технического задания классификации эмоциональной окраски отзывов пользователей, патент на изобретение голосовой связи на естественном языке между человеком н устройством н акты о внедрении в прах»ические разработки. Недостатки: 1. В работе недостаточно подробно рассмотрены матемазнческне основы обучения использованных нейронных сетей. 2. Недостю очно подробно освещен вопрос кзастеризацнн текстов (например„с использованнел1 самоорганизуклцейся картой Кохонена) лля визуализации классов.
3. Не проведено достаточно полного сравнения с другими нейросетеымн подходами к классификации текстов — как качественного, так н количественного. 4. В работе имеются неудачные формулировки. Заключение: Данные недостатки не снижают положительн3чо оценку научных н практических результатов диссертационной работы. Диссертация представляет собой завершенное научнос исследование, выполненное автором самостоятезыю н па высоком уровне. В ней содержится решение задачи численного моделирования текстов с использованием морфологнческого анализа н пейро-семантических сетей, которая имеет важное значение в области обработки естественного языка. Полученные автором выводы достаточно обоснованы. Считаю, что диссертация удовлетворяет требованиям «Положения о присуждении ученых степеней».
а ее автор Ле Мань Ха заслуживает присуждения ученой степени кандидата технических наук по специальности 05,13.15 «Вычислительные машины, комплексы и компьютерные сети». доцент кафедры актуарной и финансовой л1атематики факультета прикладной математики, физики и информационных технологий федерального госуларственного бюджетного образовательного учреждения высшего образования Киселев М.В. «Чувашский государственный ун т имени И.Н. Ульянова», кандидат технических наук Подпись Киселева М.В.
за~Фрякх ь.,-- '-"." „ /Ф „ .