Отзыв оппонента (Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов)
Описание файла
Файл "Отзыв оппонента" внутри архива находится в папке "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов". PDF-файл из архива "Нейро-нечеткие методы и алгоритмы анализа электронных неструктурированных текстовых документов", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
В Щиссертационный совет Д2l2.t57.0|отзывофициального оппонента доктора физико-математических наук,профессора Буryсова Олега Борисовича на диссертацию Козлова ПавлаЮрьевича на тему: <<Нейро-нечеткие методы и алгоритмы анализаэлектронньш неструкryрированных текстовых документов>,представленную к защите на соискание ученой степеши кандидататехнических наук по специальности 05.13.17 - <<Теоретические основыинформатики>Общая характеристика оппонируемой диссертацииОппонируемая диссертационная работа состоит из списка сокращений,введения, четырёх глав, закJIючения, глоссария, одного приложения ибиблиографического списка, который вкJIючает t2З наименованияиспользованной литературы. Общий объем работы составляет 148 страниц.,Щиссертация и автореферат были представлены оппонеIIту в сроки,установленные Положением о присуждении rIеных степеней.Акryальность избранной темы определяется ростом количестватекстовой информации в электронной форме как в сети интернет, так иглобапьных и лок€Llrьных хранилищах данных и знаний.
Разновидностьюподобной текстовой инфорйации являются обращения граждан и организаций,которые посредством электронных коммуникаций передаются в органымуниципальной,изаконодательной,регион€lльнойфедеральнойисполнительной и судебной властей и требуют ответа в установленныезаконодательством сроки. Из-за возрастания количества таких сообщений длrяповышения оперативнOсти и снижения трудоемкости их обработкииспользуется широкий круг средств и €tлгоритмов компьютерной обработки,построенных на основе современных методов информатики. Известно, чтоповышение результативности автоматизированной обработки электронныхтекстовых документов зависит от точности определения адресата (ов), т.е.решения задачи рубричирования. С yreToM данной задачи значительная частьинтерфейсов систем обработки обращений различных министерств и ведомствобеспечивают возможность самостоятельного выбора рубрик самимиобращающимися.
Однако в большой части случаев з€uIвитель не обладаетнеобходимым объемом информации о компетенциях различньгх подр€вделенийили их обращения затрагивают сферу ответственности нескольких структур. Врезультате необходимо осуществлять рубрикацию исходных документов сисlrользованием методов теоретической информатики, связанньIх с аншIизомтекстов на естественном языке.Известно большое чиёло методов данного вида, которые позволяют порезультатам многоэтапного анализа относитЬ электронный текстовый документк р€tзличным рубрикам.
Однако проведенный автором диссертации анализпроцедур обработки электронных обращений граждан и организаций какразновидности изначально не структурированных TecToBbIx документов покzlз€lJlн€Lличие их особенностей, которые приводят к ошибочной адресациидокументов. Эти особенности обусловлены отсутствием текстовой р€вметкиданных (в связи с этим обращения являются неструктурированным текстовымидокументами - ЭНТД), а также изменением с течением времени лексики инабора рубрик.В результате можно выделить две основные задачи по рtввитию аппарататеоретических основ информатики:l. Разработка новьtх €tлгоритмов анализа текстов при изменениях рубрик;2.
Разработка метода комплексного использования данных алгоритмов,гtредусматривающего выбор одного из них в зависимости от характеристиканализируемых текстов.r{етом данного обстоятельства автор оппонируемой диссертацииобосновано предложил применять мультимодельный подход к анализуэлектронньж обращений с использованием нечетко-логической, нейро-нечеткойи вероятностной моделей, а также процедуры нечеткой динамическойкJIастеризации для поддержки акту.tпьности рубричного пoJuI.Резюмируя ск€ванное, можно сделать вывод об акту€Iльности иобоснованности темы диссертации Козлова П.Ю., а также перспективностипрактического примен ения результатов и сследов аний дJIя ан ализа ЭНТ,Щ.Высокая степень обосноваtlности научных положений, выводов иСрекомендаций,в диссертацииlсформулированныха такжедостоверностьисследований подтверждается- использованием.
апробированных научных положений и методовна}чных исследований, применяемых при ан€Lлизе электронных текстовых:документов;- корректным применением методов системного анализа, теории нечеткойлогики и искусственных нейронных сетей;_ согласованностью полученных новьtх результатов с известнымитеоретическими и практическими положениями в области анчIизанеструктурированных TeKcToBbIx документов;_ результатами практического использования предIоженныхвдиссертации методов и моделей дrя анализа электронньrх обращений граждан вадминистрации Смоленской' области.Новизна научных положенийо выводови рекомендации,сформулированных в диссертацииНаучная новизна диссертационного исследования состоит в том, что входе его выполнения были получены четыре основные научные результаты,которые обеспечивают определенное приращение знаний в предметной областишифра специ€шьности 05.13.17 - кТеоретические основы информатики):1) научной новизной обладает мультимодельный метод анализаэлектронных неструктурированных текстовых документов, который учитываетвторую особенность ЭНТД (бы.гlа рассмотрена выше).
Автор предJIагаетиспользовать систему нечетких lrродукционных правил для выбора наиболееподходящей модели рубрицирования ЭНТД, учитывающую как параметрысамих текстовых документов, так и характеристики рубричного поля. Щанныйметод отличается от известных комбинированным использованием (иливыбором одной из набора) моделей рубрицирования: нечетко-логической,нейро-нечеткой и вероятностной моделей.
Также метод }пIитывает характернуюдля анализа подобньтх текстов динамику изменения рубрик, что позволяетповысить точность рубрицирования при анаllизе ЭНТД р€вличных типов вусловиях изменения рубричного поля;2) цrя r{ета первой указанной выше особенности ЭНТ,Щ предложен методмониторинга и изменения рубрик на основе нечеткой динамическойклассификации, который позволяет идентифицировать следующие типовыеситуации: слияние, р€вделение, появление новой и ликвидация рубрик.
,Щанныйметод использует способ формализации ЭНТД с учетом синт€ксических связейслов в предIожениях и обеспечивает оценку степеЕи близости всехпроанализированных обращений для обеспечения адаптации рубричного поля кизменяющимся показателям текстовых документов и степени влияниязначимьtх слов дIя р€вных рубрик;3) описана каскадная нейро-нечеткая модель рубрицирования ЭНТl наклассификатора, которая использует резуJIьтатыоснове неиро-нечеткогоформагrизации текстового документа на основе экспертной оценки стеIIенивлияния значимых слов дIя рilзных рубрик и синтаксических связей слов впредIожениях, что позвQляет корректно рубрицировать электронные обращениянебольшого размера.
Несмотря на то, что за основу взят общий подход кtIостроению гибридных нейронных сетей, новизна предложенной моделизаключается в структуре частных классификационных сетей, схеме ихобъедине ния и ilлгоритмах обучения ;4) представлена нечетко-логическая модель рубрицирования ЭНТЩ наоснове нечеткого дерева решений (НДР). .Щанный метод использует экспертнуюоценку степени влияния значимых слов и синтаксические роли слов ВпредIожениях, чтобы вычислить нечеткую оценку различий ЭНТД в и-мерНоМпространстве относительно всех рубрик и построить наиболеедетuulизированное НДР. На основе НДР в дапьнейшем производитсярубрицирование электронных обращений в условиях взаимосвязанньtх рубрик инедостатке статистической информации.Возможности по реализации теоретических положенийпрактических разработок в промышленности определяются достаточновысокой степенью их универс€tльности и реализуемости.
В ЧасТНОСТИ,анализа электронныхпредJIоженные мультимодельный методнеструктурированных текстовых документов, который учитывает особенносТиЭНТД, а также модели и aлгоритмы их анализа при изменении набора рУбриКмогут использоваться специirлистами отделов информатиЗацииОРГаНОВгосударственного и муницип€UIьного правления, а также учёными, занимающимися разработкой и эксплуатацией информационных систем автоматизированного ан€шиза текстов на естественном языке.Особо следует отметить разработку автором диссертации завершеннойинформационной системы <Artex 1.0), на которую получено свидетельство огосударственной регистрации программы для ЭВМ. Работоспособность указанного программного продукта подтверждается демонстрацией в диссертации ряда примеров окон визуаJIьно интерфейса, справкой внедрения в учебный процесс Смоленского филиала МЭИ и справкой внедрения в администрации Смоленской облаоти.К недостаткам работы можно отнести следующие.1.I_{елый ряд терминов, используемых в названиях р€lзделов и непосредственно в материалах диссертации, требуют конкретизации.
Например, к таким терминам можно отнести понrIтия (короткий документ)), (неструктурированный документ) и т.д. Несмотря на н€шичие на стр. 138-141 диссертацииглоссария терминов и определений, необходимо было дать более четкое, желательно содержащее количественные оценки толкование приведенных понятий,.2. Очевидно, что на практике ни одна из представленных в таблице 2.1на стр. 43 ситуаций, характеризующих состояние рубричного поля, в чистомвиде не наблюдается. В связи с этим возникают два вопроса:- каким образом происходит выбор модели для рубрицирования текстовыхдокументов на начальном этапе функционирования информационной системы их ан€uIиза, на котором отсутствует информация для <<обучения>> моделей;_ какую отруктуру нечеткого дерева решений, приведенную на стр.
б6, требуется использовать при наличии пересекающихся рубрик?3. При идентификации ситуации изменения рубричного пoJuI следов€Lлобы внести ((несимметричность)) при оценке отнесения/неотнесеНИя электроНных текстов к соответствующей рубрике, так как выражения для выЧисЛениЯстепени соответствия этих текстов ко всем рубрикам на странице 68-б9 ДИСсертации связаны простейшим преобр€вованием.