Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 2
Текст из файла (страница 2)
Создание модели информационного обеспечения деятельности научного сообщества, включая научно-организационную и научно-инновационную деятельность.4. Разработка отвечающей основным системным принципам модели информационной системы.5. Разработка информационной модели отношений и тематических связей междудокументами системы.6. Разработка структуры логических компонентов системы, отвечающих за поискинформации, вывод новых знаний и диалог с пользователем.7. Описание многомерных классификационных признаков, отвечающих такой совокупности заранее сформулированных информационных запросов, которая былабы в состоянии удовлетворить основные информационные потребности пользователей системы, а также выделение соответствующих классификационных признаков для систем информационного обеспечения научной, научно-организационной и научно-инновационной деятельности.8.
Разработка методики создания тезаурусов и онтологий, обеспечивающей высококвалифицированное описание предметной области с использованием надежновыверенных терминов и позволяющей провести начальный этап работы с минимальным привлечением специалистов — экспертов в данной предметной области.9. Исследование принципов и разработка алгоритмов автоматизации научноинформационного процесса с участием слабоструктурированных документов, который включает извлечение метаданных из документов, координатное индексирование терминами-словосочетаниями и классификацию (кластеризацию) документов.Методы исследования.
В диссертации использованы методы информатики какнауки о структуре и свойствах семантической информации, системного анализа, теории кибернетических систем, семиотики, теории моделирования баз данных, теориисходства, математического моделирования, а также информационные технологии.Объект исследования. Данные, содержащиеся в слабоструктурированных текстовых электронных документах научной и научно-организационной тематики.5Предмет исследования. Модели, структуры и алгоритмы, описывающие программные системы информационного обеспечения научной деятельности, предназначенные для работы со слабоструктурированными документами с целью получения наосновании содержащихся в них данных новой информации и знаний.Научная новизна. Полученный в работе комплекс теоретических результатов,обобщений и исследований позволил решить научно-техническую проблему теоретического обоснования и разработки технологических основ создания программных систем,обеспечивающих автоматизированное включение в научно-информационный процессслабоструктурированных документов с целью получения на основании содержащихсяв них данных новой информации и знаний.Наиболее существенные научные результаты заключаются в следующем:– Обоснована методология комплексного изучения интернет-сайтов.– Предложена модель информационного обеспечения деятельности научного сообщества, отличительными особенностями которой являются четкое выделениесубъектов (включая организации и группы) и объектов деятельности, а такженеиерархичность структуры субъектов деятельности.– Разработана отвечающая основным системным принципам модель информационной системы, отличительной особенностью которой является использование вкачестве основных структурных элементов документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаютсяпосредством направленных связей.– Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образыисходных документов, и онтология предметной области.– Предложена базовая структура представления информации на основании многомерной классификации, описываемая посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.– Разработана методика создания тезаурусов и онтологий на основе предметногоуказателя специализированных энциклопедий, отличительной особенностью которой является возможность автоматизированного установления связей междутерминами.– Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие этиалгоритмы, функционируют как сетевые приложения.Достоверность и обоснованность научных положений, результатов, выводов ирекомендаций, приведенных в диссертационной работе, обеспечиваются применениемнадежных методов исследования, корректностью использования адекватного математического аппарата и подтверждены результатами использования предложенных информационных моделей и структур при создании целого ряда разделов Информационно-справочной системы Сибирского отделения РАН, применением разработанных алгоритмов обработки слабоструктурированной информации для развития разрабатываемых в институтах СО РАН информационных систем по конкретным направлениямнаук, а также апробацией и обсуждением результатов работы на международных и6всероссийских научных конференциях, рецензированием и предварительной экспертизой научных статей, опубликованных в ведущих научных изданиях.Практическая значимость и внедрение.
На основе полученных в работе теоретических результатов и методических рекомендаций создан комплекс методов,обеспечивающий решение важной научно-технической задачи: включения в научноинформационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных новой информации и знаний.Результаты работы использованы при выполнении проекта конкурса молодых ученых ННЦ СО РАН “Интегрированная информационная система научного сообщества(пилотный проект — система «Математика»)” (автор выступал в роли руководителяпроекта); молодежного научного проекта СО РАН № 2003–6 “Разработка информационной системы «Web-ресурсы математического содержания»” (автор выступал в роли руководителя проекта); проектов программы поддержки ведущих научных школРФ № НШ–2314.2003.1 “Информационно-вычислительные технологии в задачах принятия решений”, № НШ–9886.2006.9 и № НШ–931.2008.9 “Разработка информационновычислительных технологий в задачах принятия решений”, НШ–6068.2010.9 “Разработка информационно-вычислительных технологий поддержки принятия решений”; Федеральной целевой программы “Научные и научно-педагогические кадры инновационнойРоссии” на 2009-2013 гг.
(госконтракт ГК № П484 от 04.08.2009 г. по проблеме “Создание научно-технического задела, направленного на разработку новых, эффективных с позиций функциональности и безопасности, основанных на онтологиях, мультиагентных технологий управления распределенными разнородными информационнымихранилищами и библиотеками информационных ресурсов”); госконтрактов “Технологияразработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методовинтеллектуального анализа данных и машинного обучения” (шифр 2007–4–1.4–00–04–103) и “Технология разработки распределенных программных систем для мониторингаи обеспечения информационной безопасности информационных систем, потенциальноуязвимых в отношении деструктивных информационных воздействий” (шифр 2007–4–1.4–15–04–004); проектов РФФИ № 03–07–90423–в “Виртуальный музей науки и техники СО РАН”, № 06–07–89060–а “Разработка модели виртуальной среды для обменарезультатами научных исследований”, № 06–07–99003–с “Ресурсы сети Интернет какобъект научного исследования” (конкурс научно-популярных статей, в соавторстве с А.М.
Федотовым), № 07–07–00271–а “Разработка и анализ модели управления доступомк распределенным информационным ресурсам” № 09-07-00277–а “Разработка технологий построения распределенных интегрируемых систем обработки, хранения и передачи информационных ресурсов на основе открытых спецификаций моделей данных”,№ 10-07-00302–а “Разработка и анализ модели построения электронных библиотек наоснове международных стандартов”; интеграционных проектов СО РАН № 2003–132“Виртуальный музей науки и техники СО РАН”, № 2006–34 “Создание распределенной информационно-аналитической среды для исследований экологических систем”,№ 2006–35 “Древовидный каталог математических интернет-ресурсов”, № 2006–115 “Разработка интеллектуальных информационных технологий генерации и анализа знанийдля поддержки фундаментальных научных исследований в области естественных наук”, № 2009–50 “Модели изменения биосферы на основе баланса углерода (по натурными спутниковым данным и с учетом вклада бореальных экосистем)”.Результаты исследований были отмечены премией конкурса Администрации Новосибирской области за научные разработки молодых ученых и премией Благотворительного фонда В.
Потанина за победу в конкурсе “Лучшие молодые преподаватели вузов7Сибирского федерального округа”.Результаты исследований внедрены в Информационно-справочной системе СОРАН, занимающей, по данным на июль 2010 г. рейтинга Webometrics, в который входятсайты ведущих научно-исследовательских центров всего мира, 1-е место среди российских сайтов (19-е — в Европе, 54-е — в мире), а также использованы в процессе созданияряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки MathTree, Распределенной информационно-аналитической среды для экологическихисследований, сайта журнала “Вычислительные технологии”.Результаты диссертационной работы использованы в учебном процессе кафедры математического моделирования Новосибирского государственного университета, кафедры вычислительных технологий Новосибирского государственного технического университета и кафедры прикладной математики и кибернетики Сибирского государственного университета телекоммуникаций и информатики.Основные положения, выносимые на защиту.
Технологические основы создания программных систем, обеспечивающих автоматизированное включение внаучно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний, включающие в себя:– модель информационного обеспечения деятельности научного сообщества, отличающуюся от известных четким выделением субъектов и объектов деятельности;– отвечающую основным системным принципам модель информационной системы,представляемой как множество документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредствомнаправленных связей;– оригинальный алгоритм создания тезаурусов и онтологий на основе предметныхуказателей специализированных энциклопедий;– принципы и алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включаяизвлечение метаданных, определение ключевых слов, классификацию и кластеризцию), причем программные средства, реализующие эти алгоритмы,функционируют как сетевые приложения.Апробация результатов исследования.