Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 3
Текст из файла (страница 3)
Основные положения диссертации обсуждались на многих международных, всероссийских и региональных конференциях, в том числе на Всероссийских научных конференциях “Электронные библиотеки:перспективные методы и технологии, электронные коллекции” – RCDL (Дубна, 2002;Санкт-Петербург, 2003; Ярославль, 2005; Суздаль, 2006; Переславль–Залесский, 2007;Дубна, 2008; Петрозаводск, 2009; Казань, 2010); Второй Международной конференции IASTED по автоматизации управлению и информационным технологиям (Новосибирск, 2005); Международных конференциях и совещаниях по электронным публикациям – El-Pub (Новосибирск, 2002, 2003, 2004); Всероссийских конференциях с участием иностранных ученых “Распределенные информационно-вычислительные ресурсы” – DICR (Новосибирск, 2005, 2008); Международной конференции “Распределенныеинформационно-вычислительные ресурсы” (Казахстан, Павлодар, 2006); Международной конференции “Вычислительные и информационные технологии в науке, технике иобразовании” (Казахстан, Алма–Ата, 2004); Международных конференциях “Системный анализ и информационные технологии” – САИТ (Переславль–Залесский, 2005;Звенигород, 2009); Международной конференции “Мальцевские чтения” (Новосибирск,82008), Всероссийских конференциях с международным участием “Знания – Онтологии – Теории” – ЗОНТ (Новосибирск, 2007, 2009); Всероссийских научно-практическихконференциях “Инновационные недра Кузбасса.
IT-технологии” (Кемерово, 2005, 2007,2008); Всероссийской научно-практической конференции “Системы автоматизации в образовании, науке и производстве” (Новокузнецк, 2007); Всероссийских конференцияхмолодых ученых по математическому моделированию и информационным технологиям(Красноярск, 2003; Монголия, Ханх, 2009 — лекционный доклад; Красноярск, 2010 —лекционный доклад); Конференциях молодых ученых СО РАН, посвященных М. А.Лаврентьеву (Новосибирск, 2003, 2004); а также на семинарах и совещаниях в Институте вычислительных технологий СО РАН, Институте системного анализа РАН, Институте математики СО РАН, Институте систем информатики СО РАН, Институтединамики систем и теории управления СО РАН, Московском государственном университете печати, Новосибирском государственном университете и др.Публикации.
Результаты диссертации опубликованы в 57 работах (список приведен в конце автореферата), включая 21 статью в ведущих журналах, рекомендованных ВАК РФ [1–21], 1 статью в журнале “Электронные библиотеки” [22], 13 статей всборниках трудов международных конференций [23–35], 22 статьи в сборниках трудоввсероссийских конференций [36–57].В работах, выполненных в соавторстве, В.Б.Барахнину принадлежат результаты,относящиеся к исследованию информационных потребностей научного сообщества, разработке информационной модели описания деятельности научного сообщества, моделейи структур основных компонентов интеллектуальной системы, модели направленныхсвязей между документами, базовых структур представления информации, разработке методики комплексного изучения интернет-сайтов, разработке методики созданиятезаурусов и онтологий на основе предметного указателя энциклопедий, исследованиюпринципов и созданию алгоритмов автоматизации научно-информационного процесса сучастием слабоструктурированных интернет-документов, а также результаты по практическому использованию этих алгоритмов.Структура и объем диссертации.
Диссертация состоит из введения, 7 глав,заключения, списка использованных источников из 285 наименований, приложений(в т.ч. актов и справок о внедрении результатов в научных учреждениях и в учебныйпроцесс вузов). Общий объем работы 315 страниц, включая 24 рисунка и 8 таблиц.ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИВо введении обосновывается актуальность диссертации, сформулированы цели,задачи, объект, предмет и методы исследования, приведены научная новизна и практическая ценность работы, дана общая характеристика работы.В первой главе излагаются теоретические основы создания программных систем информационного обеспечения научной деятельности.В § 1.1 на основе семиотического подхода проведено уточнение терминологии, используемой в исследовании.
Речь идет о терминах “информация”, “знание”, “тезаурус”,“онтология”, “информационная система”, “интеллектуальная информационная система”.На основании анализа работ К.Шеннона, Л.Бриллюэна, С.Голдмана,А.А.Колмогорова, А.Н.Ляпунова, А.И.Михайлова, Р.С.Гиляревского, А.И.Черного,П.Чена, Ю.А.Шрейдера, У.Шрамма, Р.Акоффа, Ф.Эмери, В.Гитта, Ю.М.Арского,И.М.Зацмана изучена эволюция понятия “информация”. Показано, что наиболееполно различные аспекты термина “информация” отражены в модели В.Гитта (1982),9согласно которой сообщение может нести до 5 уровней информации: статистический,синтаксический, семантический, прагматический и т.н.
апобетический. При этомналичие в некотором сообщении информации высокого уровня влечет за собой наличиеинформации всех низших высоких уровней, но, разумеется, не наоборот. Идеи, весьмаблизкие к тем, которые воплощены в модели В.Гитта, однако в несколько менеестройной форме, были высказаны в монографии Ю.А.Шрейдера и А.А.Шарова (1982).Показано, что нижний уровень модели соответствует шенноновскому значению термина “информация”, три последующих — семиотической триаде (синтактика — семантика — прагматика), а верхний уровень носит, скорее, философский характер.Важно подчеркнуть, что семиотический подход фактически использован при определении базисных понятий в фундаментальной монографии ВИНИТИ “Инфосфера”(1996).
Данные понимаются в ней (в соответствии с традиционным подходом) как факты и идеи, представленные в символьной форме, позволяющей проводить их передачу,обработку и интерпретацию, а информация — как смысл, приписываемый данным на основании известных правил представления фактов и идей. Структурированная (связанная причинно-следственными и иными отношениями) информация, образующая систему, составляет знания. Исходя из этого понимания терминов “данные”, “информация”,“знания”, можно сказать, что данные соответствуют синтаксическому уровню сообщения, информация (в узком смысле!) — семантическому, а знания — прагматическому.Термин “тезаурус” прочно вошел в профессиональную лексику специалистов в области информатики в середине 1950-х годов (Кембриджская группа по исследованиюязыка, Ч.Берньер), причем определения тезауруса непринципиально варьировались взависимости от класса задач, для решения которых предназначался тезаурус.
Применительно к задачам информационного поиска под тезаурусом понимался так называемый нормативный тезаурус — словарь-справочник, содержащий все лексические единицы информационно-поискового языка — дескрипторы, причем дескрипторы в словаредолжны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены.Однако в 1990-х годах в информатике, наряду с термином “тезаурус”, стал употребляться близкий по смыслу термин “онтология”. В настоящее время под онтологиейнередко стали понимать широкий спектр структур, представляющих знания о той илииной предметной области с разной степенью формализации, при этом в работах многихавторов термин “онтология” начал употребляться вместо термина “тезаурус”.
Возникласитуация, когда разными терминами стали называть один и тот же объект. Попыткаразрешения коллизии сделана в работах А.С.Нариньяни, причем в основе проделанногоим анализа лежит семиотическая методология. Из его работ вытекает следующий практический вывод: тезаурус становится онтологией тогда, когда связи между дескрипторами не просто эксплицированы (как это предусмотрено в классическом определении),но и классифицированы.Наконец, когда в исследовании идет речь об программных системах информационного обеспечения научной деятельности, подразумеваются интеллектуальные информационные системы, включающие в себя (“Инфосфера”), наряду с информационной системой (понимаемой, в узком значении термина, как множество связанных между собойресурсов), логическую систему, интеллектуальный интерфейс, а также средства автоматического пополнения базы данных и извлечения данных из текстов.
Такие системы обладают новыми возможностями по сравнению с классическими информационнопоисковыми системами, позволяя удовлетворить квалифицированного пользователя всоответствии со схемой “документ — факт — рассуждение”, то есть, в соответствии сприведенными выше определениями, интеллектуальные информационные системы поз-10воляют не только извлекать из данных информацию, но и получать новые знания.На основании изложенного сделан вывод, что функционирование интеллектуальнойинформационной системы основано на двух противоположных процессах: при ее пополнении новыми сведениями происходит преобразование семантической информациив данные, однако непосредственно потребности пользователя удовлетворяет обратныйпроцесс — извлечение из данных нужной пользователю информации и знаний.В § 1.2 проанализированы основные особенности научно-информационного процессас участием интернет-документов.Показано, что важнейшей отличительной особенностью процесса каталогизацииинтернет-документов является использование метаданных, которые (см.
Ю.Е.Хохлов,С.А.Арнаутов), нельзя рассматривать как обычную разновидность каталожного описания документов ввиду специфики области их применения, используемых подходов ит.п. Иными словами, сбор интернет-документов сводится к сбору их метаданных, поскольку, информационная система работает исключительно с метаданными; к тому женепосредственное копирование документов может вызвать серьезные вопросы относительно соблюдения авторских прав.Согласно стандартам построения открытых систем, структура и содержание документа должны описываться в соответствии с международными схемами данных. Дляописания соответствующих схем данных используются метаданные, которые определяют структуру и смысловое содержание документа, а также правила работы с ним.Показано, что структура метаданных иерархична: наиболее общий характер имеют метаданные, задающие структуру документа, то есть описывающие метаданные болеенизкого уровня (атрибуты документа), которые определяют содержание документа,наконец, значения этих атрибутов является фактически метаданными по отношениюк исходному документу.Стандарты на метаданные для описания научной информации должны обеспечивать полноту описания основных типов научной информации, открытость для доступа,расширяемость описаний, возможность интеграции информации, уникальную идентификацию информации, распределенность хранения информации, интероперабельностьс внешней средой.
В наибольшей степени перечисленным требованиям удовлетворяетнабор элементов метаданных так называемого Дублинского ядра (Dublin Core), который может быть расширен схемами конкретной предметной области.Показано, что существующие подходы к сбору метаданных документов в информационных системах недостаточно хорошо подходят для работы со слабоструктурированными документами. Так, электронные библиографические базы (Current Contents,Zentralblatt MATH, Реферативные журналы) содержат составленные экспертами краткие аннотации “бумажных” документов без ссылок на электронные (обычно более подробные, чем аннотация) версии документов и уж тем более без метаданных, задающихссылки на документы, описывающие персоны авторов.