Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956)
Текст из файла
На правах рукописиБарахнин Владимир БорисовичПРОГРАММНЫЕ СИСТЕМЫИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯНАУЧНОЙ ДЕЯТЕЛЬНОСТИ:МОДЕЛИ, СТРУКТУРЫ И АЛГОРИТМЫ05.13.17 — теоретические основы информатикиАВТОРЕФЕРАТдиссертации на соискание ученой степенидоктора технических наукНовосибирск - 2010Работа выполнена в Институте вычислительных технологийСибирского отделения Российской академии наукНаучный консультант:член-корреспондент РАН, доктор физико-математических наук,профессор А. М.
ФедотовОфициальные оппоненты:член-корреспондент РАН, доктор физико-математических наук,профессор В. В. Шайдуровдоктор технических наук, профессор В. Ф. Хорошевскийдоктор технических наук, профессор С. В. МальцеваВедущая организация:Институт математики Сибирского отделенияРоссийской академии наукЗащита диссертации состоится “” февраля 2011 г. вчасовна заседании диссертационного совета Д 212.147.03 при Московскомгосударственном университете печати по адресу: 127550, Москва,ул. Прянишникова, 2а.С диссертацией можно ознакомиться в читальном зале библиотеки МГУП.Автореферат разослан “” декабря 2010 г.Ученый секретарь диссертационного советад.т.н., профессорВ.
Н. АгеевОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность проблемы. Происшедшее за последние 10–15 лет бурное развитие высоких технологий в области передачи и обработки информации, в частностисоздание современных телекоммуникационных систем (прежде всего сети Интернет),привело к появлению принципиально новых возможностей организации практическивсех этапов научно-информационного процесса, что в свою очередь обусловило качественный рост информационных потребностей научных работников.К наиболее перспективным направлениям развития информационного обеспечениянаучной деятельности относятся информационные технологии.
В данном исследовании речь пойдет только о тех способах удовлетворения информационных потребностейнаучного сообщества, которые базируются на электронных технологиях. В рамках указанного подхода основным инструментом информационного обеспечения научной деятельности являются информационные системы.В настоящее время научные сообщества наиболее развитых стран и регионов мираобладают достаточно мощными информационными системами. В Европе функционирует интегрированная система ERGO, являющаяся частью проекта CORDIS.
Среди американских разработок своими масштабами выделяется информационная система Библиотеки конгресса США. К числу наиболее крупных и востребованных научным сообществом отечественных информационных систем относятся Единое научное информационное пространство (ЕНИП) РАН, “Информика”, Университетская информационнаясистема РОССИЯ, Научная электронная библиотека eLIBRARY, Соционет. Методология разработки программных систем информационного обеспечения различных аспектов научной деятельности на базе новых интернет-технологий предложена в работахЮ.И.Шокина и А.М.Федотова; А.Б.Жижченко, В.А.Серебрякова, А.Н.Бездушного исоавторов; А.Н.Тихонова, А.Д.Иванникова, В.П.Кулагина и соавторов; С.В.Мальцевойи др.Названные системы в той или иной степени удовлетворяют потребностям исследователей в информации, однако каждая из них страдает определенными недостатками.Во-первых, существенной проблемой большинства программных систем информационного обеспечения научной деятельности является недостаточно своевременная актуализация информации, особенно проявляющаяся при включении в научноинформационный процесс слабоструктурированных документов (т.е.
документов, укоторых значения атрибутов метаданных, как содержательных, так и структурных,не являются элементами заданных словарей). Наибольшие проблемы вызывает организация поиска по предметным классификаторам, поскольку слабоструктурированныедокументы нередко лишены соответствующих классификационных признаков.Во-вторых, построение масштабных информационных систем для поддержки научной деятельности требует распределенного хранения информации.
Отсюда неизбежно возникает проблема интероперабельности, то есть обеспечения взаимодействия разнородных информационных источников (как с целью их непосредственной интеграции,так и для организации поиска по однотипным подсистемам различных информационных систем). К сожалению, большинство информационных систем не обладает такимисовременными средствами обеспечения интероперабельности, как возможность работы со службой директорий, а также возможность интеграции с другими системами посхемам данных.В-третьих, при создании информационных систем зачастую недостаточное внимание уделяется вопросам организации взаимодействия разрабатываемой системы с3потребителями информации.
Для возможности эффективного восприятия человекомданных нужно, чтобы они были превращены в “информацию” и “знания”. Сказанное, вчастности, означает, что предполагаемая возможность извлечения из содержащихся винформационной системе данных новой информации и знаний1 влечет за собой необходимость наличия связей между документами, содержащими упоминание тех или иныхсущностей, с документами, описывающими эти сущности.Преодоление указанных проблем возможно путем создания интеллектуальных информационных систем, в качестве составных компонентов которых выступают, нарядус традиционной информационной системой, еще и рассуждающая информационная система (формализующая правила логического вывода), а также интеллектуальный интерфейс (диалог, графика и т.д.), благодаря которому компьютер в диалоговом режимеусиливает комбинаторное мышление и логические возможности человека.Развитие сети Интернет предоставило создателям интеллектуальных информационных систем новые возможности, связанные с одновременным доступом ко множествуразнородных источников данных, что открывает широкие перспективы в развитии более совершенных технологий получения знаний.
Однако многие современные исследования в области интеллектуального поиска опираются на неявное предположение овозможности широкого распространения более или менее подробной стандартизациипредставления информации. Разумеется, реализация подобных проектов, прежде всегоконцепции Semantic Web консорциума W3, позволила бы вывести работу с информацией на качественно новый уровень. Однако важная особенность сети Интернет как феномена цивилизации заключается в том, что развитие информационных ресурсов сетиизначально носит децентрализованный характер, поэтому многие ресурсы, содержащиеважную информацию из той или иной предметной области, не соответствуют рекомендациям консорциума W3. Отметим, что на большинстве сайтов документы являютсяслабоструктурированными, т.е. значения атрибутов их метаданных носят достаточнопроизвольный характер, а не являются элементами заданных словарей (это относитсякак к содержательным, так и к структурным метаданным).Алгоритмы обработки слабоструктурированных документов описаны в работахкак зарубежных (В.Крещенди, Дж.Мекка, П.Мериальдо, 2001; А.Сауджет, Ф.Азавант,2001, и др.), так и отечественных (И.Некрестьянов, Е.Павлова, 2002, И.В.Некрасов,В.O.Толчеев, 2005, и др.) авторов.
Основная идея таких алгоритмов базируется, какправило, на анализе их html-разметки. Однако имеются важные нерешенные проблемы:1. Из документов извлекаются лишь те данные, которые присутствуют непосредственно в них самих, хотя в удаленных библиографических базах данных зачастую содержатся более подробные описания документов, которые сделаны экспертами, включающие коды классификатора (обычно отсутствующие в самихдокументах), ключевые слова и др.2. Координатное индексирование русскоязычных документов, как правило, ограничивается однословными терминами (что объясняется отсутствием соответствующих алгоритмов ввиду сложности морфологического анализа русских словосочетаний).Таким образом, весьма актуальна решаемая в диссертационной работе проблематеоретического обоснования и разработки технологических основ создания программ1Вдиссертационном исследовании речь идет, прежде всего, об извлечении знаний о документах и об описываемых этими документами сущностях.4ных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основаниисодержащихся в них данных новой информации и знаний.Цель работы: теоретическое обоснование, разработка и реализация принциповсоздания программных систем информационного обеспечения научной деятельности,способных в автоматизированном режиме извлекать данные (описательные характеристики) из слабоструктурированных электронных документов с целью получения наосновании этих данных новой информации и знаний.Задачи, решаемые в работе:1.
Анализ информационных потребностей научного сообщества в свете изменений,вызванных распространением интернет-технологий, а также новыми принципамифункционирования и финансирования российской науки, основанный на сравнении характеристик информационных потребностей, изучении интеграционныхпроектов СО РАН и исследовании интернет-сайтов.2. Разработка методологии комплексного изучения интернет-сайтов, учитывающейих информационное наполнение, организацию хранения и обработки данных, атакже роль в информационном обеспечении соответствующего вида деятельности.3.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.