Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 5
Текст из файла (страница 5)
Предложенная модель эффективна приописании как научной деятельности в той или иной предметной области (когда основные субъекты деятельности — персоны), так и деятельности крупных научных корпораций (когда в качестве основных субъектов деятельности, наряду с персонами, выступают организации). Другой отличительной особенностью модели является неиерархичность структуры субъектов деятельности, возникающая из-за возможности вхожденияперсоны сразу в несколько групп. Ввиду этого требует решения проблема работы сперсональными данными, которые могут одновременно принадлежать к разным ветвям иерархического дерева и вместе с тем должны однозначно определять персону, поскольку предполагаемая возможность извлечения из содержащихся в информационнойсистеме данных новую информацию и знания влечет за собой необходимость наличиясвязи имен собственных (как элементов библиографического описания и т.п.) с информацией о конкретных носителях этих имен, ибо в противном случае имя несет лишьназывную, но не информационную функцию (А.И.Михайлов и др., 1976)В третьей главе описана структура основных компонентов программной системы информационного обеспечения научной деятельности.В § 3.1 на основании обобщения результатов, полученных в главах 1 и 2, сформулированы основные требования к отвечающей основным системным принципам программной системе информационного обеспечения научной деятельности:— лежащая в основе системы информационная модель описания деятельности научного сообщества (являющаяся концептуальной моделью предметной области) должна отражать различные аспекты деятельности научного сообщества, включая научноорганизационную и научно-инновационную деятельность;15— отвечающая основным системным принципам модель информационной системы(выступающей в качестве основного компонента создаваемой программной системы)должна позволять работать с основными элементами системы — документами (то естьресурсами, снабженными метаданными) как с целостными информационными объектами;— структура связей в модели должна обеспечивать возможность принадлежностиперсоны одновременно к нескольким ветвям иерархического дерева групп — субъектовдеятельности и вместе с тем однозначно определять персону, позволяя связывать именасобственные (как элементы библиографического описания и т.
п.) с информацией оконкретных носителях этих имен;— структуры представления информации и логических компонентов интеллектуальной системы должны обеспечивать удовлетворение потребностей пользователей(независимо от их квалификации в области информатики) в информации и знаниях,получаемых на основе данных системы;— алгоритмы, обеспечивающие включение в научно-информационный процесс слабоструктурированных документов, должны обеспечивать максимальную автоматизацию всех его этапов (включая извлечение метаданных, определение ключевых слов,классификацию, а также предварительный этап создания тезауруса и онтологии предметной области), причем программные средства, реализующие эти алгоритмы, должнысоздаваться и функционировать как интернет-приложения.По итогам анализа интеграционных проектов, в рамках которых были созданы программные системы информационного обеспечения какой-либо отрасли науки, например “Электронный атлас биоразнообразия животного и растительного мира Сибири”или “Электронная библиотека MathTree”, было установлено (см.
А.М.Федотов и др.,Ю.Л.Ершов и др.), что подобные системы могут развиваться лишь в случае актуализации информации самими пользователями этих систем. Более того, даже относительносистем научно-организационной направленности, создаваемых в рамках одной большой научной корпорации — СО РАН, сделан вывод, что “эффективная эксплуатацияинформационных ресурсов возможна только в том случае, когда они постоянно поддерживаются авторами” (О.Л.Жижимов и др.). Исходя из этих положений, в диссертации обосновано, что практическое взаимодействие программных систем с внешниммиром в плане занесения в них новых данных целесообразно организовывать преимущественно (или даже почти исключительно) с использованием схемы “клиент-сервер”.
Это,в частности, означает экономическую неэффективность использования коммерческихпрограммных продуктов, откуда вытекает необходимость разработки достаточно простых и легко воспроизводимых алгоритмов автоматизации научно-информационногопроцесса.В § 3.2 описана предлагаемая модель информационной системы. Сначала проведеносравнение различных подходов к выбору основного структурного элемента интеллектуальных информационных систем, что является важнейшим вопросом, возникающимпри определении концепции построения модели информационной системы. Модель RDFконсорциума W3 предлагает рассматривать в качестве элементов системы ресурсы, которые могут представлять и сущности, и их характеристики.
Неудобство такого подхода очевидно: появляется множество равноправных мелких элементов, между которымиустанавливается чрезвычайно много связей, структура модели далека от естественной.Модель ИСИР РАН рассматривает в качестве элементов “ресурсы, аналогичные документоподобным объектам”. Эта формулировка недостаточно определенна, к тому жесвязи в этой модели имеют внешний характер по отношению к ресурсу.Особо следует подчеркнуть, что эти модели, основанные на концепции Semantic16Web, ориентированы на работу с хорошо структурированными документами, значенияатрибутов метаданных которых суть элементы заданных словарей, что практически делает труднодоступным для обработки множество слабоструктурированных документов(в т.ч.
размещенных в Интернете).В данном исследовании основной элемент модели есть документ (информационный объект, имеющий, как и всякий ресурс, уникальный идентификатор, и к томуже обладающий метаданными). Принципы построения модели вобрали в себя черты,свойственные как для традиционного объектно-ориентированного подхода, так и дляиспользуемого в Semantic Web языка RDFS.
В частности, как будет показано ниже, мыописываем классы в терминах их структуры, как это принято в ООП, а не определяемсвойства в терминах классов, что характерно для RDFS. Такой выбор связан с тем, чтозадание базовых структур создаваемой системы, опирающееся на разработанную модель предметной области, носит централизованный характер. С другой стороны, ограничения, накладываемые моделью на свойства классов, носят менее жесткий характер,чем при объектно-ориентированном подходе (например, может быть объявлено произвольное, в том числе нулевое, количество значений некоторого элемента метаданных),что сближает наш подход с RDFS.Указанные особенности модели позволяют успешно применять ее при создании интеллектуальных информационных систем, предназначенных для работы со слабоструктурированными документами.Модель информационной системы имеет видS = hM, Ki , M j hKi , Ki0 ii,где M — множество используемых метаданных, Ki : N → P (M̄ ) — классы документов, определяемых соответствующими множествами элементов метаданных (P (M̄ ) —множество подмножеств множества M с учетом возможных повторений элементов,M j hKi , Ki0 i — типы возможных связей между классами, когда документ из классаKi0 может входить в качестве значения элемента M j метаданных документа из классаKi .
Тем самым любой документ di системы представляется какdi = hmj,ki i,где mj,k— значения элементов метаданных M j , k — количество значений (с учетомiповторений) j-го элемента метаданных в описании документа. Таким образом, модельданных информационной системы может быть отнесена к моделям инфологическоготипа (Б.Лангефорс).Показано, что при построении модели соблюдены основные системные принципы:целостность, структурность, иерархичность, множественность описания, взаимозависимость системы и среды.Принцип, рассматриваемый в рамках макроподхода (взаимозависимость информационной системы и среды) непосредственно из свойств модели не вытекает, но эти свойства способствуют успешной реализации данного принципа. Их список приведен ниже:– включение в сеть Интернет;– максимальная автоматизация процесса актуализации информации;– управление процессом актуализации производится самими пользователями системы;– для обеспечения синтаксической интероперабельности (согласования моделейданных и форматов их представления) используется принцип каталогизации.17Соответствие принципам, рассматриваемым в рамках микроподхода, зависит непосредственно от свойств модели.– Целостность системы проявляется в зависимости каждого объекта, свойства иотношения от его места и функций внутри целого и реализуется посредствомиспользования единого набора метаданныхM = ∪M i .– Иерархичность системы проявляется в том, что она состоит из, вообще говоря, разнородных подсистем, отвечающих тем или иным частным задачам.