99587 (764849), страница 2
Текст из файла (страница 2)
4. Веб 2.0 инструменты для работы со знаниями
В 2005 году Тим О’Рейли [О’Рейли, 2005] описал концепцию «эволюционировавшей всемирной паутины», которую он обозначил термином Web 2.0, подчеркнув тем самым ее значимость как следующего поколения интернет-систем. Под этим понятием он объединил уже сформировавшиеся к тому времени признаки веб-сайтов «новой волны», основным из которых, с пользовательской точки зрения, можно считать использование «коллективного разума» или, точнее, «коллективной деятельности». Пользователи интернета сами становятся создателями информации - создаваемый в сети контент, его описание и структурирование, оценка и ранжирование становятся результатом деятельность рядовых пользователей. Технологически вовлечение пользователей обеспечивается засчет интерактивность веб-страниц и простоты их интерфейсов – для размещения информации в интернете пользователю не нужно никаких специальных знаний.
Вот неполный список инструментов Веб 2.0:
интернет почта (mail.ru, yandex.ru, gmail.com),
cредства обмена сообщениями (ICQ, google-чат)
блоги (например, Живой Журнал, корпоративные блоги Яндекса, Google-а) – он-лайн журналы и дневники, позволяющие обмениваться мнениями, размещать новости. Обновления блогов могут рассылаться с помощью RSS-потоков – см. далее,
социальные сети (например, vkontakte.ru, moikrug), позволяющие узнать о знаниях, опыте, интересах других людей и представить свои,
средства интеграции и чтения новостных RSS-потоков (Яндекс Лента, Google Reader). RSS (Really Simple Syndication) - средство подписки на обновления новостей сайтов, записей блогов, результатов поиска по определенному запросу и на любые другие обновляемые материалы – фотографии, видео, веб-закладки и т.д.
Peer-to-peer сети (иногда P2P-сети) – средство эффективного обмена файлами (музыкой, видео, текстами) либо через интернет, либо между ограниченным числом пользователей. Данное средство открывает доступ к содержимому персональных компьютеров пользователей и обеспечивает высокую скорость передачи информации, благодаря специальной технологии разделения файла на отдельные фрагменты.
веб-закладки (del.icio.us, БобрДобр), позволяющие пользователям не только сохранять ссылки на интересные для них ресурсы, но и сопровождать их ключевыми словами, обмениваться этими ссылками, анализировать популярность ресурсов (количество ссылок) и тенденции, находить других пользователей со схожими интересами.
средства для размещения фотографий (photosight.ru, flickr.com), презентаций (slideshare) и видео (youtube), с богатыми возможностями описания материалов (теги, категории), поиска, обсуждения.
wiki-средства (pbwiki.com, wikispaces.com) – средства создания и функционирования веб-сайтов по типу Википедии (см. ru.wikipedia.org). Cтраницы вики-сайта совместно редактируются сотрудниками организации и выступают альтернативой письмам и вложениям электронной почты.
программы для коллективного редактирования документов в онлайне (Google Docs),
гибридные приложения (mashups), объединяющие несколько инструментов Web 2.0 между собой или с другими приложениями (например, интеграция географических карт от Google, Yahoo cо средствами размещения фотографий - Panoramio, flickr позволяет пользователям привязывать фотографии к местности)
средства планирования – календари (Google Календарь) и т.п.
К Web 2.0 можно также отнести «ПО как сервис» (Software as a Service, SaaS). Такое ПО работает через интернет, а компания ежемесячно оплачивает услуги сервис-провайдера. Это дешево и удобно. Не нужно покупать дорогие лицензии, устанавливать и настраивать сложный софт.
Более полумиллиона западных компаний успешно используют онлайновую платформу AppExchange от Salesforce.com, что позволяет подписаться на любое из нескольких сотен бизнес-приложений, доступных для подписки (CRM-системы, бухгалтерские программы и др.). В данный момент SaaS значительно уступает по популярности традиционным моделям использования ПО, но в будущем ситуация должна измениться. Gartner прогнозирует, что к 2011 г. доля SaaS в общем объеме рынка программного обеспечения вырастет до 25%, то есть в пять раз по сравнению с 2005 г. [Ализар, 2006]
Инструменты Web 2.0 подходят для поддержки совместной работы в системах управления знаниями: они просты, эффективны и уже знакомы некоторым пользователям. По оценкам компании McKinsey основной целью использования инструментов Web 2.0 в бизнесе является поддержка совместной работы в компании – 75% опрошенных менеджеров (70% - взаимодействие с покупателями, 51% - взаимодействие с поставщиками и партнерами). При этом бОльшая часть респондентов рассматривает совместную работу как инструмент управления знаниями [Bughin, Manyika, 2007]. Рисунки 1 и 2 отражают мнения пользователей, полученные в рамках других исследований, о пользе и препятствиях таких инструментов.
Источник: InformationWeek Research, 2006
Рис. 1. Польза инструментов Веб 2.0 для бизнеса
Источник: InformationWeek Research, 2006
Рис. 2. Препятствия для Веба 2.0 в бизнесе
Вряд ли инструменты Web 2.0 вытеснят с рынка стандартные системы управления документами и софт для групповой работы, но они определенно могут его дополнить и стать неотъемлемой их частью. Собственно, такая интеграция происходит уже сейчас ( см. выше описание IBM Lotus Quickr, Sametime и др.).
В России внедрение в корпоративные системы блогов, wiki и социальных сетей идет несколько медленнее, чем на Западе. Причины заключаются в худшем состоянии технической инфраструктуры. Широкополосный интернет, который является главным условием для развития публичных сервисов Веб 2.0, распространен только в Москве. По этой причине блоги, подкастинг, wiki и прочие современные технологии еще не стали достаточно популярными среди пользователей. Корпоративная культура только начинает приспосабливаться к использованию социально-ориентированных сервисов в бизнесе.
5. Семантический веб и онтологии в управлении знаниями
Сейчас значительная часть содержания Всемирной Сети (World Wide Web) предназначена для чтения человеком, а не для осмысленного манипулирования им с помощью компьютерных программ. Компьютер способен умело разобраться в разметке веб-страницы и произвести рутинную её обработку — тут идёт заголовок, здесь следует ссылка на другую страницу; но у компьютера нет надёжного способа обрабатывать смысл документа: это — домашняя страница компании Х, а эта ссылка ведёт на резюме сотрудников данной компании.
Семантический веб (Semantic Web) привносит смысловую структуру в содержание веб-страниц. Семантический веб — это не какая-то отдельная сеть, а расширение уже существующей, такое, что в ней информация снабжена точно определённым смыслом, позволяющим человеку и машине успешно взаимодействовать.
Сценарий работы таких программных средств представлен в основополагающей статье идеологов семантического веба – Тима Бернерса-Ли и Джеймса Хендлера, опубликованной в 2001 году в журнале Scientific American [Berners-Lee, Hendler, 2001]:
«Пит поднял трубку, звонила его сестра Люси из кабинета врача: «Моей маме нужно попасть на приём к врачу, а потом ей требуется пройти несколько сеансов физиотерапии. Примерно два раза в неделю. Я сейчас поручу своему агенту записать нас на приём к врачу». Пит сразу же согласился подвезти её маму на своей машине. В кабинете врача Люси дала указания своему электронному агенту Семантической Сети через свой портативный веб-браузер. Агент сразу же получил информацию о назначенном маме лечении от агента её врача, просмотрел несколько перечней медицинских учреждений, оказывающих подобные услуги, проверил, какие из них подходят [in-plan] по её страховому полису и находятся в окрестности 20 миль от её дома и при этом имеют рейтинг — «отличный» либо «очень хороший» согласно достоверным рейтинговым источникам. Далее агент попытался сопоставить имеющиеся часы приёма врачей (предоставленные агентами соответствующих мед. учреждений на их веб-сайтах) с расписаниями Пита и Люси. (Слова, выделенные курсивом, указывают на термины, семантика, или смысл, которых была предоставлена агентам посредством Семантической Сети.) Уже через несколько минут агент представил им план. Питу он не понравился — Университетская Клиника расположена на другой стороне города, и ему пришлось бы возвращаться обратно как раз в час пик. Он попросил своего агента повторить поиск с более строгими предпочтениями относительно места и времени. Тем временем агент Люси, полностью доверяя агенту Пита в рамках данной задачи, автоматически помогал, предоставляя тому права доступа и ссылки на уже добытую им информацию. Практически мгновенно был предложен новый план: найденная клиника была уже гораздо ближе, и часы приёма более ранние».
Для того, чтобы Семантический Веб мог функционировать, компьютеры должны иметь доступ к структурированным хранилищам информации и множествам правил вывода, которые могли бы использоваться для проведения автоматических рассуждений. Однако два хранилища информации или базы данных могут использовать различные идентификаторы для обозначения одного и того же понятия, такого, например, как почтовый индекс. И программа, желающая сравнить или как-то скомбинировать информацию из этих баз данных, должна знать, что два конкретных термина используются ими для обозначения одного и того же. В идеале, у программы должен быть способ распознавать подобные термины с одинаковым смыслом, с какими бы базами данных ей не пришлось столкнуться в процессе своей работы.
Решение этой проблемы даётся третим базовым компонентом Семантического Веба — совокупностью информации, которое специалисты именуют онтологией (см. статью про инженерию знаний). В философии онтологией называют некую теорию о природе бытия, ИТ-специалисты заимствовали этот термин, и для них уже онтология — это структура, задающая отношения между понятиями.
Онтология определяет классы объектов и отношения между ними. Например, понятие адрес может быть определено как разновидность понятия местонахождение [location], а код города можно задавать применительно лишь к местонахождениям и так далее. Задание классов, подклассов, а также отношений между индивидами [entities] является чрезвычайно мощным инструментом для использования в Вебе.
В простейшем случае, онтологии используют для увеличения точности поиска в Вебе — поисковая машина будет выдавать только такие сайты, где упоминается в точности искомое понятие, а не произвольные страницы, в тексте которых встретилось данное многозначное ключевое слово.
В полную силу Семантический Веб будет реализован тогда, когда люди создадут множество программ - агентов, которые, знакомясь с содержимым Веба из различных источников, обрабатывают полученную информацию и обмениваются результатами с другими программами. Семантический Веб стимулирует подобного рода синергию: даже те агенты, которые не были созданы специально для работы сообща, могут передавать информацию друг другу, коль скоро эта информация будет снабжена семантикой.
Полноценный Семантический Веб – это технология управления знаниями будущего, однако, уже сейчас можно пользоваться его отдельными технологиями и применять в ограниченных областях. Примером является Семантический веб организации — или реализация этой концепции в рамках отдельной организации [Cerebra, 2005].
Также и онтологии могут не только использоваться в Семантическом Вебе, но и применяться в системах управления знаниями предприятий. Онтологии задают единый язык, повышая тем самым эффективность коммуникаций сотрудников и обмен знаниями. Они могут использоваться для интеграции информации и выполнения простых автоматических рассуждений, повышая тем самым качество результатов поиска информации. Современные исследователи [Mika, Akkermans, 2004; Davies et al, 2005] считают онтологии основной парадигмой управлением знаниями предприятия.
Сегодняшние поисковые системы зачастую выдают бесчисленное множество совершенно не относящихся к запросу «хитов», обрекая пользователя на длительный ручной отбор материала. Например, если вы ввели для поиска слово «орган», то компьютеру совершенно непонятно, имеете ли вы в виду музыкальный инструмент, часть человеческого тела или орган исполнительной власти. Вся проблема в том, что для компьютера слово «орган» не имеет чёткого смысла, или другими словами, семантического содержания.
Онтологии дают возможность производить запросы на основе понятий, а не на основе совпадения строк. Например, если пользователь задаст вопрос «Какие транспортные средства производятся в России?», то он получит из базы ответ, в который попадут автомобили (=подкласс транспортных средств) производимые во Всеволожске (=город, который находится в России).
Также онтологии дают возможность получения не заданных явно знаний из информационных хранилищ путем логического вывода - поиск «скрытой информации». Например, пользователь системы может задать вопрос: Какие поставки продукции находятся сейчас в состоянии риска? В ответ на такой вопрос система в одной онтологии тарифов определит, что с учетом текущих условий (например, географических или погодных) существуют риски связанные с перевозкой овощей и фруктов. А в другой базе или онтологии деклараций по перевозке груза определит, что в декларации №А345 указаны арбузы, которые являются подклассом «Овощей и фруктов» (см. рис. 3). В результате, система сможет дать кокретный ответ на поставленный вопрос: Поставка COSCO #A345
Рис. 3 Интеллектуальный поиск на основе логического вывода
6. Архитектура СУЗ и ее реализация
Для описания типичной современной архитектуры СУЗ мы несколько адаптировали рисунок из работы [Mika, Akkermans, 2004].
Рис. 4. Пример архитектуры СУЗ
Нижний уровень архитектуры (Рис.4) обеспечивает получение знаний из разнородных источников структурированной (базы данных и знаний, таблицы, формы) и неструктурированной (документы) информации. Получение знаний подразумевает аннотирование разнородных источников информации с помощью онтологии, которая позволяет отразить содержание информации. Для получения онтологии используются программные средства автоматического формирования онтологии, поддержки ручной разработки и редактирования онтологии, средства слияния, объединения и оценки качества онтологий. Для аннотирования используются средства автоматической классификации документов по онтологии, извлечения информации из текста и баз данных. Полученные онтологии и метаданные представляются с помощью специальных языков – OWL, RDF.