Автореферат (1090613), страница 2
Текст из файла (страница 2)
Рассмотрены следующие промышленные продукты,используемые для анализа графов: i2 Analyst’s Notebook, Sentinel Visualizer,CrimeLink, Xanalys Link Explorer, Gephi, Tom Sawyer Software.У большинства современных промышленных систем визуализации ианализаграфоввзаимодействующихобъектов,ориентированныхна8исследование социальных и аналогичных сетей, присутствует ряд недостатков:отсутствие платформенно-независимых решений, отсутствие собственныхспециализированных хранилищ, системы не ориентированы на работу сграфамибольшихразмеров.Поэтомустоитпроблемаразработкиспециализированных средств для аналитической работы с графов большихразмеров.
При этом отсутствуют отечественных программные продукты дляработы с графами больших размеров.Задача плоского размещения достаточно хорошо изучена для графов безпометок. Приведены ссылки на основные результаты, имеющиеся в этойобласти. Известен целый класс способов, в которых вершина представляется ввиде горизонтального отрезка.
Данное представление было предложено еще в80-х годах в контексте задачи построения сверхбольших интегральных схем.Однако, в рассмотренных работах не предложены эффективные алгоритмымногополосного размещения графов социальных сетей и их программнаяреализация в составе программных продуктов для анализа сетей большихразмеров.В публикациях отсутствуют реализация алгоритмов и формализованнаяпроцедура расположения вторичных объектов относительно выделенныхвершин в контексте применения данного алгоритма к графам социальных сетей.В литературе не предложены эффективные алгоритмы многополосногоразмещения графов социальных сетей и их программная реализация в составепрограммных продуктов для анализа сетей больших размеров.Одной из актуальных задач является распознавание структуры, скрытой вреальных социальных сетях - задача выделения сообществ, возникающая взадачах как криминального расследования, так и социологического имаркетинговогоанализов.Приведенподробныйанализпубликаций,посвященный алгоритмам выделения сообществ в графах взаимодействующихобъектов.
Сделан вывод, что представление графа в виде сообществ нерассматривается как геометрическая модель для визуального представленияструктурыграфа. В основныхкоммерческихпрограммныхпродуктах9отсутствует реализация геометрической модели визуального представленияграфа на основе применения алгоритмов выделения сообществВо второй главе описаны геометрические модели и построенные на ихоснове алгоритмы автоматического размещения объектов графа на плоскостипри визуальных представлениях в программном интерфейсе.
При выполненииавтоматического размещения графа на плоскости помимо его структуры такжеучитываются визуальные характеристики всех видимых элементов сети:вершины, связи, их атрибуты, изобразительные соглашения вершин (иконки,табличное представление, линия темы). Реализованы алгоритмы размещений:круговое, круговое покомпонентное, на оценке связности, вершина в центре, наоснове метода физических аналогий, многополосное, на основе выделениясообществ.
Данные алгоритмы могут работать с графами больших размеров, иза счет этого внедрены и используются в процессе анализа структуры графа.Алгоритм 1. Многополосное размещение графа в случае, когда размермножества базовых вершин не ограничен.Вход:- граф, где V - множество вершин, E - множество ребер,.- множество базовых вершин.Последовательность шагов:1. На заданном множестве базовых вершин фиксируется порядок, всоответствии с который сверху вниз будут отображаться базовые вершины ввиде линий темы. Переход к шагу 2.2. Затем определяется порядок и добавляются связи между заданнымилиниями темы, с отсутствием пересечений между отображением атрибутов.Переход к шагу 3.3.
Определяется порядок добавления вторичных вершин, и затем длякаждой вторичной вершины определяется полоса между линиями темы, вкоторую она должна быть добавлена. Переход к шагу 4.4. Добавляются вторичные вершины. При последовательном добавлениивторичных вершины связи добавляются последовательно таким образом, чтобы10отсутствовало пересечение отображения атрибутов.
Переход к шагу 5.5. Конец алгоритма.Выход: выполнено многополосное размещение графа на плоскости.Приведенный алгоритм описывает общий принцип многополосногоразмещения графа на плоскости. На рис. 1 приведен пример работы алгоритмаавтоматическогоразмещения«двелиниитемы»(частныйслучаймногополосного размещения).Разработана и реализована геометрическая модель автоматическогоразмещения «быстрый павлиний хвост», основанная на методе физическиханалогий. Используется оптимизация скоростных характеристик алгоритма засчет анализа только локальной области на плоскости при вычислениивзаимодействующих сил между объектами графа.
Таким образом для подсчетаотталкивающих сил между вершинами в терминах пружин необходимо толькознание о соседних связанных вершинах, с точки зрения заряженных частиц –знание о ближайших вершинах в пространстве.Рис. 1. Пример многополосного автоматического размещения «Две линии темы»11В третьей главе предлагается геометрическая модель, основанная наразработанном и реализованном методе, с помощью которого можноэффективно выделять сообщества взаимодействующих объектов, применимыйдля выделения групп общения в социальных сетях.В основе метода лежит двухуровневое разбиение информации.
Методиспользует уникальные имена для более общих объектов – сообществ, иповторяющиеся имена для более мелких деталей – обозначения вершин вкаждоммодуле.Использованиедвухуровневогоописанияпозволяетзакодировать случайное блуждание с использованием меньшего количестваинформации, чем при одноуровневой схеме кодирования. Таким образом,разбиение на сообщества будет описываться верхним уровнем двухуровневогокодирования. Разбиение сети на сообщества подразумевает минимизациюдлины кодового слова.Рассмотрим множество всех возможных разбиений M множествавершин графа V. Разбиение M обозначает разбиение n вершин на m модулей.Поставим в соответствие разбиению M некоторое числовое значение L(M) –верхнюю границу длины кодового слова, описывающего качество разбиенияM.
Назовем L(M) показателем качества разбиения M.Для заданной сети зафиксируем ее разбиение M на сообщества. Введемслучайную величину Q, которая принимает значения от 1 до m (количествосообществ) с вероятностями покинуть при случайном блуждании i-тоесообщество qi, где i=1 ,…, m.
Для каждого сообщества i введем случайнуювеличину Pi, которая принимает значения от 1 до ni (количество вершин всообществе i) c вероятностями ki , где k=1 ,…, m . Расчет покзателя L(M)основывается на вычислении энтропий H(Q) и H(Pi) введенных случайныхвеличин Q и Pi следующим образом:mL( M ) = qH (Q) pi H (Pi ),i =1(1)12mгдеq = qi – вероятность перехода между сообществами на каждом шагеi =1случайного блуждания,pi = p qii– вероятность остаться в i-томсообществе, вычисляемая через .
вероятность p посетить вершину C помощью алгоритма выделения сообществ все вершины разбиваютсяна непересекающиеся множества. Каждое множество вершин представляетсообщество. Затем узлы каждого сообщества располагаются по окружности наоснове структуры их связей.
Центры окружностей размещаются по окружности.На схемы так же располагаются все связи графа, тем самым между вершинамиразличных сообществ могут быть проведены связи.Тестирование алгоритма проведено в несколько этапов: тестирование насгенерированных графах (LFR – модель) и тестирование на подграфахреальных социальных сетей. Показано, что предложенная методика применимак большим данным реальных социальных сетей и эффективно (с линейнойоценкой сложности) решает задачу выделения сообществ.Наосновеалгоритмавыделениясообществописанынесколькогеометрических моделей алгоритмов авторазмещений: на основе круговогопокомпонентного и на основе метода физических аналогий.
Результаты данныхалгоритмов представляются в виде компактного расположения (с точки зренияплощади занимаемой поверхности) и наглядного представление исходногографа на плоскости. На рис. 2 приведен пример результата работы алгоритмаавтоматического размещения графа на основе алгоритма выделения сообществс использованием кругового покомпонентного размещения.