Диссертация (1150572), страница 10
Текст из файла (страница 10)
Попадание результата вычислений в первый кластерсчиталось показателем того, что алгоритм классифицировал изображение какизображение тканей печени с жировой дистрофией. Попадание изображенияво второй кластер считалось показателем того, что алгоритм классифицировализображение как изображение тканей печени с выраженным полнокровием.Вычисления проводились на многоядерном вычислителе с числом ядер 4.Базовый алгоритм не допускает распараллеливания, поэтому скорость его работы не зависит от числа ядер системы.
Как было показано выше, модифицированный алгоритм допускает распараллеливание. Поэтому для него вычисленияпроизводились трижды. В первом эксперименте вычислениям было отдано 1ядро машины. В втором эксперименте использовались 2 ядра. В третьем — все4 имеющихся ядра процессора.В результате вычислений по базовому алгоритму были получены значенияцентров кластеров 1,37360 и 1,34875 соответственно для первого и второго классов изображений.
В результате вычислений по модифицированному алгоритмупри K = 4 были получены значения центров кластеров 1,37326 и 1,34804. ПриK = 16 были получены значения центров кластеров 1,35829 и 1,34103.Алгоритмы сравнивались по двум факторам — процент точности и скорость работы. Процент точности вычислялся как отношение числа верно отнесенных к классам изображений к общему их числу. Результаты вычисленийпредставлены в таблицах 3.1 и 3.2.В результате численного эксперимента было установлено, что при вычислениях по модифицированному алгоритму процент точности падает с 96% до92% при K = 4 и до 76% при K = 16. При этом скорость вычислений по модифицированному алгоритму c K = 4 даже при использовании 1 ядра процессоравыше в 2,4 раза, а при использовании 4 ядер выше почти в 8 раз.
При К =16 скорость работы алгоритма на 4 ядрах практически в 10 раз превосходитскорость работы базового алгоритма. Стоит отметить, что для K = 16 необ-62Таблица 3.1. – Сравнение алгоритмов классификации. Процент точности.Результат классификацииАлгоритмВерно Ошибочно Процент точностиБазовый24196%K=423292%Модифицированный K = 1619676%МодифицированныйТаблица 3.2.
– Сравнение алгоритмов классификации. Время вычислений.АлгоритмЧисло ядер Время вычислений, минБазовыйМодифицированныйK=4Модифицированный K = 16113:0315:2422:5141:3813:3722:1541:19ходимая степень параллельности вычислений не могла была быть достигнутавследствие технических ограничений используемого компьютера (число ядеркоторого равно 4). Есть все основания полагать, что при вычислении на компьютере с большим числом ядер (8 или 16), скорость вычислений могла бы ещевозрасти.3.6РезультатыПредложена модификация алгоритма построения стационарного потока награфе, применяемого для решения задачи классификации изображений. Пока-63зано, что алгоритмическая сложность модифицированного алгоритма меньшеалгоритмической сложности исходного. Другим преимуществом модифицированного алгоритма является возможность его эффективного использования намногоядерных вычислителях.
Реализованы все описанные алгоритмы.Эксперимент показывает, что модифицированный алгоритм при K = 4можно применять для классификации исследуемых изображений практическив той же мере, что и не модифицированный. При этом процент точности виспользованной выборке падает всего на 4%, что позволяет утверждать о сравнимом качестве классификации. При этом при K = 16 процент точности падаетзначительно. Можно предположить, что это связано с тем, что процент числа граничных точек, в которых свойство стационарности построенного потокавыполняется с точностью 4ε по отношению к общему числу точек (в которыхусловие стационарности выполняется с точностью ε) возрос. На указанной выборке падение процента точности составило 20%.
Это означает, что алгоритм сбольшими значениями K для исследуемых изображений тканей печени можноиспользовать только как предварительно оценивающий степень близости картинки к тому или иному классу.Для изображений бо́льших размеров (или бо́льшего разрешения) можноожидать, что для задач классификации могут быть использованы и бо́льшиезначения K, вследствие того, что число граничных точек растет пропорционально линейным размерам изображения, в то время как общее число точекизображения растет квадратично.64Глава 4. Особенности реализации комплексапрограммКомплекс программ для решения задачи классификации изображений биомедицинских препаратов реализован на языке программирования tcl (tool command language).
Для создания форм пользовательского интерфейса использована графическая библиотека tk [101].Все использованные в исследовании алгоритмы написаны в виде отдельных подключаемых модулей кода (библиотек), что позволяет переиспользоватьих для дальнейших исследований в любой комбинации.Для классификации изображений с помощью статистических признаковХаралика второго порядка были реализованы алгоритмы построения матрицотносительных частот расположения пикселей по направлениям 0, 45, 90 и 135градусов и вычисления с их помощью 13 статистических признаков. Для анализа влияния использования цветовых координат на результаты классификациибыли реализованы в виде отдельного модуля grayscale, R, G, B, H, S, V фильтрыдля цветных изображений.
В исследованиях предполагалось вычисление статистических признаков Харалика для большого числа изображений различныхклассов, поэтому были реализованы сценарии автоматической обработки указанных групп изображений, сохраняющие результаты в виде таблиц, пригодныхдля дальнейшего анализа.Для исследования алгоритма моделирования диффузионных процессов DLAбыли реализованы следующие варианты этого алгоритма: классический алгоритм построения агрегата на плоскости, алгоритм построения агрегата на плос-65кости с ограничениями числа шагов и области блужданий частиц, алгоритммоделирования DLA на плоскости с использованием априорной оценки коэффициентов выбора, классический алгоритм построения агрегата на триангуляционной решетке, алгоритм построения агрегата на триангуляционной решетке с использованием априорной оценки коэффициентов выбора.
Для оценкидостоверности результатов были реализованы алгоритмы подсчета емкостнойразмерности плоской структуры и сравнения двух изображений агрегатов спомощью вычисления дивергенции Кульбака–Лейблера между их вероятностными мерами.Для исследования алгоритма классификации изображений с помощью построения стационарного потока на связанном с изображением графе были реализованы алгоритмы построения начального ориентированного графа, построения приоритетной очереди вершин, балансировки этой очереди и нормировкипотока. Для организации многопоточных вычислений было использовано свободно распространяемое расширение языка tcl под названием tcl threads [102].Организация параллелизма с помощью потоков с разделяемой памятью [99]позволила избежать лишних копирований данных и накладных расходов, связанных с обеспечением и синхронизацией работы нескольких процессов.Использование языка программирования tcl обеспечило кроссплатформенность реализованных алгоритмов.
Командные интерпретаторы этого языка доступны для операционных систем семеств GNU/Linux, Windows и OS X. Длязапуска комплекса программ на каждой из этих систем требуется установкакомандного интерпретатора с поддержкой графики wish.Всего написано более 3500 строк программного кода алгоритмов. При реализации для загрузки изображений использовалась свободно распространяемаябиблиотека pure-tcl-bmp версии 0.4, написанная S. Havelka [100].Вся разработка производилась в операционной системе Debian 7. Скриншоты работы комплекса программ представлены на рисунках 4.1 и 4.2.66Рисунок 4.1. – Скриншот работы комплекса программ.
Анализ изображения.67Рисунок 4.2. – Скриншот работы комплекса программ. Моделирование.68ЗаключениеВ работе получены следующие результаты:1. Предложен метод использования координат цветовых пространств RGBи HSV в качестве входных данных для алгоритмов анализа изображений.
Полученные наборы характеристик для разных цветовых пространств дают выбратьнаиболее подходящую пару координата-признак или комбинацию таких пар дляэффективной классификации изображений.2. Разработаны и реализованы алгоритмы эффективного построения агрегатов по модели DLA с помощью априорного анализа коэффициентов выборакак в плоском случае, так и в случае построения агрегатов на произвольной поверхности. Путем вычисления емкостной размерности и дивергенции Кульбака–Лейблера показано, что полученные с помощью модифицированного алгоритмаагрегаты качественно близки к агрегатам, построенным по классической модели DLA.
Дана теоретическая оценка вычислительной сложности предложенныхалгоритмов. Программы для реализации классических алгоритмов запускалисьна компьютере с процессором Intel CoreDuo T2050 и объемом оперативной памяти 1.5GB. Время вычислений одного агрегата из 10000 частиц для плоскогослучая составило 37 мин. 43 сек.; время вычислений 10 агрегатов из 1000 частицна поверхности составило 4 ч. 47 мин. 33 сек. Оптимизированные алгоритмы запускались на той же конфигурации оборудования. При этом время вычисленийодного агрегата из 10000 частиц для плоского случая составило 1 мин. 8 сек.;время вычислений 10 агрегатов из 1000 частиц на поверхности составило 31мин. 58 сек.
В результате продемонстрировано уменьшение времени вычислений приблизительно в 40 раз для плоского случая и в 10 раз при моделировании69на поверхности по сравнению с классическими алгоритмами.3. Разработана и реализована модификация алгоритма Шелейховского–Брэгмана построения стационарного потока на графе путем разбиения изображения на подмножества, построения стационарного потока на каждом из подмножеств и объединения стационарных потоков в один общий поток. Приведенаоценка потери точности вычислений на склеиваемых границах областей; оценено ее влияние на значение взвешенной энтропии, выступающее в качествеклассифицирующего признака.
Показана эффективность модифицированногоалгоритма для использования на многоядерных системах. Программа для реализации классического алгоритма запускалась на компьютере с процессоромIntel CoreDuo T2050 и объемом оперативной памяти 1.5GB. Время вычислений составило 13 мин. 3 сек. Оптимизированный алгоритм запускался на тойже конфигурации оборудования. Время вычислений составило 1 мин. 38 сек.В результате продемонстрировано уменьшение времени вычислений приблизительно в 10 раз.4. Разработан и реализован комплекс программ для исследования и классификации изображений биомедицинских препаратов, который объединяет в себеметоды статистического анализа с помощью вычисления характеристик Харалика второго порядка в координатах цветовых пространств RGB и HSV; методыимитационного моделирования структуры изображения путем построения агрегатов с помощью априорного анализа коэффициентов выбора для модели DLA;методы анализа с помощью построения стационарного потока на связанном сизображением графе.В результате диссертационного исследования были выполнены все поставленные задачи и достигнута цель работы.
Реализованный комплекс программможет быть расширен новыми методами и алгоритмами исследования изображений. Все алгоритмы реализованы в виде отдельных библиотек, что позволяетиспользовать отдельные части комплекса и их произвольные комбинации каксоставляющие части для других исследований.70Литература[1] Абламейко С. В. Обработка оптических изображений клеточных структурв медицине / С. В.