Диссертация (1090660), страница 21
Текст из файла (страница 21)
Схема функционирования BML-интерпретатораЯдро интерпретатора – основной компонент системы, управляющий множествомвспомогательных компонентов. В первую очередь Web-сервер передает данные (переменные окружения, Cookie, заголовки запроса, данные форм GET и POST) с помощьюинтерфейса FastCGI. Задача HTTP-обработчика – обработать эти данные и представить их через интерфейсный ком понент ядру интерпретатора в удобочитаемой форме [78]. Кроме того, в задачи обработчика HTTP входит также получение данных126пользовательской сессии через специализированный класс, реализующий хранение ивыгрузку данных пользовательских сессий.
Ядро интерпретатора, используя вспомогательные компоненты, собирает данные и передает их шаблонизатору, который, всвою очередь, генерирует конечный документ и передает его в браузер клиента [118].В системе присутствуют компоненты как с достаточно тривиальной логикой работы, так и сложные, требующие подключения сторонних библиотек, реализующихтребуемую логику, и их детального анализа. К «тяжелым» компонентам относятся,например, обработчик XML, шаблонизатор, связующее звено с базами данных.
Обработчику XML и шаблонизатору посвящены отдельные разделы диссертационногоисследования, как и интерфейсу для связи Web-сервера и разработанной системы.Большинство компонентов системы имеют промежуточные интерфейсные классы.Такие классы включают в себя стандартный набор методов для доступа и обработкиразличных данных. Это сделано для того, чтобы в случае, если по тем или иным причинам в будущем будет принято решение поменять некоторые компоненты системы,достаточно будет изменить только логику работы интерфейсного класса, а не ядрацеликом. Например, если мы откажемся от библиотеки libxml2 в пользу другой, более производительной, достаточно будет изменить интерфейсный класс обработчикаXML.Касаемо баз данных изначально была выбрана СУБД MySQL как наиболее простая, не требующая больших временных затрат на установку и поддержку, открытая,при этом удовлетворяющая требованиям, предъявляемым к высоконагруженным системам среднего уровня.
Для связи программного модуля с СУБД было принято решение использовать официальную библиотеку MySQL Connector (mysqlclient). Другиекомпоненты системы либо имеют только одну реализацию и не требуют сравнительного анализа, либо их решение было тривиальным и реализовано совместными усилиями коллектива разработчиковпредставленной системы без использования стороннихбиблиотек. К первому типу относится задача реализации обработки Perl-совместимыхрегулярных выражений. В языке C/C++ в большинстве случаев используется библиотека PCRE, которая и была внедрена в проект. Ко второму типу относятся компоненты чтения конфигурационных файлов, обработки данных HTTP, механизма работысессий.
Они реализованы самостоятельно строго с тем набором функций, которыйнеобходим в рамках работы интерпретатора.В проекте интерпретатора существуют и другие компоненты (например, модулидля работы с архивами, изображениями, звуком, видео, другими средствами муль-127тимедиа), однако детально не будут рассмотрены, т.к. они не являются критическиважными для обеспечения базового функционала интерпретатора.4.1.2Исследование синтаксических анализаторов XMLКак было сказано, разработанный язык BML имеет XML-подобный синтаксис.
Длячтения структуры этого языка необходимо выбрать производительный синтаксический анализатор XML. Важно понимать, что синтаксический анализатор выполняетлишь техническую функцию, обрабатывая на низком уровне структуру документа,преобразовывая данные в формат, пригодный для чтения интерпретатором. Логикосемантическая компонента языка BML реализована в ядре интерпретатора. Тем неменее техническая функция обработки запроса является ресурсоемкой. Важно уже наэтапе проектирования системы детально рассмотреть характеристики широко используемых библиотек.В статье [25] детально рассмотрены тесты распространенных синтаксических анализаторов XML. Авторами указанной статьи проведен ряд тестов производительностипо различным характеристикам.
В частности, проведен тест, в котором измерено время разбора после 20 запусков и обработки простейшего файла. Результаты показаныВремя разбора документаза 20 запусков (мс)на рис. 4.4.Синтаксические анализаторы XML, тестнакладных расходов876543210Рисунок 4.4. Анализ накладных расходов некоторых синтаксических анализаторовПоскольку в данном тесте используется небольшой файл XML, тест показывает,скорее, производительность анализаторов в части затрачиваемого времени на запуски выгрузку из памяти, что в нашем случае имеет первостепенное значение.В следующем тесте из упомянутой выше статьи [25] демонстрируется разборXML-документов переменного размера (рис.
4.5). Обрабатывались документы в ши-128роком размерном диапазоне, начиная от 277 Кб (workflow_PIW.xml) и заканчивая 4,9Мб (hapmap_1797SNPs.xml).Тест проводился на протяжении 20 запусков. Расчетныйсредний суммарный объем BML-документов для одного проекта не будет превышать300 Кб, поэтому наиболее точно отражает эффективность работы интерпретатора исследование разбора файла workflow_PIW.xml, время процессинга которого во всехтестах, кроме теста анализатора xercer, не превышает 2 с. Однако один проект может содержать множество документов BML, вот почему важно обратить внимание ина предыдущий тест накладных расходов при загрузке и выгрузке анализатора, гдеситуация уже не столь однозначная.Синтаксические анализаторы C/C++,ввод данных на уровне приложенияВремя разбора документаза 20 циклов (мс)12000hapmap_1797SNPs.xml1000080006000molecule_1kzk.pretty.xmlworkflow_Atype.xmlworkflow_PIW.xml400020000Рисунок 4.5. Анализ накладных расходов некоторых синтаксических анализаторовНаилучший показатель производительности по накладным расходам показала библиотека gsoap, однако было принято решение отказаться от нее, так как она распространяется по лицензии GNU GPL, что осложняет ее использование в проприетарномпрограммном обеспечении при компоновке с другим программным кодом.
Часть исходного кода интерпретатора имеет проприетарный характер.Не менее хорошие показатели продемонстрировала библиотека expat. Это потоковый синтаксический анализатор XML. Недостатков у expat с системной сторонынет: это производительный анализатор, распространяемый под полностью открытойлицензией MIT. Тем не менее у него существует недостаток в части менеджмента:expat требует гораздо больше времени на освоение (высокий порог вхождения) иведение разработки (непропорционально высокие прямые трудозатраты). Это связано с его ориентированностью на потоковую обработку данных. Данная особенностьзначительно ускоряет время разбора документа, однако несколько затрудняет непо-129средственный процесс написания исходного кода.
В будущем, на этапе проведениядополнительной оптимизации, планируется внедрить поддержку данной библиотекив интерпретатор.Библиотека xpp3 (XML Pull Parsing) предназначена для разработки на языке Java,поэтому не может рассматриваться в качестве практического решения. Кроме того,поддержка библиотеки уже более десяти лет не производится. Библиотека mono неподошла по той же причине, что и предыдущее решение: реализация на другом языкепрограммирования — в данном случае C#.Наиболее практичным решением и в части производительности, и с позиции удобства разработчика является библиотека libxml2. Она работает по принципу «черногоящика», когда на вход подается XML-документ, а на выходе выводится объект, с которым будет производиться дальнейшая работа.
К дополнительным преимуществамможно отнести упрощенную переносимость библиотеки на другие платформы,так какона использует стандартный код ANSI C. Именно библиотека libxml2 была выбранав качестве синтаксического анализатора кода BML.4.2Архитектура абстрактной фабрики блоковВ данном разделе рассматривается процесс разработки модуля блоков с детальным описанием его архитектуры. Несмотря на кажущуюся простоту, существует ряднюансов, придающих задаче нетривиальный характер.
Основным нюансом являетсятот факт, что «блок» имеет различную природу в зависимости от типа, но при этомправила вызова всех свойств и методов блока остаются незыблемыми. Задачи такого рода решаются с помощью свойства полиморфизма, однако остается вопрос, какименно выстроить архитектуру библиотеки, чтобы это свойство было задействованомаксимально эффективно [100].Шаблонов проектирования, задействующих полиморфизм, существует множество,однако следует выбрать оптимальный в рамках поставленной задачи. После многочисленных испытаний различных архитектур и технологий было принято решениеиспользовать паттерн проектирования «абстрактная фабрика». Эффективность данного шаблона в решении подобных задач доказана в работах [1, 77].
Рассматриваемыйпаттерн использовался похожим образом во многих инженерных и математических задачах: управление устройствами [83], алгоритмизация работы транспортных систем[107], оптимизации [80]. Благодаря использованию паттерна «абстрактная фабрика»в зависимости от класса реализации методы работают по-разному. В результате при130обращении к перегруженным функциям, объявленным в базовом классе, независимоот класса реализации они будут работать корректно.Перед разработкой модуля блоков возникла необходимость определения ряда требований.
Прежде всего этот модуль, как и весь процесс работы интерпретатора, должен быть скрыт от пользователя и не должен зависеть от того, как составлен документBML, если это не нарушает официальную спецификацию языка. Затем необходимо,чтобы данный модуль был унифицирован для удобства взаимодействия с другимимодулями, а также ядром интерпретатора, независимо от того, с каким типом блокапроисходит работа и какую задачу он решает. Для полного тестирования и отладкиядра интерпретатора необходимо было использование модуля блоков.