45815 (665159), страница 2

Файл №665159 45815 (Фильтрация строк с использованием автоматов) 2 страница45815 (665159) страница 22016-07-31СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

На рисунке 2 представлена диаграмма классов библиотеки, при этом большая часть классов правил убрана, чтобы повысить читаемость.

Рисунок 2. Диаграмма классов.

Описание

В библиотеке JFilter есть несколько интерфейсов:

IFilter (листинг 5), который описывает сам фильтр.

Листинг 5. Интерфейс фильтра

public interface IFilter extends Serializable

{

/**

* Обрабатывает строку, возвращая в качестве результата строку

* после фильтрации.

* @param aSourceString – исходная строка

* @return - обработанная строка

* @throws FilterException - если произошла фатальная ошибка

* (зацикливание)

*/

public String process(String aSourceString) throws FilterException;

/**

* Выключает правило по его rule.getClass().getName()

* @param aRuleClass – класс правила (что-то вроде IRule.class)

*/

public void disableRuleByClassName(Class aRuleClass);

/**

* Включает правило по его rule.getClass().getName()

* @param aRuleClass – класс правила (что-то вроде IRule.class)

*/

public void enableRuleByClassName(Class aRuleClass);

/**

* Включает все правила.

*/

public void enableAllRules();

/**

* Выключает все правила.

*/

public void disableAllRules();

/**

* Добавляет правило в фильтр.

* @param aRule правило, которое нужно добавить в фильтр.

*/

void addRule(IRule aRule);

}

IRule (листинг 6), показывающий, какие методы должны быть у правила.

Листинг 6. Интерфейс правила.

public interface IRule extends Serializable

{

/**

* Метод, который вызывается перед обработкой произвольной строки.

*/

public void initialize();

/**

* Инициализация параметров правила. Этот метод используется в

* основном для установки параметров правила при загрузке

* конфигурации фильтра из XML.

* @param aParameters - карта параметров.

*/

void setParameters(Map aParameters) throws FilterException;

/**

* Включает или выключает правило.

*/

public void setEnabled(boolean aEnabled);

/**

* @return true, если правило включено, false – иначе.

*/

public boolean isEnabled();

/**

* @return - символ, который является инициатором данного правила.

*/

public Character getInitiatorCharacter();

/**

* Обрабатывает текущую строку при помощи правила.

* @param aSource - исходная строка, текущая позиция

* @param aResult - текущий результат обработки

* @param aFilter - текущий фильтр

*/

public void process(Source aSource, Result aResult, IFilter aFilter);

}

IRuleGroup (листинг 7) – интерфейс работы с группой однотипных правил, как, например, правила транслитерации.

Листинг 7. Интерфейс группы правил.

public interface IRuleGroup

{

/**

* Добавляет правила группы в указанный фильтр.

* @param aFilter

*/

public void addRules(IFilter aFilter);

/**

* Включает или выключает все правила, входящие в группу.

*/

public void setEnabled(boolean aEnabled);

/**

* Возвращает true, если все правила группы включены в указанном фильтре.

* @param aFilter

*/

public boolean isEnabled(IFilter aFilter);

/**

* Инициализация параметров группы. Этот метод используется в

* основном для установки параметров правила при загрузке

* конфигурации фильтра из XML.

* @param aParameters карта параметров

*/

public void setParameters(Map aParameters);

}

Для упрощения работы с системой написано несколько классов, помогающих при создании новых фильтров и правил. Такими классами являются AbstractFilter и AbstractRule. Первый описывает все методы, необходимые для работы стандартного фильтра. Поэтому для того, чтобы создать нужный фильтр, можно просто создать класс-наследник AbstractFilter и в конструкторе вызвать метод addRule(), добавив все необходимое в нужной последовательности (листинг 8).

Листинг 8. Составление фильтра из отдельных правил.

public class WikiFilter extends AbstractFilter

{

public WikiFilter(int aMaxWordLength, int aMaxStringLength)

{

// замена < на <

addRule(new ReplaceLeftTagBracketRule());

// замена & на &

addRule(new ReplaceAmpersandTagBracketRule());

// правило экранирования – для возможности вывода спецсимволов

addRule(new EkranRule());

// правило замены http://... - ссылками

addRule(new AnchoringRule(aMaxWordLength));

... ... ...

// правило разбивания длинных слов пробелами

addRule(new BreakWordsRule(aMaxWordLength));

// правило «обрезания» длинных строк

addRule(new MaxLengthRule(aMaxStringLength));

}

}

После этого обработка строки данным фильтром представляет собой тривиальную задачу:

String result =

new WikiFilter(maxWordLength, maxStringLength).process(sourceString);

AbstractRule определяет методы setEnabled() и isEnabled(), одинаковые для большинства фильтров.

public abstract class AbstractRule implements IRule

{

// это поле сделано ThreadLocal для того, чтобы можно было одним фильтром

// обрабатывать несколько строк одновременно

private ThreadLocal _enabledThreadLocal = new ThreadLocal()

{

protected Object initialValue() {

// по умолчанию правило включается

return Boolean.TRUE;

}

};

public void setParameters(Map aParameters) throws FilterException

{

// для многих правил этот метод не используется, поэтому делаем

// его необязательным

}

public void initialize()

{

// так же, как и setParameters – делаем этот метод необязательным

}

public void setEnabled(boolean aEnabled)

{

_enabledThreadLocal.set(Boolean.valueOf(aEnabled));

}

public boolean isEnabled()

{

return ((Boolean) _enabledThreadLocal.get()).equals(Boolean.TRUE);

}

}

Есть возможность отключать некоторые правила непосредственно в процессе работы фильтра или между исполнениями метода process(). Можно также динамически изменять фильтр или настраивать его. При этом не требуется перекомпиляции кода или самого фильтра.

Также создан вспомогательный класс CustomFilterFromXML, который позволяет загрузить конфигурацию фильтра из XML-файла и автоматически ее обновляет при изменении XML-файла.

Применение

Метод фильтрации строк, представленный в данной статье, применим не только в узкоспециализированной области работы с интернет-текстами. Создавая разные правила, легко создавать строки, которые будут управлять, например поведением программы. Возможности неограниченны. Описанная здесь система называется JFilter и распространяется свободно, ее страничка в интернете: http://blog.existence.ru/exception/.products.JFilter. Там можно найти как библиотеку в формате jar, так и исходные тексты с документацией. В приложении приведен код интерфейсов фильтра и правила, которые являются основными интерфейсами системы. JFilter используется в системе блогов JDnevnik [6] и еще в нескольких проектах.

Правила, входящие в поставку

Все стандартные правила написаны в стиле, допускающем одновременную обработку фильтром нескольких строк, благодаря чему их можно использовать в многопоточной среде.

Стандартные правила (jfilter.rules.general)

BreakWorksRule – разбивает длинные слова пробелом.

EkranRule – правило экранирования спецсимволов.

MaxLengthRule – правило, которое ограничивает длину строк.

HTML-правила (jfilter.rules.html)

AnchoringRule – замена текста, начинающегося с http:// (или аналогов) и заканчивающегося пробелом, HTML-ссылкой.

MailRule – замена текста, заключенного в пробелы и содержащего символ «@», HTML-ссылкой.

Эмотиконы (jfilter.rules.smiles)

PreSmiler – замена обозначений эмотиконов («:-)», «;)» и так далее) на их стандартные обозначения для обработки SmilesRule’ом.

SmilesRule – замена одиночных слов, заключенных в парные двоеточия «::», HTML-картинками.

Транслитерация (jfilter.rules.transliteration)

Lat2RusTransliterationRuleGroup – транслитерация. Соответствует ISO и ГОСТ (то есть можно писать как по ГОСТу, так и обозначениями ISO; пока конфликтов такого варианта я не обнаружил).

Типографика (jfilter.rules.typografica)

AbbreviationsRule – замена (c), (p), (r), (tm) соответствующими HTML-символы.

HellipRule – замена трех точек подряд символом «многоточие».

LongDashRule – Замена символа «минус», обрамленного пробелами символом «тире».

QuotesRule – замена «знака дюйма» корректными кавычками для русского языка.

Вики-форматирование (jfilter.rules.wacko)

AnchorRule – создание ссылок в виде ((link)).

BlockquoteRule – цитата (>>текст>>).

BoldRule – выделение полужирным начертанием (**полужирный**).

HeaderRule – заголовок (==заголовок==).

ItalicRule – выделение курсивом (//курсив//).

MonospaceRule – выделение моноширинным шрифтом (##моноширинный##).

NoteRule – выделение замечания (span class=”note”).

ParagraphRule – Работа с переводами строки (одиночный перевод строки -
, два подряд -

).

PreformattedRule – выделение предварительно отформатированного текста (%%уже форматрованный текст%%).

ReplaceAmpersandTagBracketRule – замена символа “&” соответствующим HTML-аналогом (&).

ReplaceLeftTagBracketRule – замена символа “<” соответствующим HTML-аналогом (<).

SmallRule – выделение мелким шрифтом (++мелкий++).

StrikeRule – выделение перечеркиванием (--перечеркнутый--).

SubscriptRule – выделение нижним индексом (vvнижний индексvv).

SuperscriptRule – выделение верхним индексом (^^верхний индекс^^).

UnderlineRule – выделение подчеркиванием (__подчеркивание__).

Таблица 1. Стандартные правила.

Сравнение работы разных типов обработки строк

Свойство

Классический способ

Регулярные выражения

Фильтрация

Простота реализации

Просто

Очень сложно

Сложно

Возможности изменения

Для простых задач – очень большие, для сложных – очень сложные

Только вместе с перекомпиляцией выражения

Максимальные

Простота использования

Очень просто

Просто для тех, кто потратил много времени на обучение

Очень просто

Скорость работы

Быстро на простых вариантах, обычно медленно на сложных, сильно зависит от реализации

Быстро, если правильно использовать

Быстро

Таблица 2. Сравнение разных типов обработки строк.

Заключение

Хочется отметить, что библиотека JFilter продолжает развиваться, на настоящий момент реализовано очень много, но далеко не все из того, что хотелось бы реализовать. В ближайшем будущем предполагается написание дополнительных правил для классической, «бумажной» типографики, которые помогали бы редакторам и верстальщикам самых обычных, бумажных книг/журналов/газет.

Список литературы

Фридл Дж., Mastering Regular Expressions. Питер, 2003 год.

http://is.ifmo.ru, Санкт-Петербургский Государственный университет информационных технологий, механики и оптики, кафедра «Технологии программирования».

Бабаев А., МИР ПК - ДИСК. 2003. №12, Транслитерация и как правильно ее надо программировать.

http://is.ifmo.ru/projects/bone/ – cоздание скелетной анимации на основе автоматного программирования.

http://wackowiki.com/projects/WackoFormatter –библиотека для форматирования текста WackoFormatter.

http://blog.existence.ru/exception/.products.JDnevnik – Система блогов JDnevnik.

Для подготовки данной работы были использованы материалы с сайта http://www.rsdn.ru/

Характеристики

Тип файла
Документ
Размер
2,64 Mb
Тип материала
Учебное заведение
Неизвестно

Список файлов реферата

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6624
Авторов
на СтудИзбе
295
Средний доход
с одного платного файла
Обучение Подробнее