45815 (665159), страница 2
Текст из файла (страница 2)
На рисунке 2 представлена диаграмма классов библиотеки, при этом большая часть классов правил убрана, чтобы повысить читаемость.
Рисунок 2. Диаграмма классов.
Описание
В библиотеке JFilter есть несколько интерфейсов:
IFilter (листинг 5), который описывает сам фильтр.
Листинг 5. Интерфейс фильтра
public interface IFilter extends Serializable { /** * Обрабатывает строку, возвращая в качестве результата строку * после фильтрации. * @param aSourceString – исходная строка * @return - обработанная строка * @throws FilterException - если произошла фатальная ошибка * (зацикливание) */ public String process(String aSourceString) throws FilterException; /** * Выключает правило по его rule.getClass().getName() * @param aRuleClass – класс правила (что-то вроде IRule.class) */ public void disableRuleByClassName(Class aRuleClass); /** * Включает правило по его rule.getClass().getName() * @param aRuleClass – класс правила (что-то вроде IRule.class) */ public void enableRuleByClassName(Class aRuleClass); /** * Включает все правила. */ public void enableAllRules(); /** * Выключает все правила. */ public void disableAllRules(); /** * Добавляет правило в фильтр. * @param aRule правило, которое нужно добавить в фильтр. */ void addRule(IRule aRule); } |
IRule (листинг 6), показывающий, какие методы должны быть у правила.
Листинг 6. Интерфейс правила.
public interface IRule extends Serializable { /** * Метод, который вызывается перед обработкой произвольной строки. */ public void initialize(); /** * Инициализация параметров правила. Этот метод используется в * основном для установки параметров правила при загрузке * конфигурации фильтра из XML. * @param aParameters - карта параметров. */ void setParameters(Map aParameters) throws FilterException; /** * Включает или выключает правило. */ public void setEnabled(boolean aEnabled); /** * @return true, если правило включено, false – иначе. */ public boolean isEnabled(); /** * @return - символ, который является инициатором данного правила. */ public Character getInitiatorCharacter(); /** * Обрабатывает текущую строку при помощи правила. * @param aSource - исходная строка, текущая позиция * @param aResult - текущий результат обработки * @param aFilter - текущий фильтр */ public void process(Source aSource, Result aResult, IFilter aFilter); } |
IRuleGroup (листинг 7) – интерфейс работы с группой однотипных правил, как, например, правила транслитерации.
Листинг 7. Интерфейс группы правил.
public interface IRuleGroup { /** * Добавляет правила группы в указанный фильтр. * @param aFilter */ public void addRules(IFilter aFilter); /** * Включает или выключает все правила, входящие в группу. */ public void setEnabled(boolean aEnabled); /** * Возвращает true, если все правила группы включены в указанном фильтре. * @param aFilter */ public boolean isEnabled(IFilter aFilter); /** * Инициализация параметров группы. Этот метод используется в * основном для установки параметров правила при загрузке * конфигурации фильтра из XML. * @param aParameters карта параметров */ public void setParameters(Map aParameters); } |
Для упрощения работы с системой написано несколько классов, помогающих при создании новых фильтров и правил. Такими классами являются AbstractFilter и AbstractRule. Первый описывает все методы, необходимые для работы стандартного фильтра. Поэтому для того, чтобы создать нужный фильтр, можно просто создать класс-наследник AbstractFilter и в конструкторе вызвать метод addRule(), добавив все необходимое в нужной последовательности (листинг 8).
Листинг 8. Составление фильтра из отдельных правил.
public class WikiFilter extends AbstractFilter { public WikiFilter(int aMaxWordLength, int aMaxStringLength) { // замена < на < addRule(new ReplaceLeftTagBracketRule()); // замена & на & addRule(new ReplaceAmpersandTagBracketRule()); // правило экранирования – для возможности вывода спецсимволов addRule(new EkranRule()); // правило замены http://... - ссылками addRule(new AnchoringRule(aMaxWordLength)); ... ... ... // правило разбивания длинных слов пробелами addRule(new BreakWordsRule(aMaxWordLength)); // правило «обрезания» длинных строк addRule(new MaxLengthRule(aMaxStringLength)); } } |
После этого обработка строки данным фильтром представляет собой тривиальную задачу:
String result = new WikiFilter(maxWordLength, maxStringLength).process(sourceString); |
AbstractRule определяет методы setEnabled() и isEnabled(), одинаковые для большинства фильтров.
public abstract class AbstractRule implements IRule { // это поле сделано ThreadLocal для того, чтобы можно было одним фильтром // обрабатывать несколько строк одновременно private ThreadLocal _enabledThreadLocal = new ThreadLocal() { protected Object initialValue() { // по умолчанию правило включается return Boolean.TRUE; } }; public void setParameters(Map aParameters) throws FilterException { // для многих правил этот метод не используется, поэтому делаем // его необязательным } public void initialize() { // так же, как и setParameters – делаем этот метод необязательным } public void setEnabled(boolean aEnabled) { _enabledThreadLocal.set(Boolean.valueOf(aEnabled)); } public boolean isEnabled() { return ((Boolean) _enabledThreadLocal.get()).equals(Boolean.TRUE); } } |
Есть возможность отключать некоторые правила непосредственно в процессе работы фильтра или между исполнениями метода process(). Можно также динамически изменять фильтр или настраивать его. При этом не требуется перекомпиляции кода или самого фильтра.
Также создан вспомогательный класс CustomFilterFromXML, который позволяет загрузить конфигурацию фильтра из XML-файла и автоматически ее обновляет при изменении XML-файла.
Применение
Метод фильтрации строк, представленный в данной статье, применим не только в узкоспециализированной области работы с интернет-текстами. Создавая разные правила, легко создавать строки, которые будут управлять, например поведением программы. Возможности неограниченны. Описанная здесь система называется JFilter и распространяется свободно, ее страничка в интернете: http://blog.existence.ru/exception/.products.JFilter. Там можно найти как библиотеку в формате jar, так и исходные тексты с документацией. В приложении приведен код интерфейсов фильтра и правила, которые являются основными интерфейсами системы. JFilter используется в системе блогов JDnevnik [6] и еще в нескольких проектах.
Правила, входящие в поставку
Все стандартные правила написаны в стиле, допускающем одновременную обработку фильтром нескольких строк, благодаря чему их можно использовать в многопоточной среде.
Стандартные правила (jfilter.rules.general) | BreakWorksRule – разбивает длинные слова пробелом. |
EkranRule – правило экранирования спецсимволов. | |
MaxLengthRule – правило, которое ограничивает длину строк. | |
HTML-правила (jfilter.rules.html) | AnchoringRule – замена текста, начинающегося с http:// (или аналогов) и заканчивающегося пробелом, HTML-ссылкой. |
MailRule – замена текста, заключенного в пробелы и содержащего символ «@», HTML-ссылкой. | |
Эмотиконы (jfilter.rules.smiles) | PreSmiler – замена обозначений эмотиконов («:-)», «;)» и так далее) на их стандартные обозначения для обработки SmilesRule’ом. |
SmilesRule – замена одиночных слов, заключенных в парные двоеточия «::», HTML-картинками. | |
Транслитерация (jfilter.rules.transliteration) | Lat2RusTransliterationRuleGroup – транслитерация. Соответствует ISO и ГОСТ (то есть можно писать как по ГОСТу, так и обозначениями ISO; пока конфликтов такого варианта я не обнаружил). |
Типографика (jfilter.rules.typografica) | AbbreviationsRule – замена (c), (p), (r), (tm) соответствующими HTML-символы. |
HellipRule – замена трех точек подряд символом «многоточие». | |
LongDashRule – Замена символа «минус», обрамленного пробелами символом «тире». | |
QuotesRule – замена «знака дюйма» корректными кавычками для русского языка. | |
Вики-форматирование (jfilter.rules.wacko) | AnchorRule – создание ссылок в виде ((link)). |
BlockquoteRule – цитата (>>текст>>). | |
BoldRule – выделение полужирным начертанием (**полужирный**). | |
HeaderRule – заголовок (==заголовок==). | |
ItalicRule – выделение курсивом (//курсив//). | |
MonospaceRule – выделение моноширинным шрифтом (##моноширинный##). | |
NoteRule – выделение замечания (span class=”note”). | |
ParagraphRule – Работа с переводами строки (одиночный перевод строки - ). | |
PreformattedRule – выделение предварительно отформатированного текста (%%уже форматрованный текст%%). | |
ReplaceAmpersandTagBracketRule – замена символа “&” соответствующим HTML-аналогом (&). | |
ReplaceLeftTagBracketRule – замена символа “<” соответствующим HTML-аналогом (<). | |
SmallRule – выделение мелким шрифтом (++мелкий++). | |
StrikeRule – выделение перечеркиванием (--перечеркнутый--). | |
SubscriptRule – выделение нижним индексом (vvнижний индексvv). | |
SuperscriptRule – выделение верхним индексом (^^верхний индекс^^). | |
UnderlineRule – выделение подчеркиванием (__подчеркивание__). |
Таблица 1. Стандартные правила.
Сравнение работы разных типов обработки строк
Свойство | Классический способ | Регулярные выражения | Фильтрация |
Простота реализации | Просто | Очень сложно | Сложно |
Возможности изменения | Для простых задач – очень большие, для сложных – очень сложные | Только вместе с перекомпиляцией выражения | Максимальные |
Простота использования | Очень просто | Просто для тех, кто потратил много времени на обучение | Очень просто |
Скорость работы | Быстро на простых вариантах, обычно медленно на сложных, сильно зависит от реализации | Быстро, если правильно использовать | Быстро |
Таблица 2. Сравнение разных типов обработки строк.
Заключение
Хочется отметить, что библиотека JFilter продолжает развиваться, на настоящий момент реализовано очень много, но далеко не все из того, что хотелось бы реализовать. В ближайшем будущем предполагается написание дополнительных правил для классической, «бумажной» типографики, которые помогали бы редакторам и верстальщикам самых обычных, бумажных книг/журналов/газет.
Список литературы
Фридл Дж., Mastering Regular Expressions. Питер, 2003 год.
http://is.ifmo.ru, Санкт-Петербургский Государственный университет информационных технологий, механики и оптики, кафедра «Технологии программирования».
Бабаев А., МИР ПК - ДИСК. 2003. №12, Транслитерация и как правильно ее надо программировать.
http://is.ifmo.ru/projects/bone/ – cоздание скелетной анимации на основе автоматного программирования.
http://wackowiki.com/projects/WackoFormatter –библиотека для форматирования текста WackoFormatter.
http://blog.existence.ru/exception/.products.JDnevnik – Система блогов JDnevnik.
Для подготовки данной работы были использованы материалы с сайта http://www.rsdn.ru/