regulyarnyie-vyirazheniya-osnovyi (852744), страница 10
Текст из файла (страница 10)
Утилита fgrep (grep -F) предназначена для выполнения операций поиска в файлах с использованием литеральных строк; метасимволы наподобие $,* и I никакого особого смысла в ней не имеют. Утилита grep доступна в Linux,а также в Мае OS Х Darwin. Ее также можно получить в составе дистрибутивного пакета Cygwin GNU (http://www.cygwin.com) или загрузить по адресуhttp://gnuwin32.sourceforge.net/packages/grep.htm.• PCRE (http://www.pcre.org), или Perl CompatiЬle Regular Expressions, - библиотека функций языка С (8- и 16-разрядная версии) для работы с регулярнымивыражениями, совместимыми с Perl 5, которая также включает некоторые возможности других реализаций.
Средство pcregrep - 8-разрядная утилита наподобие grep, позволяющая использовать возможности библиотеки PCRE в команднойстроке. Утилиту pcregrep для компьютеров Мае можно получить на сайте Macports(http://www.macports.org), выполнив команду sudo port install pcre. (Накомпьютере должна быть предварительно установлена интегрированная среда разработки Xcode; см. https://developer.apple.com/technologies/tools/.На сайте требуется пройти процедуру регистрации пользователя.)Глава 3.
Границы53ГЛАВА 4Аnьтернативы, rруппы и обратные ссыпкиВы уже видели, как работают группы. Создание группы путем заключения текстав круглые скобки упрощает выполнение ряда операций, перечисленных ниже:• черодование, т.е. выбор одного из нескольких возможных шаблонов;• создание подшаблонов;• захват (запоминание) групп для последующих обращений к ним с помощью обратных ссылок;• применение операций к групповому шаблону, например квантификатору;• использование групп без функции захвата;• атомарные группы (дополнительная возможность).В примерах этой главы наряду с полным текстом поэмы "The Rime of the AпcientMariner" (файл rime.txt) используется ряд дополнительных текстов.
Нашим основным инструментов будет настольная версия приложения RegExr, написанная с использованиемтехнологии Adobe AIR (об установке приложения см. в главе 2), однако будут привлекаться и другие средства, такие как редактор sed.ЧередованиеТермин чередование (alteration) означает возможность выбора альтернативных вариантов (альтернатив) шаблона при поиске совпадений. Предположим, требуется определить, сколько раз артикль the встречается в тексте поэмы "The Rime of the AпcientMariner".
Проблема заключается в том, что в поэме артикль может встречаться в различных формах: ТНЕ, The и the. Альтернативы позволяют справиться с этой проблемой.Откройте настольное приложение RegExr, дважды щелкнув на его значке, и скопируйте в него текст поэмы из файла rime.txt, находящегося в архиве примеров.Введите в верхнем текстовом поле такой шаблон:(thelThelTHE)и вы увидите, как в расположенном под ним поле с текстом поэмы выделятся все вхождения артикля the (рис. 4.1 ). Для просмотра скрытой части текста воспользуйтесь полосойпрокрутки.R•gExrH•tchSampl@s(th• IThoiTHE)� showНу SitvedCommunity�п,/ glob�IТНЕ RIME OF ТНЕ ANCYENТ MARINERE, IN SEVEN PARTS.ARGUMENТ,•J\WldHov, а Ship having passed the Une vr.1s dri,..en Ьу Storms to the cold Count:rytowards the South Pole: and how from theлce she made her course to the tтopicalLatitude of the Greilt Pacific Ocean: and of the strange th1ngs that befell: and 1nv.i,at mannf!:r the Ancyent Marinere- came back to his own Country.\D\s15[АВС]1.It: is ilin ancyfi!nt Marineгe,And he stoppeth one of three:"Ву thv long grey Ьеагd and th•1 glittering еуе''Nov1 vlherefore stoppest me"[-Аве][•·z]Mat.ches any chaг.1cter, e><.c�pt for l,nebreaks if dotall 1s ,els.e"Trle Bridegroom's doors are op-en'd �de"And I am next of kin:"The Guests are met, the Feiilst is set.·"May'st.
hear the merry din.--R@gExp: l(th•ITh�ITHE)/gpatt•rn: •the IThelTHE-Jfl.gs: g1 apturaлg groups:group 1: thelThelTHE)Рис. 4.1. Использование чередования шаблоновПрименив опции, эту группу можно записать в б олее компактном виде. Опции позволяют конкретизировать способ поиска совпадений с шаблоном в тексте. Например,следующая опция:(?i)делает шаблон нечувствительным к регистру, так что вместо прежнего шаблона, включающего набор альтернатив, можно использовать шаблон следующего вида:(?i)theВведите его в RegExr и сравните полученный результат с предыдущим.
Вместо тогочтобы изменять шаблон, можно установить флажок ignoreCase ( игнорировать регистр).Результат будет тем же. Перечень доступных опций (модификаторов) приведен в табл. 4.1.Таблица 4.1. Опции, используемые в регулярных выраженияхОпцияОписаниеПоддержка(?d)Строки UnixJava(?i)Игнорировать регистр символовPCRE, Perl, Java(?J)Разрешить одинаковые имена подшаблоновPCRE*(?m)Обрабатывать текст как многострочныйPCRE, Perl, Java56Глава 4. Альтернативы, группы и обратные ссылкиокончание табл.
4.1Опция(?s)ОписаниеПоддержкаОбрабатывать текст как одну строкуPCRE, Perl, Java(?u)Обрабатывать шаблоны как строки UnicodeJava(?U)Делает модификаторы "нежадными" по умолчаниюPCRE(?х)Игнорировать пробельные символы и комментарииPCRE, Perl, Java( ?-... )Сброс или отключение опцийPCRE•См.раздел "Named Subpatterns" на странице http: //www.pcre.org/pcre. txt.Далее мы рассмотрим применение альтернатив в grep. Кстати, опции, приведенныев табл.4.1, в grep не работают, поэтому мы будем использовать исходный шаблон, содержащий перечисление альтернатив.
Для подсчета количества строк, в которых встречается артикль the, причем независимо от регистра символов и того, сколько именно разшаблон встречается в строке, используйте такую команду:grep -Ее "(thelThelTHE)" rime.txtчто должно привести к следующему результату:327Однако это еще не вся история, поэтому не расслабляйтесь.Ниже приведен подробный анализ того, как работает данная команда.• Опция -Е означает, что вы хотите использовать расширенные регулярные выражения (ERE), а не базовые (BRE).
Это позволяет избавиться от необходимостиэкранировать скобки и вертикальную черту (\ ( ТНЕ \ 1 The \ 1 the \) ), что надобыло бы сделать в случае использования BRE.• Опция -с указывает на необходимость вывода количества строк, в которых обнаружены совпадения (а не собственно количества совпадений}.• Скобки объединяют варианты выбора, или альтернативы, заданные в виде the, Theи ТНЕ, в одну группу.• Символ вертикальной черты разделяет альтернативы, обработка которых осуществляется слева направо.Чтобы получить фактическое количество вхождений артикля в тексте поэмы, необходимо использовать следующую команду:grep -Ео "(thelThelTHE)" rime.txt I wc -1возвращающую каждое совпадение в виде отдельной строки, что приводит к следующему результату:412Проанализируем эту команду.Глава 4.
Альтернативы, группы и обратные ссыпки57• Опция -о указывает на то, что отображать необходимо лишь ту часть строки, которая совпадает с шаблоном, хотя это и не очевидно по той причине, что канал ( 1 )перенаправляет вывод команде wc.• В данном контексте вывод команды grep перенаправляется в поток ввода команды wc.
Команда wc - это команда подсчета слов, опция -1 которой задает подсчет количества входных строк.Откуда взялась столь большая разница в значениях: 327 и 412? Это произошло потому, что опция -с задает лишь подсчет строк, в которых встречаются совпадения с шаблоном, но ведь в одной строке может встретиться несколько совпадений. Если в команде wc -1 дополнительно использовать опцию -о, то каждое вхождение искомого словав любой из его форм будет появляться на отдельной строке и учитываться при подсчете,что и приводит к получению большего значения.Выполним аналогичный поиск совпадений с помощью Perl, используя следующую команду:perl -ne 'print if /(thelThelTHE)/' rime.txtЭту команду можно оптимизировать за счет применения опции ( ? i) , делающей ненужным использование списка альтернатив:perl -ne 'print if /(?i)the/' rime.txtНо и последнюю команду можно дополнительно улучшить, добавив модификатор iвслед за последним разделителем шаблона:perl -ne 'print if /the/i' rime.txtРезультат останется тем же.
Однако чем проще, тем лучше. Список дополнительныхмодификаторов (называемых также флагами) приведен в табл. 4.2. Одновременно у васпоявляется возможность сравнить (разумеется, с учетом различий в синтаксисе) эти модификаторы с опциями, приведенными в табл. 4.1.Таблица 4.2. Модификаторы (флаги) Perl*МодификатораОписаниеПоиск соответствий для сокращений \d, \s, \w и классов POSIX только в диапазоне символов ASCIIсНе сбрасывать текущую позицию поиска при неудачном исходе сопоставленияdИспользовать собственные правила платформы, заданные по умолчаниюgГлобальное сопоставление, т.е. поиск всех вхождений шаблонаiИгнорировать регистр при сопоставлении1Использовать правила текущей локалиmОбрабатывать исходный текст как многострочныйРСохранять строку, которая совпалаsОбрабатывать исходный текст как единую строку58Глава 4. Альтернативы, группы и обратные ссылкиокончание табл.
4.2Модификатор ОписаниеuИспользовать правила Unicode при сопоставленииИгнорировать пробельные символы и комментариих'Cм.http://perldoc.perl.org/perlre.html#ModifiersПодшабnоныКогда говорят о подшаблонах в регулярных выражениях, то под этим термином чащевсего подразумевают группу или группы, входящие в другую группу. Подшаблон - этошаблон в шаблоне. Часто, хотя и не всегда, совпадение с подшаблоном проверяется лишьв том случае, если найдено совпадение для предшествующего ему шаблона.
Подшаблоныможно конструировать множеством способов, но нас интересуют в первую очередь те изних, которые определяются с помощью круглых скобок.В некотором смысле вы уже познакомились с подшаблонами, когда работали со следующим шаблоном:(thelThelTHE)Здесь мы имеем дело с тремя подшаблонами. Первый из них - the, второй - The,третий - ТНЕ, но в данном случае поиск совпадений для второго подшаблона осуществляется независимо от поиска совпадений для первого подшаблона.