regulyarnyie-vyirazheniya-osnovyi (852744), страница 21
Текст из файла (страница 21)
Конец начала119•л -•\ (? - литеральная открывающая круглая скобка, не являющаяся обязательной(?).•(?: \d { 3 } ) - группа без захвата, которой соответствует последовательность изтрех цифр.•\ ) ? - необязательная закрывающая круглая скобка.•[ - . ] ? - допускает включение необязательного дефиса или точки.•(?: \d { 3} ) - еще одна группа без захвата, которой соответствует последовательность из трех цифр.•[ - . ] ? - допускает включение необязательного дефиса или точки.•(?: \d { 4 } ) - еще одна группа без захвата, которой соответствует последовательность из четырех цифр.•$ - соответствие концу строки или текста.проверка совпадения с началом строки.Это выражение - адаптированный вариант аналогичного выражения, приведенного в книге Гойвертса и Левитана Регулярные вь,ражения. Сборник рецептов. Его можнои далее улучшать, однако я оставляю эту задачу для вас, поскольку теперь вам по силамсправиться с ней самостоятельно.Сопоставnение с адресами эnектронной почтыНаконец, я покажу еще одно регулярное выражение, которое представляет адресэлектронной почты:л( ( \w-.
! #$%&; '*+-/=? л ' { 1 }-] +)@ ( (?: \w+ \.) +) (?: [a-zA-Z] { 2, 4}) $Это адаптация аналогичного выражения из приложения RegExr Гранта Скиннера.Мне бы очень хотелось, чтобы вы сами объяснили, что означает здесь каждый символ в контексте регулярного выражения, и попытались внести дальнейшие улучшения.Я уверен, что вы сможете это сделать.Благодарю вас за то, что потратили время на чтение моей книги. Мне было приятнонаше общение. С основными понятиями регулярных выражений вы теперь хорошо знакомы. Вы уже не член клуба новичков. Надеюсь, что вам удалось освоить регулярныевыражения и вы узнали многое из того, что пригодится вам в дальнейшем.О чем вы узнаnи в rnaвe 1 О• Как извлечь из документа список ХМL-элементов и преобразовать список в таблицу стилей XSLT.• Где искать дополнительные ресурсы для изучения регулярных выражений.• Известные инструменты, реализации и библиотеки, предназначенные для работыс регулярными выражениями.• Как создать надежный шаблон для сопоставления с телефонными номерамив формате, принятом в США и Канаде.120Глава 10.
Конец началаПРИЛОЖЕНИЕ АСправочник по реrуnярнымвыражениямДанное приложение представляет собой краткий справочник по регулярным выражениям.Реrуnярные выражения в QEDРедактор QED (сокращение от "Quick Editor") первоначально был написан для операционной системы Berkeley Time-Sharing System, выполнявшейся на компьютерах ScientificData Systems SDS 940. Его версия, переработанная Кеном Томпсоном для операционнойсистемы CompatiЬle Тime-Sharing System, эксплуатировавшейся в МIТ, предоставилаодну из первых (если не самую первую) реализацию регулярных выражений для практических вычислений.
В табл. А.1, взятой со стр. 3 и 4 служебного руководства Bell Labsот 1970 года, описаны возможности встроенных средств редактора QED для работы с регулярными выражениями. Как это ни поразительно, но большая часть синтаксиса техвремен сохранилась и по сей день, спустя более чем сорок лет.Таблица А. 1. Регулярные выражения редактора QEDСредстволитералОписание"а) Обычный символ (литерал) - регулярное выражение, буквально совпадающее с вхождением данного символа""Ь) л - регулярное выражение, которому соответствует пустой символв начале строки"$"с) $ - регулярное выражение, которому соответствует символ <nl> [новая строка] (обычно находящийся в конце строки)""d) .
- регулярное выражение, которому соответствует любой одиночныйсимвол, за исключением символа <nl> [новая строка]"[ <строка> J[ л <строка>]"е) [ <строка>] - регулярное выражение, которому соответствует любойиз символов, перечисленных в строке, и никакой другой символ""f) [ л <строка>] - регулярное выражение, которому соответствует любойсимвол, кроме символа <nl> [новая строка] и символов, перечисленныхв строке"окончание табл. А.1Средство*Описание"g) Регулярное выражение, за которым следует символ *, - это регулярное выражение, которому соответствует любое (включая и нулевое) числосмежных повторений текста, соответствующего исходному регулярномувыражению""h) Два смежных регулярных выражения образуют регулярное выражение,которому соответствуют смежные вхождения текстов, соответствующих исходным регулярным выражениям""i) Два регулярных выражения, разделенные символом 1, образуют регулярное выражение, которому соответствует любой из текстов, соответствующих исходным регулярным выражениям"()"j) Регулярное выражение, заключенное в круглые скобки, представляетсобой регулярное выражение, которому соответствует тот же текст, чтои соответствующий исходному регулярному выражению.
Круглые скобкииспользуются для изменения порядка вычисления выражений, подразумеваемого в пп. g, h и i: выражению а (Ь I с) d будет соответствовать текстabd или acd, а выражению аЬ I cd - аЬ или cd"{}"k) Если <regexp> - регулярное выражение, то и { <regexp>}x регулярное выражение, где х - произвольный символ). Этому выражению соответствует то же самое, что и выражению <regexp>; оноимеет некоторые побочные эффекты, о которых сказано в описаниикоманды Substitute." [Команда Substitute формировалась в виде(., .
S/ <rеgехр>/<строка>) (см. стр. 13 руководства) аналогично тому,как это все еще используется в программах наподобие sed и в Perl]\Е"1) Если <rexname> - имя регулярного выражения, поименованного командой Е (см. ниже), то \E<rexname> - регулярное выражение, которомусоответствует то же самое, что и регулярному выражению, указанномув команде Е. Дальнейшее обсуждение содержится в описании команды Е"[Команда \Е позволяла присваивать имя регулярному выражению и повторно использовать его по этому имени]"m) Обособленное пустое выражение эквивалентно последнему встретившемуся регулярному выражению. Пустое регулярное выражение изначально является неопределенным; оно также становится неопределеннымпосле использования ошибочного регулярного выражения и после использования команды Е""п) Ничто больше, кроме вышеописанного, не является регулярным выражением""о) Текст, распространяющийся более чем на одну строку, не соответствуетникакому регулярному выражению"МетасимвоnыВ регулярных выражениях используются 14 метасимволов, каждый из которых имеетспециальное назначение (табл.
А.2). Если любой из этих символов необходимо использовать как литерал, его следует экранировать, поставив перед ним символ обратной косойчерты. Например, экранированный символ доллара выглядит как \$, а экранированныйсимвол обратной косой черты - как \ \.122Приложение А. Справочник по регулярным выражениямТаблица А.2. Метасимволы регулярных выраженийМетасимвол\НазваниеКодовая точка НазначениеТочкаU+002EСовпадает с любым одиночнымсимволом, кроме символа новой строкиОбратная косая чертаU+005CU+007CU+005EЭкранирует символВертикальная линияЗнак вставки (циркумфлекс)$?*+U+0024Вопросительный знакU+OOЗFU+002AЗвездочкаПлюсU+002BЛевая квадратная скобка U+005BПравая квадратная скоб- U+005DЗнак долларакаАльтернатива (или)Якорь начала строкиЯкорь конца строкиКвантификатор "О или 1"Квантификатор "О или более"Квантификатор "1 или более"Открывает символьный классЗакрывает символьный классЛевая фигурная скобкаU+007BОткрывает квантификатор илиблокПравая фигурная скобкаU+007DЗакрывает квантификатор илиблокЛевая круглая скобкаU+0028U+0029Открывает группуПравая круглая скобкаЗакрывает группуСпециаnьные симвоnыВ табл.
А.3 приведены специальные символы (символьные сокращения), используемые в регулярных выражениях.Таблица А.З. Специальные символыСпециальный символОписание\аПредупреждение\ЬГраница слова(\Ь]Возврат на шаг (забой)\ВНе граница слова\схУправляющий символ\dЦифра\ОНе цифра\dxxxДесятичное значение кода символа\fПрогон страницыПриложение А. Справочник по регулярным выражениям123Окончание табл.
А.3Специальный символОписание\rВозврат каретки\nПеревод строки\охххВосьмеричное значение кода символа\sПробел (пустой символ)\SНе пробел (непустой символ)\tГоризонтальная табуляции\vВертикальная табуляции\wСловарный символ\WНе словарный символ\0NULL\хххШестнадцатеричное значение кода символа\uxxxxСимвол в кодировке UnicodeПробеnьные симвоnыВ табл. А.4 приведены условные символы, представляющие пробел.Таблица А.4.
Пробельные символыУсловный символОписание\fПрогон страницы\hГоризонтальный пробел\ННе горизонтальный пробел\nНовая строка\rВозврат каретки\tГоризонтальная табуляция\vВертикальный пробел\VНе вертикальный пробелПробеnьные симвоnы UnicodeВ табл. А.5 приведены пробельные символы в кодировке Unicode.Таблица А.5. Пробельные символы в кодировке UnicodeАббревиатураили псевдонимНазвание (пояснение)Кодовая точкаUnicodeРегулярноевыражениеНТГоризонтальная табуляцияU+0009\u0009 или \tLFПеревод строкиU+OOOA\uOOOA или \п124Приложение А. Справочник по регулярным выражениямОкончание табл. А.5СпециальныйОписаниеОписаниеvтСпециальныйсимволВертикальная табуляцияU+OOOB\uOOOB или \vFFПрогон страницыU+OOOC\uOOOC или \fCRВозврат кареткиU+OOOD\uOOOd или \rSPМежсловный пробелU+0020\u0020 ИЛИ \s*NELСледующая строкаU+0085\u0085NBSPНеразрывный межсловный пробелU+OOAO\uOOAOЗнак пробела в алфавите OghamU+1680\u1680U+180E\u180EвамРазделитель гласных монгольскогоалфавитаМетка порядка байтовU+FEFF\ufeffNQSPПолукруглая (полукегельная) шпацияU+2000\u2000MQSP, MuttonQuadКруглая (кегельная) шпацияU+2001\u2001ENSP, NutПолукруглая шпацияU+2002\u2002EMSP, MuttonКруглая шпацияU+2003\u2003ЗМSР, Thick space Третная шпацияU+2004\u20044MSP, Mid spaceЧетвертная шпацияU+2005\u20056/MSPШестерная шпацияU+2006\u2006FSPПробел, равный по ширине цифрамU+2007\u2007PSPПунктуационный пробелU+2008\u2008THSPТонкий пробелU+2009\u2009HSPВолосяной пробелU+200A\u200AZ:NSPПробел нулевой шириныU+200B\u200BLSEPРазделитель строкU+2028\u2028PSEPРазделитель абзацевU+2029\u2029NNBSPНеразрывный узкий пробелU+202F\u202FMMSPСредний математический пробелU+205F\u205fIDSPИдеографический пробелU+ЗООО\uЗОООСИМВОЛMVS• Также совпадает с вхождениями других пробельных символов.Управляющие символыВ табл.