М. Лутц - Изучаем Python (4-е издание)- 2011 (1126907), страница 34
Текст из файла (страница 34)
Однако помимо операций, универсальныхдля последовательностей, строки также имеют свои собственные операции, реализованные в виде методов (функций, присоединенных к объекту, которыезапускаются выражением вызова).Например, метод строк find выполняет поиск подстроки в строке (он возвращает смещение переданной ему подстроки или -1, если поиск не увенчался успехом), а метод replace производит глобальный поиск с заменой:>>> S.find(‘pa’)# Поиск смещения подстроки1>>> S‘Spam’>>> S.replace(‘pa’, ‘XYZ’) # Замена одной подстроки другой‘SXYZm’>>> S‘Spam’И снова независимо от имен этих строковых методов, применяя методы, мыне изменяем оригинальную строку, а создаем новую, т. к. строки являются неизменяемыми, и это следует учитывать.
Строковые методы – это первый уровень в комплекте инструментальных средств обработки текста языка Python.Другие методы позволяют разбивать строки на подстроки по определенномусимволу-разделителю (достаточно удобно для простых случаев разбора строк),преобразовывать регистр символов, проверять тип содержимого строк (цифры,130Глава 4. Введение в типы объектов языка Pythonалфавитные символы и так далее) и отсекать пробельные символы с обоих концов строк.>>> line = ‘aaa,bbb,ccccc,dd’>>> line.split(‘,’) # Разбивает строку по разделителю и создает список строк[‘aaa’, ‘bbb’, ‘ccccc’, ‘dd’]>>> S = ‘spam’>>> S.upper()# Преобразование символов в верхний и в нижний регистр‘SPAM’>>> S.isalpha()True# Проверка содержимого: isalpha, isdigit и так далее>>> line = ‘aaa,bbb,ccccc,dd\n’>>> line = line.rstrip() # Удаляет завершающие пробельные символы>>> line‘aaa,bbb,ccccc,dd’Кроме того, строки поддерживают операции подстановки, известные как форматирование и доступные как в виде выражений (существовали изначально),так и в виде методов строк (появились в версиях 2.6 и 3.0):>>> ‘%s, eggs, and %s’ % (‘spam’, ‘SPAM!’)# Выражение (во всех версиях)‘spam, eggs, and SPAM!’>>> ‘{0}, eggs, and {1}’.format(‘spam’, ‘SPAM!’) # Метод (2.6, 3.0)‘spam, eggs, and SPAM!’Следует заметить, что в отличие от универсальных операций, применяемыхк последовательностям, строковые методы могут применяться только к строкам и ни к каким другим объектам, хотя некоторые типы могут иметь методы с похожими именами.
Следует понимать, что инструментальные средстваязыка Python������������������������������������������������������������������������������������������������������������������������������делятся на несколько уровней: универсальные операции, которые могут применяться к нескольким типам, реализованы в виде встроенныхфункций и выражений (например, len(X), X[0]), а операции, специфичные дляопределенного типа, реализованы в виде методов (например, aString.upper()).Выбор требуемых инструментов из всех этих категорий станет более простымпо мере изучения языка Python, а в следующем разделе приводится несколькорекомендаций, которые вы сможете использовать уже сейчас.Получение помощиМетоды, представленные в предыдущем разделе, являются лишь небольшойчастью того, что доступно при работе со строковыми объектами.
Вообще, этакнига не является исчерпывающим источником информации о методах объектов. Чтобы получить дополнительную информацию, вы всегда можете воспользоваться функцией dir, которая возвращает список всех доступных атрибутов заданного объекта. Предположим, что переменная S по-прежнему остается строкой; ниже приводится список ее атрибутов в Python 3.0 (в Python 2.6этот список немного отличается):>>> dir(S)[‘__add__’, ‘__class__’, ‘__contains__’, ‘__delattr__’, ‘__doc__’, ‘__eq__’,‘__format__’, ‘__ge__’, ‘__getattribute__’, ‘__getitem__’, ‘__getnewargs__’,‘__gt__’, ‘__hash__’, ‘__init__’, ‘__iter__’, ‘__le__’, ‘__len__’, ‘__lt__’,‘__mod__’, ‘__mul__’, ‘__ne__’, ‘__new__’, ‘__reduce__’, ‘__reduce_ex__’,131Строки‘__repr__’, ‘__rmod__’, ‘__rmul__’, ‘__setattr__’, ‘__sizeof__’, ‘__str__’,‘__subclasshook__’, ‘_formatter_field_name_split’, ‘_formatter_parser’,‘capitalize’, ‘center’, ‘count’, ‘encode’, ‘endswith’, ‘expandtabs’, ‘find’,‘format’, ‘index’, ‘isalnum’,’isalpha’, ‘isdecimal’, ‘isdigit’, ‘isidentifier’,‘islower’, ‘isnumeric’, ‘isprintable’, ‘isspace’, ‘istitle’, ‘isupper’, ‘join’,‘ljust’, ‘lower’, ‘lstrip’, ‘maketrans’, ‘partition’, ‘replace’, ‘rfind’, ‘rindex’,‘rjust’, ‘rpartition’, ‘rsplit’, ‘rstrip’, ‘split’, ‘splitlines’, ‘startswith’,‘strip’, ‘swapcase’, ‘title’, ‘translate’, ‘upper’, ‘zfill’]Скорее всего, вам не понадобятся имена из этого списка, содержащие символыподчеркивания, до того момента, пока мы не приступим к изучению возможности перегрузки операторов в классах, – они представляют собой реализацию строкового объекта и доступны для поддержки специализации.
В общемслучае ведущие и завершающие символы подчеркивания используются интерпретатором Python для обозначения особенностей внутренней реализации.Имена без символов подчеркивания в этом списке обозначают методы строковых объектов.Функция dir возвращает лишь имена методов. Чтобы узнать назначение тогоили иного метода, можно передать его имя функции help:>>> help(S.replace)Help on built-in function replace:(Справка о встроенной функции replace:)replace(...)S.replace (old, new[, count]) -> strReturn a copy of S with all occurrences of substringold replaced by new.
If the optional argument count isgiven, only the first count occurrences are replaced.(Возвращает копию S, где все вхождения подстроки old замещеныподстрокой new. Если указан необязательный аргумент count,замещаются только первые count вхождений.)Функция help – один из немногих интерфейсов к системе программного кодаPython, поставляемого в составе Python в составе инструмента под названиемPyDoc, который позволяет извлекать описание из объектов. Далее в этой книгевы узнаете, что PyDoc позволяет отображать информацию в формате HTML.Можно также запросить информацию и для самого строкового объекта (например, help(S)), но в этом случае вы можете получить больше информации,чем хотелось бы, – описание всех строковых методов. Часто бывает удобнеезапрашивать информацию о конкретном методе, как это было продемонстрировано выше.За дополнительной информацией всегда можно обратиться к справочному руководству по стандартной библиотеке или к печатным справочным изданиям,но функции dir и help в языке Python представляют собой самое первое средство получения доступа к документации.Другие способы представления строкК этому моменту мы познакомились с операциями над последовательностямии методами, специфичными для строк.
Однако кроме этого язык программирования Python предоставляет несколько различных способов представления132Глава 4. Введение в типы объектов языка Pythonстрок в программном коде, которые мы будем исследовать позднее (включаяслужебные символы, которые представлены, например, в виде последовательностей, начинающихся с символа обратного слеша:)>>> S = ‘A\nB\tC’>>> len(S)5# \n – это символ “конец строки”, \t – символ табуляции# Каждая из этих пар соответствует единственному символу>>> ord(‘\n’)10# В ASCII \n – это байт с числовым значением 10>>> S = ‘A\0B\0C’>>> len(S)5# \0 – это двоичный ноль, не является завершителем строкиЯзык Python допускает заключать строки в кавычки или в апострофы (ониозначают одно и то же).
Кроме того, имеется специальная форма определениямногострочных строковых литералов – тройные кавычки или апострофы. Когда используется такая форма, все строки в программном коде объединяютсяв одну строку, а там, где в исходном тексте выполняется переход на новую строку, вставляется символ «конец строки». Это незначительное синтаксическоеудобство весьма полезно для оформления в сценариях на языке Python крупных блоков текста, таких как разметка HTML или XML:>>> msg = “”” aaaaaaaaaaaaabbb’’’bbbbbbbbbb””bbbbbbb’bbbbcccccccccccccc”””>>> msg‘\naaaaaaaaaaaaa\nbbb\’\’\’bbbbbbbbbb””bbbbbbb\’bbbb\ncccccccccccccc’Кроме того, Python предоставляет поддержку литералов «неформатированных», «сырых» строк, в которых символ обратного слеша интерпретируетсякак обычный символ (они начинаются с символа r), а также поддержку строкс символами Юникода, обеспечивающих интернационализацию.
В версии 3.0базовый тип строк str также может содержать символы Юникода (при этомпредполагается, что символы �������������������������������������������ASCII��������������������������������������являются разновидностью символов Юникода), а тип bytes может представлять строки двоичных байтов. В версии 2.6строки Юникода были представлены отдельным типом, а строки типа str моглисодержать 8-битные символы и двоичные данные. Файлы также изменилисьв версии 3.0, и теперь они возвращают и принимают объекты типа str толькопри работе в текстовом режиме, а при работе в двоичном режиме – только объекты типа bytes. В последующих главах мы еще встретимся с этими специальными формами строк.Поиск по шаблонуПрежде чем двинуться дальше, хочется заметить, что ни один из строковыхобъектов не поддерживает возможность обработки текста на основе шаблонов.Рассмотрение инструментов, выполняющих поиск текста по шаблону, выходит за рамки этой книги, но для читателей, знакомых с другими языками сценариев, будет интересно узнать, как выполняется поиск по шаблону в языкеPython – для этого необходимо импортировать модуль с именем re.
Этот модульсодержит аналогичные функции для выполнения поиска, разбиения и замены, но за счет использования шаблонов мы можем использовать более общиеварианты решения задач:133Списки>>> import re>>> match = re.match(‘Hello[ \t]*(.*)world’, ‘Hello>>> match.group(1)‘Python ‘Python world’)В этом примере выполняется поиск строки, начинающейся со слова «Hello»,вслед за которым следуют ноль или более символов табуляции или пробелов,за которыми могут следовать произвольные символы, которые будут сохранены, как группа совпадения, и завершающаяся словом «world». Если такаяподстрока будет найдена, части ее, соответствующие шаблону, заключенномув круглые скобки, будут доступны в виде групп.