Марк Лутц - Изучаем Python, Четвертое издание (1184811), страница 36
Текст из файла (страница 36)
В общемслучае ведущие и завершающие символы подчеркивания используются интерпретатором Python для обозначения особенностей внутренней реализации.Имена без символов подчеркивания в этом списке обозначают методы строковых объектов.Функция dir возвращает лишь имена методов. Чтобы узнать назначение тогоили иного метода, можно передать его имя функции help:>>> help(S.replace)Help on built-in function replace:(Справка о встроенной функции replace:)replace(...)S.replace (old, new[, count]) -> strReturn a copy of S with all occurrences of substringold replaced by new. If the optional argument count isgiven, only the first count occurrences are replaced.(Возвращает копию S, где все вхождения подстроки old замещеныподстрокой new.
Если указан необязательный аргумент count,замещаются только первые count вхождений.)Функция help – один из немногих интерфейсов к системе программного кодаPython, поставляемого в составе Python в составе инструмента под названиемPyDoc, который позволяет извлекать описание из объектов. Далее в этой книгевы узнаете, что PyDoc позволяет отображать информацию в формате HTML.Можно также запросить информацию и для самого строкового объекта (например, help(S)), но в этом случае вы можете получить больше информации,чем хотелось бы, – описание всех строковых методов. Часто бывает удобнеезапрашивать информацию о конкретном методе, как это было продемонстрировано выше.За дополнительной информацией всегда можно обратиться к справочному руководству по стандартной библиотеке или к печатным справочным изданиям,но функции dir и help в языке Python представляют собой самое первое средство получения доступа к документации.Другие способы представления строкК этому моменту мы познакомились с операциями над последовательностямии методами, специфичными для строк.
Однако кроме этого язык программирования Python предоставляет несколько различных способов представления132Глава 4. Введение в типы объектов языка Pythonстрок в программном коде, которые мы будем исследовать позднее (включаяслужебные символы, которые представлены, например, в виде последовательностей, начинающихся с символа обратного слеша:)>>> S = ‘A\nB\tC’>>> len(S)5# \n – это символ “конец строки”, \t – символ табуляции# Каждая из этих пар соответствует единственному символу>>> ord(‘\n’)10# В ASCII \n – это байт с числовым значением 10>>> S = ‘A\0B\0C’>>> len(S)5# \0 – это двоичный ноль, не является завершителем строкиЯзык Python допускает заключать строки в кавычки или в апострофы (ониозначают одно и то же).
Кроме того, имеется специальная форма определениямногострочных строковых литералов – тройные кавычки или апострофы. Когда используется такая форма, все строки в программном коде объединяютсяв одну строку, а там, где в исходном тексте выполняется переход на новую строку, вставляется символ «конец строки». Это незначительное синтаксическоеудобство весьма полезно для оформления в сценариях на языке Python крупных блоков текста, таких как разметка HTML или XML:>>> msg = “”” aaaaaaaaaaaaabbb’’’bbbbbbbbbb””bbbbbbb’bbbbcccccccccccccc”””>>> msg‘\naaaaaaaaaaaaa\nbbb\’\’\’bbbbbbbbbb””bbbbbbb\’bbbb\ncccccccccccccc’Кроме того, Python предоставляет поддержку литералов «неформатированных», «сырых» строк, в которых символ обратного слеша интерпретируетсякак обычный символ (они начинаются с символа r), а также поддержку строкс символами Юникода, обеспечивающих интернационализацию.
В версии 3.0базовый тип строк str также может содержать символы Юникода (при этомпредполагается, что символы �������������������������������������������ASCII��������������������������������������являются разновидностью символов Юникода), а тип bytes может представлять строки двоичных байтов. В версии 2.6строки Юникода были представлены отдельным типом, а строки типа str моглисодержать 8-битные символы и двоичные данные.
Файлы также изменилисьв версии 3.0, и теперь они возвращают и принимают объекты типа str толькопри работе в текстовом режиме, а при работе в двоичном режиме – только объекты типа bytes. В последующих главах мы еще встретимся с этими специальными формами строк.Поиск по шаблонуПрежде чем двинуться дальше, хочется заметить, что ни один из строковыхобъектов не поддерживает возможность обработки текста на основе шаблонов.Рассмотрение инструментов, выполняющих поиск текста по шаблону, выходит за рамки этой книги, но для читателей, знакомых с другими языками сценариев, будет интересно узнать, как выполняется поиск по шаблону в языкеPython – для этого необходимо импортировать модуль с именем re.
Этот модульсодержит аналогичные функции для выполнения поиска, разбиения и замены, но за счет использования шаблонов мы можем использовать более общиеварианты решения задач:133Списки>>> import re>>> match = re.match(‘Hello[ \t]*(.*)world’, ‘Hello>>> match.group(1)‘Python ‘Python world’)В этом примере выполняется поиск строки, начинающейся со слова «Hello»,вслед за которым следуют ноль или более символов табуляции или пробелов,за которыми могут следовать произвольные символы, которые будут сохранены, как группа совпадения, и завершающаяся словом «world».
Если такаяподстрока будет найдена, части ее, соответствующие шаблону, заключенномув круглые скобки, будут доступны в виде групп. Например, следующий шаблон извлекает три группы, разделенные символами слеша:>>> match = re.match(‘/(.*)/(.*)/(.*)’, ‘/usr/home/lumberjack’)>>> match.groups()(‘usr’, ‘home’, ‘lumberjack’)Поиск по шаблону реализован в виде чрезвычайно сложного механизма обработки текста, но в языке Python имеется поддержка еще более сложных механизмов, включая возможность обработки естественного языка человеческогообщения. Впрочем, для этого руководства я и так сказал уже достаточно об обработке строк, поэтому теперь мы перейдем к рассмотрению другого типа.СпискиСписки – это самое общее представление последовательностей, реализованныхв языке Python. Списки – это упорядоченные по местоположению коллекцииобъектов произвольных типов, размер которых не ограничен.
Кроме того, в отличие от строк, списки являются изменяемыми – они могут модифицироваться как с помощью операций присваивания по смещениям, так и с помощьюразнообразных методов работы со списками.Операции над последовательностямиПоскольку списки являются последовательностями, они поддерживают всеоперации над последовательностями, которые обсуждались в разделе, посвященном строкам. Единственное отличие состоит в том, что результатом такихопераций являются списки, а не строки.
Например, для списка, состоящего изтрех элементов:>>> L = [123, ‘spam’, 1.23] # Список из трех объектов разных типов>>> len(L)# Число элементов в списке3Мы можем обращаться к элементам списка по их индексам, получать срезыи так далее, точно так же, как и в случае со строками:>>> L[0]123# Доступ к элементу списка по его индексу>>> L[:-1][123, ‘spam’]# Операция получения среза возвращает новый список>>> L + [4, 5, 6] # Операция конкатенации также возвращает новый список[123, ‘spam’, 1.23, 4, 5, 6]134Глава 4.
Введение в типы объектов языка Python>>> L# Наши действия не привели к изменению оригинального списка[123, ‘spam’, 1.23]Методы, специфичные для типаСписки в языке Python являются аналогом массивов в других языках программирования, но они обладают более широкими возможностями. С однойстороны, они не ограничены одним типом элементов, например, только чторассмотренный список содержит три элемента совершенно разных типов (целоечисло, строку и вещественное число).
Кроме того, размер списков не ограничен,благодаря чему они могут увеличиваться и уменьшаться по мере необходимости в результате выполнения операций, характерных для списков:>>> L.append(‘NI’) # Увеличение: в конец списка добавляется новый объект>>> L[123, ‘spam’, 1.23, ‘NI’]>>> L.pop(2)1.23# Уменьшение: удаляется элемент из середины списка>>> L# Инструкция “del L[2]” также удалит элемент списка[123, ‘spam’, ‘NI’]В данном примере метод append увеличивает размер списка и вставляет в конецновый элемент. Метод pop (или эквивалентная ему инструкция del) удаляет изсписка элемент с заданным смещением, что приводит к уменьшению списка.Другие методы списков позволяют вставлять новые элементы в произвольноеместо списка (insert), удалять элемент, заданный значением (remove), и так далее.
Так как списки являются изменяемыми, большинство методов списков несоздают новый список, а изменяют оригинальный список:>>> M = [‘bb’, ‘aa’, ‘cc’]>>> M.sort()>>> M[‘aa’, ‘bb’, ‘cc’]>>> M.reverse()>>> M[‘cc’, ‘bb’, ‘aa’]Метод sort, использованный в этом примере, по умолчанию упорядочивает элементы списка по возрастанию, а метод reverse – по убыванию. В обоих случаяхпроисходит непосредственное изменение самого списка.Проверка выхода за границыХотя списки не имеют фиксированного размера, язык Python, тем не менее, недопускает возможности обращаться к несуществующим элементам списка.
Обращение к элементам списка по индексам, значения которых выходят за пределы списка, всегда является ошибкой:>>> L[123, ‘spam’, ‘NI’]>>> L[99]...текст сообщения об ошибке опущен...IndexError: list index out of range135Списки>>> L[99] = 1... текст сообщения об ошибке опущен...IndexError: list assignment index out of rangeВ этом примере я специально допустил ошибку (особенно неприятную в языкеC, который не выполняет проверку выхода за границы массива, как Python)и попытался выполнить присваивание за пределами списка. Вместо того чтобы увеличить размер списка, интерпретатор Python сообщил об ошибке.