Лутц М. - Изучаем Python (1077325), страница 77
Текст из файла (страница 77)
Ои имеет метод пехт, возвращающий кортеж (1пдех, ча[пе) для каждого элемента списка, который мы можем использовать для присваивания кортежей з цикле гог (точпо так же, как и в случае с функцией 2[р): »> Е = епиаегасе(8) »> Е.пехто (О, 'в') »> Е.пехт() (1, Р') Обычно мы не видим всю эту механику, потому что во всех контекстах итераций (включая генераторы списков — тема следующего раздела) итерационный протокол выполняется автоматически: »> [с . 1 гог (1, с) 1п епсаегате(8)) [ , 'р, 'аа', 'ааа') Генераторы списков: первое знакомство В предыдущем разделе мы узнали о возможности использовать функ- цию гапде для изменения списков в ходе выполнения итераций: »> с = [1, 2, 3, 4, 5) »> Гог 1 1п гаазе(реп(с)): [[1) += 10 »> [! 1, 12, 13, 14, 15) Этот способ работает, ио, как я уже упоминал, ои может быть далеко пе самым оптимальным в языке Ру(Ьоп.
В наши дни выражения генераторы списков переводят многое из того, что использовалось раньше, Збй Глава 13. Циклы «хИе и [ог в разряд устаревших приемов. Например, в следующем фрагменте цикл был заменен единственным выражением, которое в результате воспроизводит требуемый список: »> [ [х « 10 Гог х 1п [) »> [21, 22, 23, 24, 25) Конечный результат получается тем же самым, ио от иас потребовалось меньше усилий и, скорее всего, этот вариант работает быстрее. Выражения генераторов списков нельзя считать равнозначной заменой инструкции цикла Гоп, потому что оии создают новые объекты списков (что может иметь значение при наличии нескольких ссылок иа первоначальный список), ио это подходящая замена для большинства применений, к тому же распространенная и достаточно удобная, чтобы заслужить внимательного изучения здесь.
Основы генераторов списков Впервые с генераторами списков мы встретились в главе 4. Синтаксис генераторов списков происходит от конструкций, используемых в теории множеств для описания операций пад каждым элементом миожества, по вам совсем необязательно знать теорию множеств, чтобы использовать их. Многие считают, что генераторы списков в языке Ру[Ьоп напоминают цикл Гоп, записанный задом наперед. Давайте рассмотрим пример из предыдущего раздела более подробно. Генераторы списков записываются в квадратных скобках, потому что это, в конечном счете, способ создания нового списка. Генератор списка начинается с некоторого составленного нами выражения, которое использует введенную нами переменную цикла (х + 10).
Далее следует то, что вы без труда опознаете как заголовок цикла [ог, в котором объявляется переменная цикла и итерируемый объект ([оп х [и [). Чтобы найти значение выражения, Ру[)>оп выполняет обход списка Ц присваивая переменной х каждый очередной элемент, и собирает результаты пропускаиия всех элементов через выражение слева. Получепиый в результате список является точным отражением того, что «говорит» генератор списков, — новый список, содержащий к+10 для каждого х в [.
С технической точки зрения всегда можно обойтись без генераторов списков, потому что существует воэможность создавать список результатов выражения вручную, с помощью цикла Гог: »> гев = [) >» гог х [п гвв.аррепо(х « 10) »> геэ [21, 22. 23, 24, 25) 359 Генераторы списков: первое знакомство Фактически это точное представление внутреннего механизма генера- тора списков. Но генераторы списков записываются компактнее, и данный способ сборки списков получил широкое распространение в языке Ру(йоп, поэтому они оказываются очень удобными во многих ситуациях. Более того, генераторы списков могут выполняться значительно быстрее (зачастую почти в два раза), чем инструкции циклов Гог, потому что итерации выполняются со скоростью языка С, а не со скоростью программного кода на языке Ру()топ, Такое преимущество в скорости особенно важно для больших объемов данных.
Использование генераторов списков для работы с файлами Рассмотрим еще один распространенный случай использования генераторов списков, исследуя в деталях их работу. Вспомним, что у объекта файла имеется метод гааз!! пев, который загружает файл целиком в список строк: »> Г = орвп('всг1ртт.ру') »> 1!пав = Г, гва011пав( ) »> 1!пав ['юрогт увхп, 'ргтпт вув па(пуп', х = 2'хп', 'Ргзпт 2 ° ззхп') Этот фрагмент работает, но все строки в списке оканчиваются символом новой строки (х,п). Символ новой строки является препятствием для многих программ — приходится быть осторожным, чтобы избежать появления пустых строк при выводе и т. д.
Было бы совсем неплохо, если бы мы могли одним махом избавиться от этих символов новой строки. Всякий раз, когда мы заговариваем о выполнении операций над каждым элементом последовательности, мы попадаем в сферу действий генераторов списков. Например, предположим, что переменная! 1пев находится в том же состоянии, в каком она была оставлена в предыдущем примере. Тогда следующий фрагмент обработает каждую строку в списке функцией гатгтр, чтобы удалить завершающие пробельные символы (также можно было бы использовать выражение извлечения среза 1тпе( -) ], но только если бы мы были абсолютно уверены, что все строки завершаются символом новой строки): »> 1!пав = [11пв.
гвтг1р() Гог 11пв [п 11пвв) »> 11пвв ['!враг! вув', 'ргтп( вув.ратп', 'х = 2', 'ргп|т 2 ** 33') Этот метод работает, генераторы списков — это другой итерационный контекст, но точно так же, как и в простом цикле Гог, нам не требуется даже открывать файл заранее. Если открыть его внутри выражения, генератор списков автоматически будет использовать итерационный протокол, с которым мы познакомились выше в этой главе. То есть он 360 Глаза )3.
Циклы уугп!е и (ог будет читать из файла по одной строке за раз — вызовом метода пехг файла, пропускать строку через функцию гвг и р и добавлять результат в список. И снова мы получаем именно то, что запрашиваем, — результат работы метода гв(га 0 для каждой строки в файле: »> 11пев = [11пе.
гввг1р() гог 11пе 1п орел('вог1р11. ру')] »> 11пев ['1врог1 вуз', 'рг1п( вуз.рагп', 'х = 2', 'рг(пг 2 * ° 33'] Это выражение значительную часть работы выполняет неявно — интерпретатор сканирует файл и автоматически собирает список результатов выполнения операции. Кроме того, это наиболее эффективный способ, потому что большая часть действий выполняется внутри интерпретатора Ру1Ьоп, который работает наверняка быстрее, чем эквивалентная инструкция гсг. Напомню еще раз, что при работе с большими файлами выигрыш в скорости от применения генераторов списков может оказаться весьма существенным.
Синтаксис расширенного генератора списков В действительности генераторы списков могут иметь еще более сложный вид. Например, в цикл гог, вложенный в выражение, можно добавить оператор (г для отбора результатов, для которых условное выражение дает истинное значение.
Например, предположим, что нам требуется повторить предыдущий пример, но при этом необходимо отобрать только строки, начинающиеся с символа р (возможно, первый символ в каждой строке — код действия некоторого вида). Достичь поставленной цели можно, если добавить фильтрующий оператор! г: »> 11пез = [11пе. гвгг1р() Гог 11пе 1п поел('Вог1р11.ру') 1( 11пе[0] == 'р'] »> 11пев ['рг>пг вув ра1п', 'рг(пг 2 *.
33'] В этом примере оператор 1г проверяет, является ли первый символ в строке символом р. Если это не так, строка не включается в список результатов. Это достаточно длинное выражение, но его легко понять, если преобразовать в эквивалентный простой цикл гог (вообще любой генератор списков можно перевести в эквивалентную реализацию на базе инструкции гог, добавляя отступы к каждой последующей части): »> гев = [] »> Гог 11пе 1п орел( вог1рв!.Ру ); 1Г 11пе[0] == 'Р': гев.
апре па(11пе. гв1г1О( ) ) »> гез ['рг>пг зуз.оагп', 'рг>пг 2 * 33'] Эта инструкция гог выполняет эквивалентные действия, но занимает четыре строки вместо одной и работает существенно медленнее. 361 В заключение В случае необходимости генераторы списков могут иметь еще более сложный вид. Например, они могут содержать вложенные циклы, оформленные в виде серии операторов уог.
На самом деле полный синтаксис допускает указывать любое число операторов уог, каждый из которых может иметь ассоциированный с ним оператор 11 [подробнее о синтаксисе генераторов выражений рассказывается в главе 17). Например, следующий фрагмент создает список результатов операции конкатенации хзу для всех х в одной строке и для всех у — в другой. В результате получаются сочетания символов в двух строках: »> [х + у Гог х 1п 'аЬЬ' Гог у 1п '1вп'] ('а1, 'ав', 'ап', 'Ы ', 'Ьв', 'Ьп', 'с1, 'ов', 'сп'] Чтобы проще было понять это выражение, его также можно преобразовать в форму инструкции, добавляя отступы к каждой последующей части.
Следующий фрагмент представляет собой эквивалентную, но более медленную реализацию: »> геа = [] »> Гог х ап 'аоо': Гог у 1п '1вп': геа.аррепо(х + у) »> геа ['а1'. 'ав', 'ап', 'Ь1', 'Ьв', 'Ьп', 'с1', 'св', 'оп'] Даже с повышением уровня сложности выражения генераторов списков могут иметь очень компактный вид.