Cześć.
Generatory to jeden z elementów Pythona, który bardzo często pojawia się na rekrutacjach, natomiast w kodzie pojawia się on znacznie rzadziej niż powinien. Ale zacznijmy od początku. A dokładniej od przeczytania i zrozumienia mojego artykułu o iteratorach w Pythonie – jest tam sporo wiedzy, która pozwoli nam płynnie wejść z temat generatorów.
Czym jest generator?
Generator, jak wszystko w Pythonie, jest obiektem. Możemy go stworzyć na dwa sposoby:
- wykonując funkcję generującą,
- wykonując wyrażenie generujące.
I przykład:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 | from collections.abc import Iterator, Iterable, Generator generator_1 = (x for x in [1, 2, 3, 4, 5]) def generator_2(): yield 1 yield 2 yield 3 yield 4 yield 5 print(type(generator_1)) # <class 'generator'> print(type(generator_2)) # <class 'function'> print(type(generator_2())) # <class 'generator'> print(isinstance(generator_1, Generator), isinstance(generator_2(), Generator)) # True True print(isinstance(generator_1, Iterator), isinstance(generator_2(), Iterator)) # True True print(isinstance(generator_1, Iterable), isinstance(generator_2(), Iterable)) # True True print(issubclass(Generator, Iterator)) # True |
W powyższym kodzie znajdują się komentarze, które opisują treść wypisywaną przez daną linię. Warto to przeanalizować, ponieważ wynika z tego kilka ważnych rzeczy. Przede wszystkim generatory są Iteratorami i są typu Iterable. To sprawia właśnie, że można je używać wygodnie z pętlą for. Generator jest po prostu klasą, która dziedziczy po Iteratorze.
Jak działa generator?
Kluczem do zrozumienia tego, jak działa generator jest oczywiście słówko yield. Sprawia ono, że zawieszamy nasz generator do kolejnego wykonania funkcji next() – czyli do kolejnego obiegu pętli. Ma to jedną ogromną przewagę nad klasycznym iteratorem – generatory same obsługują zapamiętywanie swojego stanu. Zerknij na taki kod:
1 2 3 4 5 6 7 8 9 10 11 12 13 | def generator_3(): print(1) yield "jestem po wypisaniu 1" print(2) yield "jestem po wypisaniu 2" print(3) yield "jestem po wypisaniu 3" print(4) yield "jestem po wypisaniu 4" for x in generator_3(): print(x) |
wypisze on, jak się pewnie domyślasz:
1 jestem po wypisaniu 1 2 jestem po wypisaniu 2 3 jestem po wypisaniu 3 4 jestem po wypisaniu 4
Zadziała to w taki sposób:
- Pierwszy obieg pętli wykona na generatorze funkcję next(), która uruchomi zwrócony generator, następnie wykona się pierwsza linijka, tj. print(1) i to, co jest po słówku yield zostanie zwrócone do pętli, jako element Iterable’a.
- Nasz generator zwrócił napis „jestem po wypisaniu 1”, a My, już w pętli, wypisujemy go na ekran.
- Kolejny obieg pętli ponownie wykona na generatorze funkcję next(), co spowoduje ponowne uruchomienie generatora, ale już od momentu wcześniejszego zawieszenia, więc wypisze to co jest pomiędzy pierwszym a kolejnym yieldem, czyli w tym przypadku print(2), i to co jest po słówku yield zostanie zwrócone do pętli, jako element Iterable’a.
- Nasz generator zwrócił napis „jestem po wypisaniu 2”, a My, już w pętli, wypisujemy go na ekran.
- … I tak dalej. Aż do skończenia funkcji.
Zauważ, co się stało – funkcja została tak naprawdę podzielona na bloki, których granice wyznacza słówko yield.
I teraz najważniejsze. Zrealizujemy ten sam efekt, ale korzystając z klasycznego iteratora:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 | class A: def __init__(self): self.__iteration = 0 def __iter__(self): return self def __next__(self): if self.__iteration == 0: print(1) self.__iteration += 1 return "jestem po wypisaniu 1" elif self.__iteration == 1: print(2) self.__iteration += 1 return "jestem po wypisaniu 2" elif self.__iteration == 2: print(3) self.__iteration += 1 return "jestem po wypisaniu 3" elif self.__iteration == 3: print(4) self.__iteration += 1 return "jestem po wypisaniu 4" else: raise StopIteration() for x in A(): print(x) |
Zauważ, że ify, które się pojawiły, pamiętają stan funkcji next() – czyli dokładnie to, co generator robi za nas. A generator trochę krótszy, prawda?
Wyrażenie generujące
Jednolinijkowa składnia list comprehensions jest dostępna w Pythonie prawie od zawsze. Sprawia to, że w projektach aż roi się od tych oneliner’ów. I nie byłoby w tym nic złego, gdyby nie to, że w sporej ilości przypadków nie jest to najoptymalniejsze rozwiązanie. Aby to udowodnić, użyjemy biblioteki pympler, która policzy nam ile nasze obiekty zajmują w pamięci:
1 2 3 4 5 6 7 | from pympler.asizeof import asizeof as_list_comprehension = [x**2 for x in range(1000000)] as_generator_expression = (x**2 for x in range(1000000)) print(asizeof(as_list_comprehension), "vs", asizeof(as_generator_expression)) |
Wynik jest szokujący: 40448720 vs 448 (bajtów). Gdzie leży różnica? Rezultatem list comprehensions jest lista intów a rezultatem generator expression jest generator, który z definicji jest leniwy, tzn. nie generuje wartości, póki nie zaczniemy po nim iterować. Załóżmy, że nasze inty chcemy potem, w zależności od wartości, poprzekazywać do różnych funkcji jako argumenty. W takiej sytuacji, w przypadku skorzystania z generatora, zużycie pamięci będzie równe jednemu elementowi per iteracja, a w przypadku list comprehensions – zużycie pamięci będzie równe całej liście. A skoro w działaniu nie widać różnicy, to po co marnować pamięć? Szczególnie, że takie nagłe wyskoki pamięci to prosta droga, by jakiś element systemu operacyjnego się zainteresował Waszym programem i w trosce o swoje własne bezpieczeństwo – ubił go.
Czekaj, stop!
Podoba Ci się to co tworzę? Jeśli tak to zapraszam Cię do zapisania się na newsletter:Jeśli to Cię interesuje to zapraszam również na swoje social media.
Jak i do ewentualnego postawienia mi kawy :)
Zwracanie wartości do generatora
Ciekawą właściwością generatora jest możliwość wstrzyknięcia mu wartości. W przykładach wyżej yield tylko zwraca, ale yield może też przyjmować. Aby wysłać coś do generatora wystarczy wykonać metodę send(val). Zerknij na przykład:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 | from time import sleep def generator_4(): i = 1 step = 1 while True: new_step = yield i if new_step: step = new_step i += step if i == 0: return sleep(0.5) generator = generator_4() for x in generator: print(x) if x == 10: print(generator.send(-1)) |
Ten kawałek kodu tworzy generator, który co 0.5 sekundy generuje kolejną liczbę całkowitą, zaczynając od jedynki. W naszej pętli napisany jest warunek, że jeśli dostaniemy z generatora liczbę 10, to wysyłamy mu liczbę „-1”. Jest to interpretowane przez generator jako skok używany do generowania kolejnej liczby, a to sprawia, że generator policzy od 1 do 10, a następnie zawróci, by zakończyć się na jedynce. Rezultat będzie taki:
1 2 3 4 5 6 7 8 9 10 9 8 7 6 5 4 3 2 1
Zauważ też, że jeśli chcesz zakończyć generator, to możesz po prostu użyć słówka return.
Generator jako klasa
Chyba nigdy nie widziałem generatora jako klasy, ale wykorzystując wiedzę z poprzedniego i aktualnego wpisu, umiemy już wystarczająco dużo, by taki generator stworzyć. Wystarczy wykorzystać fakt, że klasa, aby była Iterable, musi definiować metodę
1 | __iter__() |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | class GeneratorAsClass: def __init__(self, start, threshold=10): self.__start = start self.threshold = threshold def __iter__(self): i = self.__start step = 1 while True: yield i i += step if i == self.threshold: step = -1 if i == 0: return for x in GeneratorAsClass(1, 10): print(x) |
I rzeczywiście, taki kod działa. Wypisuje liczby od 1 do 10, a potem cofa się do 1 i kończy działanie.
Kończąc
Tak jak wspomniałem na początku tego artykułu, sądzę, że generatory pojawiają się w naszym kodzie zdecydowanie za rzadko. Mam nadzieję, że ten wpis sprawi, że ktoś kiedyś, tworząc swój kod, pomyśli dwa razy i np. robiąc kolejne list comprehension, zamieni je na generator expression.
Mateusz Mazurek
Ciekawy artykuł!
Cieszę się :D
I jeszcze
Taaaaak, pamiętam :D
[…] Generatory w Pythonie […]
Fajny artykuł. :-) Dzięki!
Dzięki! :D
[…] Generatory w Pythonie […]
Dobrze trafiłem. Zostanę powracającym użytkownikiem. Profesjonalna robota!