Python 迭代器、生成器

zhangtt123 发表于 2020-6-16 10:18

一、可迭代对象
字面意思：
对象：Python 中一切皆为对象（巧了 Java 也是（手动滑稽））
可迭代：可更新迭代，重复、循环的一个过程，每次更新迭代都会获得新的内容
专业角度：内部含有 '__iter__‘ 方法的对象
目前学过的可迭代对象：str、list、tuple、dict、set、range、文件句柄等
判断一个对象是否是可迭代对象：看是否有 '__iter__' 方法，dir() 可以获取一个对象的所有方法；或者使用 isinstance(object, collections.iterable) 来判断对象是否是可迭代对象的一个实例
https://img-blog.csdnimg.cn/20200422104329742.png

优点：
存储的数据直接能显示，比较直观：比如直接 print 一个可迭代对象，就会调用 __str__ 方法（相当于 Java 中的 toString），把可迭代对象的值打印出来
拥有较多的方法，操作方便：增删查改等
缺点：
占用内存：一旦创建了一个可迭代对象，就会将该对象的内容全部加载到内存中
不能直接通过 for 循环，不能直接取值（通过索引、key等）。诸如通过 for i in iterable 这种形式获取元素实际上也是调用了 __iter__ 方法先将可迭代对象转换成迭代器再进行获取
二、迭代器
字面意思：器，工具，迭代器也就是可以一直更新迭代取值的工具
专业角度：内部含有 __iter__ 方法且含有 __next__ 方法的对象就是迭代器；或者使用 isinstance(object, collections.iterator) 来判断对象是否是可迭代对象的一个实例
把一个可迭代对象转换成迭代器：使用 iter() 方法或使用对象的 __iter__ 方法
https://img-blog.csdnimg.cn/20200422112147929.png
迭代器取值：使用 next() 方法或对象的 __next__ 方法；当迭代器的值去玩了继续取，就会报StopIteration异常，所以一般使用迭代器需要做异常处理
https://img-blog.csdnimg.cn/2020042211250379.png
优点
节省内存：迭代器并不会一次性将对象的值全部加载到内存中，而是需要时才加载（类似 sed）
惰性机制：next 一次只取一个值，绝对不多取
缺点：
速度慢：需要一直 next
不能回头：只能一直往下取值，取过的值没保存就没了`
不能直观的看到里面的数据
三、可迭代对象与迭代器对比
可迭代对象：
私有方法多，操作灵活（比如列表，字典的增删改查，字符串的常用操作方法等）
直观，可以直接看到里面的数据
占用内存
不能直接通过循环迭代取值
应用：当你侧重于对于数据可以灵活处理，并且内存空间足够，将数据集设置为可迭代对象是明确的选择
迭代器：
节省内存，按需取值
可以直接通过循环迭代取值
数据不直观，操作方法单一
应用：当你的数据量过大，大到足以撑爆你的内存或者你以节省内存为首选因素时，将数据集设置为迭代器是一个不错的选择
四、生成器
生成器的本质就是迭代器，唯一的区别是生成器是我们自己用代码构建的数据结构，迭代器是 Python 提供的，或者通过可迭代对象转化得来的

定义生成器的方式：
通过生成器函数构建生成器

https://img-blog.csdnimg.cn/20200422125117395.png
这就是最简单的生成器函数。实际上这个 yield 就替代了 return，不仅将函数变成了生成器函数，还会将后面的值在调用 __next__ 的时候返回出来
https://img-blog.csdnimg.cn/20200422125834682.png
也可以在一个函数里定义多个 yield
https://img-blog.csdnimg.cn/20200422130412251.png
之前说过，生成器本质上还是迭代器，一个 yield 对应一个 next，当 next 的数量超过了 yield，就会报 StopIteration

yield 与 return 的区别

return一般在函数中只设置一个，他的作用是终止函数，并且给函数的执行者返回值
yield在生成器函数中可设置多个，他并不会终止函数，next会获取对应yield生成的元素
应用举例：

买 5000 个包子，假设这个老板很厉害，一下子就把 5000 个包子做出来卖给我们，可是我们只有 5 个人，一下子吃不完，那包子就会冷掉、臭掉、被丢掉浪费了

如果这个老板可以在我们需要多少个包子就做出来多少个包子的话，这样做出来的包子就不会被浪费了（比如我们每个人一口气能吃 40 个包子，那每次就做 200 个包子）：

除了使用 next() 触发 yield 之外，生成器还有一种方法 send()，这个方法可以在调用 yield 的同时传值给生成器内部
https://img-blog.csdnimg.cn/20200422144713716.png
可以看到在使用 next() 的时候，只能获取到 yield 的值，但不能传递值
https://img-blog.csdnimg.cn/20200422144949388.png
在使用 send() 的时候，可以将参数传入生成器中使用

需要注意的是第一次不能直接调用 send() 传参，因为每次调用生成器的时候，实际上只会返回 yield 后面的内容，然后生成器就停止了（睡眠了？），而 send() 传入的参数要通过 yield 传入生成器中（每次调用生成器在 yield 停止，然后在 yield 恢复继续允许），第一次调用并没有 yield 给我们传入参数，可以使用 send(None)，可以打断点自己分析一下
https://img-blog.csdnimg.cn/20200422150712799.png
yield 会将它后面跟着的对象直接返回，如果它后面跟着的是可迭代对象，也可以使用 yield from 将这个可迭代对象变成迭代器返回

https://img-blog.csdnimg.cn/20200422160038403.png
yield from 是将列表中的每一个元素返回，所以写两个 yield from 并不会有交替执行的效果
https://img-blog.csdnimg.cn/20200422160654248.png

通过推导式构建生成器
列表推导式：
https://img-blog.csdnimg.cn/20200422160952604.png
生成器表达式：和列表推导式差不多，把 [] 改成 () 即可
https://img-blog.csdnimg.cn/20200422161117490.png

列表推导式和生成器推导式的区别：

列表推导式比较耗内存,所有数据一次性加载到内存；而生成器表达式遵循迭代器协议，逐个产生元素
得到的值不一样：列表推导式得到的是一个列表；生成器表达式获取的是一个生成器
列表推导式一目了然，生成器表达式只是一个内存地址
————————————————
版权声明：本文为CSDN博主「阿玮d博客」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_42511320/article/details/105676143

dwadasd 发表于 2020-6-24 20:40

多谢大神分享

dwadasd 发表于 2020-6-24 20:41

太好了太好了

页: [1]

数学建模社区-数学中国's Archiver

Python 迭代器、生成器