查看: 1461|回复: 0

教你如何编写第一个简单的爬虫

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2020-4-13 16:23 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

教你如何编写第一个简单的爬虫
很多人知道爬虫，也很想利用爬虫去爬取自己想要的数据，那么爬虫到底怎么用呢？今天就教大家编写一个简单的爬虫。

下面以爬取笔者的个人博客网站为例获取第一篇文章的标题名称，教大家学会一个简单的爬虫。

第一步：获取页面

#!/usr/bin/python
# coding: utf-8

import requests #引入包requests
link = "http://www.santostang.com/" #定义link为目标网页地址
# 定义请求头的浏览器代理，伪装成浏览器
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

r = requests.get(link, headers= headers) #请求网页
print (r.text) #r.text是获取的网页内容代码
1
2
3
4
5
6
7
8
9
10
上述代码就能获取博客首页的HTML代码，HTML是用来描述网页的一种语言，也就是说网页呈现的内容背后都是HTML代码。如果你对HTML不熟悉的话，可以先去w3school(http://www.w3school.com.cn/html/index.asp)学习一下，大概花上几个小时就可以了解HTML。

在上述代码中，首先import requests引入包requests，之后获取网页。

（1）首先定义link为目标网页地址。

（2）之后用headers来定义请求头的浏览器代理，进行伪装

（3）r是requests的Response回复对象，我们从中可以获取想要的信息。r.text是获取的网页内容代码。

运行上述代码得到的结果如图所示。

第二步：提取需要的数据

#!/usr/bin/python
# coding: utf-8

import requests
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "http://www.santostang.com/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析

#找到第一篇文章标题，定位到class是"post-title"的h1元素，提取a，提取a里面的字符串，strip()去除左右空格
title = soup.find("h1", class_="post-title").a.text.strip()
print (title)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
在获取整个页面的HTML代码后，我们需要从整个网页中提取第一篇文章的标题。

这里用到BeautifulSoup这个库对页面进行解析，BeautifulSoup将会在第4章进行详细讲解。首先需要导入这个库，然后把HTML代码转化为soup对象，接下来用soup.find(“h1”,class_=“post-title”).a.text.strip()得到第一篇文章的标题，并且打印出来

soup.find(“h1”,class_=“post-title”).a.text.strip()的意思是，找到第一篇文章标题，定位到class是"post-title"的h1元素，提取a元素，提取a元素里面的字符串，strip()去除左右空格。

对初学者来说，使用BeautifulSoup从网页中提取需要的数据更加简单易用。

那么，我们怎么从那么长的代码中准确找到标题的位置呢？

这里就要隆重介绍Chrome浏览器的“检查（审查元素）”功能了。下面介绍找到需要元素的步骤。

步骤01　使用Chrome浏览器打开博客首页www.santostang.com。右击网页页面，在弹出的快捷菜单中单击“检查”命令，如图2-17所示。

步骤02　出现如图2-18所示的审查元素页面。单击左上角的鼠标键按钮，然后在页面上单击想要的数据，下面的Elements会出现相应的code所在的地方，就定位到想要的元素了。

图2-18　审查元素页面
步骤03　在代码中找到标蓝色的地方，为

echarts学习笔记(2)–同一页面多图表。我们可以用soup.find("h1",class_="post-title").a.text.strip()提取该博文的标题。

第三步：存储数据

import requests
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup

link = "http://www.santostang.com/"
headers = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers= headers)

soup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析
title = soup.find("h1", class_="post-title").a.text.strip()
print (title)

# 打开一个空白的txt，然后使用f.write写入刚刚的字符串title
with open('title_test.txt', "a+") as f:
f.write(title)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
存储到本地的txt文件非常简单，在第二步的基础上加上2行代码就可以把这个字符串保存在text中，并存储到本地。txt文件地址应该和你的Python文件放在同一个文件夹。

返回文件夹，打开title.txt文件，其中的内容如图2-19所示。

以上内容就是本节要介绍的如何编写一个简单的爬虫的步骤，想要学更多爬虫相关的内容，可以到这本书里查哦《Python网络爬虫从入门到实践（第2版）》

目录

前言
第1章网络爬虫入门1
1.1 为什么要学网络爬虫2
1.1.1 网络爬虫能带来什么好处2
1.1.2 能从网络上爬取什么数据3
1.1.3 应不应该学爬虫3
1.2 网络爬虫是否合法3
1.2.1 Robots协议4
1.2.2 网络爬虫的约束5
1.3 网络爬虫的基本议题6
1.3.1 Python爬虫的流程7
1.3.2 三个流程的技术实现7
第2章编写第一个网络爬虫9
2.1 搭建Python平台10
2.1.1 Python的安装10
2.1.2 使用pip安装第三方库12
2.1.3 使用编辑器Jupyter 编程13
2.1.4 使用编辑器Pycharm编程15
2.2 Python 使用入门18
2.2.1 基本命令18
2.2.2 数据类型19
2.2.3 条件语句和循环语句21
2.2.4 函数23
2.2.5 面向对象编程24
2.2.6 错误处理28
2.3 编写第一个简单的爬虫29
2.3.1 第一步：获取页面29
2.3.2 第二步：提取需要的数据30
2.3.3 第三步：存储数据32
2.4 Python实践：基础巩固33
2.4.1 Python基础试题34
2.4.2 参考答案35
2.4.3 自我实践题38
第3章静态网页抓取39
3.1 安装Requests40
3.2 获取响应内容40
3.3 定制Requests41
3.3.1 传递URL参数41
3.3.2 定制请求头42
3.3.3 发送POST请求43
3.3.4 超时44
3.4 Requests爬虫实践：TOP250电影数据44
3.4.1 网站分析45
3.4.2 项目实践45
3.4.3 自我实践题47
第4章动态网页抓取48
4.1 动态抓取的实例49
4.2 解析真实地址抓取50
4.3 通过Selenium模拟浏览器抓取55
4.3.1 Selenium的安装与基本介绍55
4.3.2 Selenium的实践案例57
4.3.3 Selenium获取文章的所有评论58
4.3.4 Selenium的高级操作61
4.4 Selenium爬虫实践：深圳短租数据64
4.4.1 网站分析64
4.4.2 项目实践66
4.4.3 自我实践题69
第5章解析网页70
5.1 使用正则表达式解析网页71
5.1.1 re.match方法71
5.1.2 re.search方法74
5.1.3 re.findall方法74
5.2 使用BeautifulSoup解析网页76
5.2.1 BeautifulSoup的安装76
5.2.2 使用BeautifulSoup获取博客标题77
5.2.3 BeautifulSoup的其他功能78
5.3 使用lxml解析网页82
5.3.1 lxml的安装82
5.3.2 使用lxml获取博客标题82
5.3.3 XPath的选取方法84
5.4 总结85
5.5 BeautifulSoup爬虫实践：房屋价格数据86
5.5.1 网站分析86
5.5.2 项目实践87
5.5.3 自我实践题89
第6章数据存储90
6.1 基本存储：存储至TXT或CSV91
6.1.1 把数据存储至TXT91
6.1.2 把数据存储至CSV93
6.2 存储至MySQL数据库94
6.2.1 下载安装MySQL95
6.2.2 MySQL的基本操作99
6.2.3 Python操作MySQL数据库104
6.3 存储至MongoDB数据库106
6.3.1 下载安装MongoDB107
6.3.2 MongoDB的基本概念110
6.3.3 Python操作MongoDB数据库112
6.3.4 RoboMongo的安装与使用113
6.4 总结115
6.5 MongoDB爬虫实践：虎扑论坛116
6.5.1 网站分析116
6.5.2 项目实践117
6.5.3 自我实践题123
第7章 Scrapy框架124
7.1 Scrapy是什么125
7.1.1 Scrapy架构125
7.1.2 Scrapy数据流（Data Flow）126
7.1.3 选择Scrapy还是Requests+bs4127
7.2 安装Scrapy128
7.3 通过Scrapy抓取博客128
7.3.1 创建一个Scrapy项目128
7.3.2 获取博客网页并保存129
7.3.3 提取博客标题和链接数据131
7.3.4 存储博客标题和链接数据133
7.3.5 获取文章内容134
7.3.6 Scrapy的设置文件136
7.4 Scrapy爬虫实践：财经新闻数据137
7.4.1 网站分析137
7.4.2 项目实践138
7.4.3 自我实践题141
第8章提升爬虫的速度142
8.1 并发和并行，同步和异步143
8.1.1 并发和并行143
8.1.2 同步和异步143
8.2 多线程爬虫144
8.2.1 简单的单线程爬虫145
8.2.2 学习Python多线程145
8.2.3 简单的多线程爬虫148
8.2.4 使用Queue的多线程爬虫150
8.3 多进程爬虫153
8.3.1 使用multiprocessing的多进程爬虫153
8.3.2 使用Pool + Queue的多进程爬虫155
8.4 多协程爬虫158
8.5 总结160
第9章反爬虫问题163
9.1 为什么会被反爬虫164
9.2 反爬虫的方式有哪些164
9.2.1 不返回网页165
9.2.2 返回非目标网页165
9.2.3 获取数据变难166
9.3 如何“反反爬虫”167
9.3.1 修改请求头167
9.3.2 修改爬虫的间隔时间168
9.3.3 使用代理171
9.3.4 更换IP地址172
9.3.5 登录获取数据172
9.4 总结172
第10章解决中文乱码173
10.1 什么是字符编码174
10.2 Python的字符编码176
10.3 解决中文编码问题179
10.3.1 问题1：获取网站的中文显示乱码179
10.3.2 问题2：非法字符抛出异常180
10.3.3 问题3：网页使用gzip压缩181
10.3.4 问题4：读写文件的中文乱码182
10.4 总结184
第11章登录与验证码处理185
11.1 处理登录表单186
11.1.1 处理登录表单186
11.1.2 处理cookies，让网页记住你的登录190
11.1.3 完整的登录代码193
11.2 验证码的处理194
11.2.1 如何使用验证码验证195
11.2.2 人工方法处理验证码197
11.2.3 OCR处理验证码200
11.3 总结203
第12章服务器采集204

此书已加入到VIP会员卡，只要购买VIP会员卡即可免费阅读上百本电子书，这张VIP卡除了免费让你读书，还有更多的权益等你来领，往下↓拉

阅读电子书的方法如下：

打开CSDN APP（软件商城搜索“CSDN”即可找到哦）—>登录CSDN账号—>学习—>电子书

————————————————
版权声明：本文为CSDN博主「好书精选」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_37649168/article/details/104265388

zan