7 n: ]% Y5 Z# J3 Q: ?6 j0 eimport requests0 G' M/ J9 f! U. }! C/ f! M8 e
from bs4 import BeautifulSoup #从bs4这个库中导入BeautifulSoup 1 P4 [5 G3 x/ U ]1 A) a p: r c) D5 q3 Z D! ^! D( L
link = "http://www.santostang.com/" 1 K+ r9 T( N/ o) J& wheaders = {'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} + H3 x3 \4 c% r% u9 B
r = requests.get(link, headers= headers)3 p U. ~9 \7 j2 o3 S3 A
6 O, n* |% U; K+ Ksoup = BeautifulSoup(r.text, "html.parser") #使用BeautifulSoup解析; `' [. p5 A. p4 }$ F2 r8 v5 ^
title = soup.find("h1", class_="post-title").a.text.strip() E9 s* O' V6 |
print (title) ; R* H' P6 P$ X$ L; d5 R; v 4 P$ X: W* j% e' t2 q1 ?# 打开一个空白的txt,然后使用f.write写入刚刚的字符串title. p4 e& @; k" y+ P# D
with open('title_test.txt', "a+") as f:4 O9 s% {) o! X7 w( \7 f3 m1 v B
f.write(title)4 {2 x, n8 M' f2 e
12 `" W( W e0 F, f: Q2 z1 G
2# T( P6 d& E2 o5 o6 P: ] G0 Z$ n2 ]
3 / b9 _% w6 I$ \, l* T4 " p4 H7 r4 y1 H7 J7 }5. p5 u& u9 ?+ g3 S0 ~2 s$ l$ T
6 ; n! w+ d$ E* [$ F7+ V1 Y3 A4 M/ i
8/ X; U O$ E: f7 E# W6 F
9! n) Z c+ n; t. `1 v
10, K1 {$ J! B6 u4 }! f+ ~$ v. F* b1 e
114 O, [4 F3 n, Q2 Z
12 4 L! ?. m }& a7 r3 ^# W) q13# L) G; u* Y4 Y6 ?4 O$ o3 \
14 ! X7 Q* J0 `1 f$ Z7 [存储到本地的txt文件非常简单,在第二步的基础上加上2行代码就可以把这个字符串保存在text中,并存储到本地。txt文件地址应该和你的Python文件放在同一个文件夹。 F. {: F8 L" m, L$ o Q9 M
$ g$ d4 V# O ^& M T' j$ O" w; p
返回文件夹,打开title.txt文件,其中的内容如图2-19所示。1 q: y: |0 U- N' M1 q& J
0 L+ @. C9 U& z
以上内容就是本节要介绍的如何编写一个简单的爬虫的步骤,想要学更多爬虫相关的内容,可以到这本书里查哦《Python网络爬虫从入门到实践(第2版)》+ T b* v3 e- ?8 M; t# G; j# h) |* c2 f