QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1641|回复: 0
打印 上一主题 下一主题

[其他经验] 教你用python抓网页数据

[复制链接]
字体大小: 正常 放大

715

主题

213

听众

8599

积分

  • TA的每日心情
    开心
    2017-4-28 17:18
  • 签到天数: 415 天

    [LV.9]以坛为家II

    社区QQ达人 邮箱绑定达人 风雨历程奖 最具活力勋章 发帖功臣 元老勋章 新人进步奖

    群组乐考无忧考研公益讲座

    群组2017美赛两天强训

    群组模友会交流视频

    群组

    群组国赛讨论

    跳转到指定楼层
    1#
    发表于 2015-12-2 15:33 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
    前言:
    + o: L6 E* Z4 M& M: U- D越来越火了,网页是数据很大的一个来源。最近很多人问怎么抓网页数据,据我所知,常见的编程语言(C++,java,python)都可以实现抓网页数据,甚至很多统计\计算的语言(R,Matlab)都有可以实现和网站交互的包。本人试过用java,python,R抓网页,感觉语法各有差异,逻辑上是一样的。我准备用python来大概讲讲抓网页是什么概念,具体的内容要自己看手册或者google别人的博客,这里算是抛砖引玉了。水平有限,出现错误或者有更好的办法,欢迎讨论。
    ) X5 B) F6 i0 ^, k0 r$ `. M& K' E! p5 D* M3 a
    步骤一:熟悉Python的基本语法。
    & X! J, k# ^4 e7 ?. s2 n# V8 s已经熟悉Python的直接跳到步骤二。" o5 F$ k8 P2 w% g& a
    Python是门比较容易入门的编程语言,如何上手视编程基础而定。" X8 _/ @2 ~2 v
    (1) 如果有一定编程的基础,建议看google's python class,链接https://developers.google.com/edu/python/?hl=zh-CN&csw=1% b0 H; A6 g6 p
    这个是一个为期两天的短期培训课程(当然,是两个全天),大概是七个视频,每个视频之后给编程作业,每个作业一个小时之内可以完成。这是我学习python的第二门课(第一门是codecademy的python,很早之前看的,很多内容都记不得了),当时每天看视频+编程作业一个多小时,六天弄完,效果还不错,用python写基本的程序没有问题。
    , O& x" d. ]+ n- i4 g(2) 如果是没有任何编程基础,建议看coursera上Rice University开的An Introduction to Interactive Programming in Python。这门课我没有跟过,但是看coursetalk的评论反映非常好,地里也有同学评论(点这里),课程链接:https://www.coursera.org/course/interactivepython。Udacity上的CS101也是不错的选择,地里有相关的讨论帖(点这里),而且这门课就叫做build a search engine,会专门讲一些和网络相关的module。其他学习资源还有code school和codecademy,这些资源也是挺不错的,但是编程量太少,初学者还是系统的跟课、多练练手来打好基础吧。5 e9 ~3 }0 o. c- m) R
    当然,每个人的偏好不同,我推荐的不一定适合你。可以先看看这个帖子【长期加分贴】介绍你上过的公开课里面其他人是怎么说的,或者上coursetalk.org看看课程评论,再决定吧。4 }- h. D; V2 M& N0 S9 h& r" D
    步骤二:学会如何与网站建立链接,得到网页数据。: P( B7 k) k5 F8 G% Y* U6 a. ?% D/ P
    写脚本与网站进行交互,要熟悉python和网页相关的几个module(urllib,urllib2,httplib)中的一个,知道一个即可,其他的都类似的。这三个是python提供的和网页交互的基本module,还有其他的一些,比如:mechanize和scrappy,我没有用过,可能有更好的性能,欢迎了解的来补充。基本的网页抓取,前面的三个module足矣。
    5 t# v% ?! `+ p# u6 _. c6 @下面的代码演示如何用urllib2与google scholar进行交互,获得网页信息+ x# V$ v5 ]( D+ W* p1 ]
    • # 导入模块 urllib2
    • import urllib2
    • # 随便查询一篇文章,比如On random graph。对每一个查询google . From 1point 3acres bbs
    • # scholar都有一个url,这个url形成的规则是要自己分析的。
    • query = 'On+random+graph'
    • url = 'http://scholar.google.com/scholar?hl=en&q=' + query + '&btnG=&as_sdt=1%2C5&as_sdtp='
    • # 设置头文件。抓取有些的网页不需要专门设置头文件,但是这里如果不设置的话,
    • # google会认为是机器人不允许访问。另外访问有些网站还有设置Cookie,这个会相对复杂一些,
    • # 这里暂时不提。关于怎么知道头文件该怎么写,一些插件可以看到你用的浏览器和网站交互的. From 1point 3acres bbs
    • # 头文件(这种工具很多浏览器是自带的),我用的是firefox的firebug插件。
    • header = {'Host': 'scholar.google.com',
    • 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:26.0) Gecko/20100101 Firefox/26.0',. 1point 3acres 璁哄潧
    • 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    • 'Accept-Encoding': 'gzip, deflate',
    • 'Connection': 'keep-alive'}. 鐗涗汉浜戦泦,涓
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-15 12:21 , Processed in 0.384975 second(s), 54 queries .

    回顶部