QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 6085|回复: 4
打印 上一主题 下一主题

网络爬虫—利用SAS抓取网页方法不足

[复制链接]
字体大小: 正常 放大

1341

主题

738

听众

2万

积分

数学中国总编辑

  • TA的每日心情

    2016-11-18 10:46
  • 签到天数: 206 天

    [LV.7]常住居民III

    超级版主

    社区QQ达人 邮箱绑定达人 元老勋章 发帖功臣 新人进步奖 原创写作奖 最具活力勋章 风雨历程奖

    群组2011年第一期数学建模

    群组第一期sas基础实训课堂

    群组第二届数模基础实训

    群组2012第二期MCM/ICM优秀

    群组MCM优秀论文解析专题

    跳转到指定楼层
    1#
    发表于 2012-2-27 15:20 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta |邮箱已经成功绑定
        在《网络爬虫利用SAS抓取网页方法》这篇文章中,介绍了通过SAS来抓取数据的方法,这篇文章中,主要介绍了一些方法上的不足。读者在使用过程中需要注意。% w8 p9 z3 p* r7 `$ d
    方法1的一些缺陷:# y; f- O# u5 `2 z, ^3 C2 `3 {
         只找到全球URLS 我们简单的Web履带DATA步实施有很多缺点。首先,它是寻找网址 < a href="…">标签内只发现。 URL可以出现在许多地方,整个网页。更健壮提取网址的方法将包括更多和更复杂的Perl正则表达式。其次,我们的简单的Web抓取工具可以抓取,只有以http://开头的URL 。如果我们发现一个标签,我们会像< a href="../index.html"> 有包括后处理代码转换.. / index.html来http://www.newsite.com/index.html,以便能够使用我们的文件名​​语句浏览网页。并不安全有没有内置的安全装置。网络爬虫会继续,直到有 work.links_to_crawl没有更多的链接数据集。理想的情况下,我们将添加一些后处理检查,以确定是否我们离开我们的目标域。例如,如果我们补充说:“http://www.yahoo.com”作为种子URL,我们希望只抓取这些网页包含 “http://www.yahoo.com”(换句话说,在http://www.yahoo.com/autoshttp://www.google.com)。
    & h" t7 n2 r  m& l# ^- @$ m% R# Y) a

    8 R4 S! t3 b% T5 k) N粗鲁上网浏览的概念是一种礼貌的。我们小的网络爬虫是简单而快速。它可以发现和提取在第二个网址数百。像雅虎显示器快速网页下载请求从某些网站单一来源。如果他们发现了从单一来源的流量太多,他们将油门的响应时间,在服务您要求的网页。这样可以大大减慢履带。此外,履带式可能不下载整个由于这些限制问题的页。方法2:SAS文本挖掘的网页爬行我们的网络爬虫的缺点都可以是固定的。我们可以尝试修改,我们简单的SAS数据步网站履带式,或选择使用一个更好的。
    ; |0 P0 f% T3 G6 D! ~     要选择一个丰富​​的数据挖掘工具,SAS Enterprise Miner的提供集,插件的SAS文本挖掘%TMFILTER宏提供了一个更好的网络爬虫。如果你有持牌SAS文本矿工,那么你访问%TMFILTER宏。这个宏调用一些优化的代码,并下载导入文件。%TMFILTER可以执行两个任务: 1。它可以抓取互联网。 2。它可以抓取本地文件和目录果获得一个网址,%TMFILTER,可以导航到该站点,下载文件,保存为HTML,检查多个URL ,继续爬行。%TMFILTER,而不是一个URL,如果本地文件指定目录,将递归导航目录树,转换到HTML中找到的文件。这些文件可能是一个收集便携式文档格式(PDF),超文本标记语言(HTML),或在硬盘文件夹中的Microsoft Office文件。所有文件先转换为HTML并存储在硬盘驱动器上的目标目录%TMFILTER 。然后它创建一个SAS数据集包含的信息,其格式,等等,其中每个文件存储。这些 HTML文件,然后可以导入到SAS 。要转换成SAS数据集的文件目录,你可以这样使用%TMFILTER : tmfilter%(数据集的数据集名,DIR =路径到原始文件, DESTDIR =路径- html文件); 要下载的URL抓取网页,您可以使用这样的%TMFILTER: tmfilter%(数据集的数据集名,DIR =路径到原始文件, DESTDIR =路径html文件,URL =网址,深度=整数); URL参数告诉%TMFILTER应该开始爬行。深度参数提供告诉限制%TMFILTER多少水平应该抓取。
    + @- o" o* L  h1 S7 }& m& k    方法2的一些优点:%TMFILTER SAS数据步代码的网络爬虫是一个出色的解决方案。由于核心爬行模块%TMFILTER是在C + +编程语言编写的,它是一个更快的和高效的履带式。此外,宏可以提取更多的网址。 SAS数据步网络爬虫只能找到类型的网址,我们告诉它。那在很大程度上将取决于你的能力,撰写和调试正则表达式在Perl编程语言。因为Perl的正则表达式是如此紧凑又简洁,它可以很难找到和调试构图时,他们的错误。%TMFILTER已自动为我们所有的护理。最后,这是错误少俯卧比我们的SAS数据步网络爬虫。%TMFILTER已在生产中使用了数年抓取数以百计的千兆字节的互联网数据。这是一个专业级产品。 SAS文本挖掘文档中可以找到更多关于如何最好地利用%TMFILTER的信息。
    , x! X6 |2 @5 u7 [# y, h6 h    方法3:WEB与SAS搜索管道爬行其他两种方法,如果不符合您的需求,那么您将需要的SAS搜索管道的力量。这是目前在SAS内部的项目,我们希望在不久的将来提供给客户。这将有抓取整个网站的能力,提取和组织,从网站的信息,和索引中的数据可以很容易地通过搜索后。它开始,如果你喜欢用一个简单的种子URL或多个URL。从那里,它像其他作品网络爬虫。它的下载网站,搜索链接,这些链接网站下载,等等。是什么让特别呢?答案是其处理技术。首先,SAS搜索管道将允许您自定义自己的解析器,因此索引文件,以满足您的需求。例如,您可能希望每个下载页上的另一篇文章,或者您可能有兴趣下载页面含有多个RSS提要,这样每个饲料是一个单独的文章。定制的分析器提供了一个简单,方便的方式来处理这种区别。不仅SAS搜索管道提供预先处理功能,但它也将提供后处理程序选项。假设你想从网站中删除的HTML标记,以防止从同一网站下载的履带两次。 SAS搜索管道将采取这种照顾你。这将有许多内置的后处理选项,包括具体的数据,分类文章,提取和修改索引字段名称。该指数建设者 SAS搜索管道存储在一个指数,可以通过去除修改或所有的文章,成功地处理 appendance的更多的文章。还提供一个查询工具,为您在其中的一个或多个关键字搜索感兴趣。为您提供了一个功能的关键字或关键字的文章列表,您可以使用此列表进一步的研究。 SAS搜索管道的最佳功能之一是,它可以产生的结果与其他SAS集成工具。 SAS搜索管道包括一个后处理程序,以直接出口物品到SAS数据集或一个逗号分离值(CSV)文件,可以很方便地阅读到的SAS使用proc导入。在这种方式,您可以使用 SAS来分析整个Web! 中国统计网# P4 w; }* N" l. G
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持1 反对反对0 微信微信
    叶纯萱 实名认证       

    2

    主题

    3

    听众

    107

    积分

    升级  3.5%

  • TA的每日心情
    开心
    2012-5-6 09:13
  • 签到天数: 34 天

    [LV.5]常住居民I

    群组数学专业考研加油站

    群组Matlab讨论组

    群组C 语言讨论组

    群组Linux推广

    群组EXCEL

    回复

    使用道具 举报

    1

    主题

    6

    听众

    74

    积分

    升级  72.63%

  • TA的每日心情
    开心
    2017-9-15 21:47
  • 签到天数: 15 天

    [LV.4]偶尔看看III

    群组学术交流D

    群组Matlab讨论组

    群组中国数模会长俱乐部

    群组Linux推广

    群组SAS学习圈

    回复

    使用道具 举报

    cw200808        

    1

    主题

    5

    听众

    1088

    积分

    升级  8.8%

  • TA的每日心情
    擦汗
    2014-3-1 19:36
  • 签到天数: 321 天

    [LV.8]以坛为家I

    自我介绍
    我是一名学生
    回复

    使用道具 举报

    0

    主题

    4

    听众

    35

    积分

    升级  31.58%

  • TA的每日心情
    开心
    2015-7-2 14:33
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    自我介绍
    我是来自浙江工业大学的学生

    群组数学建模培训课堂1

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-8-1 09:14 , Processed in 0.468238 second(s), 78 queries .

    回顶部