厚积薄发 发表于 2012-2-27 15:20

网络爬虫—利用SAS抓取网页方法不足

    在《网络爬虫利用SAS抓取网页方法》这篇文章中,介绍了通过SAS来抓取数据的方法,这篇文章中,主要介绍了一些方法上的不足。读者在使用过程中需要注意。
方法1的一些缺陷:
     只找到全球URLS 我们简单的Web履带DATA步实施有很多缺点。首先,它是寻找网址 < a href="…">标签内只发现。 URL可以出现在许多地方,整个网页。更健壮提取网址的方法将包括更多和更复杂的Perl正则表达式。其次,我们的简单的Web抓取工具可以抓取,只有以http://开头的URL 。如果我们发现一个标签,我们会像< a href="../index.html"> 有包括后处理代码转换.. / index.html来http://www.newsite.com/index.html,以便能够使用我们的文件名​​语句浏览网页。并不安全有没有内置的安全装置。网络爬虫会继续,直到有 work.links_to_crawl没有更多的链接数据集。理想的情况下,我们将添加一些后处理检查,以确定是否我们离开我们的目标域。例如,如果我们补充说:“http://www.yahoo.com”作为种子URL,我们希望只抓取这些网页包含 “http://www.yahoo.com”(换句话说,在http://www.yahoo.com/autos 不http://www.google.com)。


粗鲁上网浏览的概念是一种礼貌的。我们小的网络爬虫是简单而快速。它可以发现和提取在第二个网址数百。像雅虎显示器快速网页下载请求从某些网站单一来源。如果他们发现了从单一来源的流量太多,他们将油门的响应时间,在服务您要求的网页。这样可以大大减慢履带。此外,履带式可能不下载整个由于这些限制问题的页。方法2:SAS文本挖掘的网页爬行我们的网络爬虫的缺点都可以是固定的。我们可以尝试修改,我们简单的SAS数据步网站履带式,或选择使用一个更好的。
     要选择一个丰富​​的数据挖掘工具,SAS Enterprise Miner的提供集,插件的SAS文本挖掘%TMFILTER宏提供了一个更好的网络爬虫。如果你有持牌SAS文本矿工,那么你访问%TMFILTER宏。这个宏调用一些优化的代码,并下载导入文件。%TMFILTER可以执行两个任务: 1。它可以抓取互联网。 2。它可以抓取本地文件和目录果获得一个网址,%TMFILTER,可以导航到该站点,下载文件,保存为HTML,检查多个URL ,继续爬行。%TMFILTER,而不是一个URL,如果本地文件指定目录,将递归导航目录树,转换到HTML中找到的文件。这些文件可能是一个收集便携式文档格式(PDF),超文本标记语言(HTML),或在硬盘文件夹中的Microsoft Office文件。所有文件先转换为HTML并存储在硬盘驱动器上的目标目录%TMFILTER 。然后它创建一个SAS数据集包含的信息,其格式,等等,其中每个文件存储。这些 HTML文件,然后可以导入到SAS 。要转换成SAS数据集的文件目录,你可以这样使用%TMFILTER : tmfilter%(数据集的数据集名,DIR =路径到原始文件, DESTDIR =路径- html文件); 要下载的URL抓取网页,您可以使用这样的%TMFILTER: tmfilter%(数据集的数据集名,DIR =路径到原始文件, DESTDIR =路径html文件,URL =网址,深度=整数); URL参数告诉%TMFILTER应该开始爬行。深度参数提供告诉限制%TMFILTER多少水平应该抓取。
    方法2的一些优点:%TMFILTER SAS数据步代码的网络爬虫是一个出色的解决方案。由于核心爬行模块%TMFILTER是在C + +编程语言编写的,它是一个更快的和高效的履带式。此外,宏可以提取更多的网址。 SAS数据步网络爬虫只能找到类型的网址,我们告诉它。那在很大程度上将取决于你的能力,撰写和调试正则表达式在Perl编程语言。因为Perl的正则表达式是如此紧凑又简洁,它可以很难找到和调试构图时,他们的错误。%TMFILTER已自动为我们所有的护理。最后,这是错误少俯卧比我们的SAS数据步网络爬虫。%TMFILTER已在生产中使用了数年抓取数以百计的千兆字节的互联网数据。这是一个专业级产品。 SAS文本挖掘文档中可以找到更多关于如何最好地利用%TMFILTER的信息。
    方法3:WEB与SAS搜索管道爬行其他两种方法,如果不符合您的需求,那么您将需要的SAS搜索管道的力量。这是目前在SAS内部的项目,我们希望在不久的将来提供给客户。这将有抓取整个网站的能力,提取和组织,从网站的信息,和索引中的数据可以很容易地通过搜索后。它开始,如果你喜欢用一个简单的种子URL或多个URL。从那里,它像其他作品网络爬虫。它的下载网站,搜索链接,这些链接网站下载,等等。是什么让特别呢?答案是其处理技术。首先,SAS搜索管道将允许您自定义自己的解析器,因此索引文件,以满足您的需求。例如,您可能希望每个下载页上的另一篇文章,或者您可能有兴趣下载页面含有多个RSS提要,这样每个饲料是一个单独的文章。定制的分析器提供了一个简单,方便的方式来处理这种区别。不仅SAS搜索管道提供预先处理功能,但它也将提供后处理程序选项。假设你想从网站中删除的HTML标记,以防止从同一网站下载的履带两次。 SAS搜索管道将采取这种照顾你。这将有许多内置的后处理选项,包括具体的数据,分类文章,提取和修改索引字段名称。该指数建设者 SAS搜索管道存储在一个指数,可以通过去除修改或所有的文章,成功地处理 appendance的更多的文章。还提供一个查询工具,为您在其中的一个或多个关键字搜索感兴趣。为您提供了一个功能的关键字或关键字的文章列表,您可以使用此列表进一步的研究。 SAS搜索管道的最佳功能之一是,它可以产生的结果与其他SAS集成工具。 SAS搜索管道包括一个后处理程序,以直接出口物品到SAS数据集或一个逗号分离值(CSV)文件,可以很方便地阅读到的SAS使用proc导入。在这种方式,您可以使用 SAS来分析整个Web! 中国统计网

叶纯萱 发表于 2012-3-31 07:05

这个也留一个

沧桑流年的锦 发表于 2012-7-2 17:56

此处路过,SAS技术好早了。。。。。

cw200808 发表于 2012-8-28 19:40

学习了呵呵谢谢

snowmanPeter 发表于 2014-10-27 11:10

留个脚印
页: [1]
查看完整版本: 网络爬虫—利用SAS抓取网页方法不足