网络爬虫—利用SAS抓取网页方法不足

厚积薄发 发表于 2012-2-27 15:20

在《网络爬虫利用SAS抓取网页方法》这篇文章中，介绍了通过SAS来抓取数据的方法，这篇文章中，主要介绍了一些方法上的不足。读者在使用过程中需要注意。
方法1的一些缺陷：
只找到全球URLS 我们简单的Web履带DATA步实施有很多缺点。首先，它是寻找网址 < a href="…">标签内只发现。 URL可以出现在许多地方，整个网页。更健壮提取网址的方法将包括更多和更复杂的Perl正则表达式。其次，我们的简单的Web抓取工具可以抓取，只有以http://开头的URL 。如果我们发现一个标签，我们会像< a href="../index.html"> 有包括后处理代码转换.. / index.html来http://www.newsite.com/index.html，以便能够使用我们的文件名语句浏览网页。并不安全有没有内置的安全装置。网络爬虫会继续，直到有 work.links_to_crawl没有更多的链接数据集。理想的情况下，我们将添加一些后处理检查，以确定是否我们离开我们的目标域。例如，如果我们补充说：“http://www.yahoo.com”作为种子URL，我们希望只抓取这些网页包含 “http://www.yahoo.com”（换句话说，在http://www.yahoo.com/autos 不http://www.google.com）。

粗鲁上网浏览的概念是一种礼貌的。我们小的网络爬虫是简单而快速。它可以发现和提取在第二个网址数百。像雅虎显示器快速网页下载请求从某些网站单一来源。如果他们发现了从单一来源的流量太多，他们将油门的响应时间，在服务您要求的网页。这样可以大大减慢履带。此外，履带式可能不下载整个由于这些限制问题的页。方法2：SAS文本挖掘的网页爬行我们的网络爬虫的缺点都可以是固定的。我们可以尝试修改，我们简单的SAS数据步网站履带式，或选择使用一个更好的。
要选择一个丰富的数据挖掘工具，SAS Enterprise Miner的提供集，插件的SAS文本挖掘％TMFILTER宏提供了一个更好的网络爬虫。如果你有持牌SAS文本矿工，那么你访问％TMFILTER宏。这个宏调用一些优化的代码，并下载导入文件。％TMFILTER可以执行两个任务： 1。它可以抓取互联网。 2。它可以抓取本地文件和目录果获得一个网址，％TMFILTER，可以导航到该站点，下载文件，保存为HTML，检查多个URL ，继续爬行。％TMFILTER，而不是一个URL，如果本地文件指定目录，将递归导航目录树，转换到HTML中找到的文件。这些文件可能是一个收集便携式文档格式（PDF），超文本标记语言（HTML），或在硬盘文件夹中的Microsoft Office文件。所有文件先转换为HTML并存储在硬盘驱动器上的目标目录％TMFILTER 。然后它创建一个SAS数据集包含的信息，其格式，等等，其中每个文件存储。这些 HTML文件，然后可以导入到SAS 。要转换成SAS数据集的文件目录，你可以这样使用％TMFILTER ： tmfilter％（数据集的数据集名，DIR =路径到原始文件， DESTDIR =路径- html文件）; 要下载的URL抓取网页，您可以使用这样的％TMFILTER： tmfilter％（数据集的数据集名，DIR =路径到原始文件， DESTDIR =路径html文件，URL =网址，深度=整数）; URL参数告诉％TMFILTER应该开始爬行。深度参数提供告诉限制％TMFILTER多少水平应该抓取。
方法2的一些优点：％TMFILTER SAS数据步代码的网络爬虫是一个出色的解决方案。由于核心爬行模块％TMFILTER是在C + +编程语言编写的，它是一个更快的和高效的履带式。此外，宏可以提取更多的网址。 SAS数据步网络爬虫只能找到类型的网址，我们告诉它。那在很大程度上将取决于你的能力，撰写和调试正则表达式在Perl编程语言。因为Perl的正则表达式是如此紧凑又简洁，它可以很难找到和调试构图时，他们的错误。％TMFILTER已自动为我们所有的护理。最后，这是错误少俯卧比我们的SAS数据步网络爬虫。％TMFILTER已在生产中使用了数年抓取数以百计的千兆字节的互联网数据。这是一个专业级产品。 SAS文本挖掘文档中可以找到更多关于如何最好地利用％TMFILTER的信息。
方法3：WEB与SAS搜索管道爬行其他两种方法，如果不符合您的需求，那么您将需要的SAS搜索管道的力量。这是目前在SAS内部的项目，我们希望在不久的将来提供给客户。这将有抓取整个网站的能力，提取和组织，从网站的信息，和索引中的数据可以很容易地通过搜索后。它开始，如果你喜欢用一个简单的种子URL或多个URL。从那里，它像其他作品网络爬虫。它的下载网站，搜索链接，这些链接网站下载，等等。是什么让特别呢？答案是其处理技术。首先，SAS搜索管道将允许您自定义自己的解析器，因此索引文件，以满足您的需求。例如，您可能希望每个下载页上的另一篇文章，或者您可能有兴趣下载页面含有多个RSS提要，这样每个饲料是一个单独的文章。定制的分析器提供了一个简单，方便的方式来处理这种区别。不仅SAS搜索管道提供预先处理功能，但它也将提供后处理程序选项。假设你想从网站中删除的HTML标记，以防止从同一网站下载的履带两次。 SAS搜索管道将采取这种照顾你。这将有许多内置的后处理选项，包括具体的数据，分类文章，提取和修改索引字段名称。该指数建设者 SAS搜索管道存储在一个指数，可以通过去除修改或所有的文章，成功地处理 appendance的更多的文章。还提供一个查询工具，为您在其中的一个或多个关键字搜索感兴趣。为您提供了一个功能的关键字或关键字的文章列表，您可以使用此列表进一步的研究。 SAS搜索管道的最佳功能之一是，它可以产生的结果与其他SAS集成工具。 SAS搜索管道包括一个后处理程序，以直接出口物品到SAS数据集或一个逗号分离值（CSV）文件，可以很方便地阅读到的SAS使用proc导入。在这种方式，您可以使用 SAS来分析整个Web！中国统计网

叶纯萱 发表于 2012-3-31 07:05

这个也留一个

沧桑流年的锦 发表于 2012-7-2 17:56

此处路过，SAS技术好早了。。。。。

cw200808 发表于 2012-8-28 19:40

学习了呵呵谢谢

snowmanPeter 发表于 2014-10-27 11:10

留个脚印

页: [1]

数学建模社区-数学中国's Archiver

网络爬虫—利用SAS抓取网页方法不足