爬虫技术之数来自据采集？-知识回答

问题补充说明：就解释解释，顺便详细的说一下流程，最好能举一个例子。。。。

爬虫技术之数来自据采集？

最简单用正则表达式：输获冲谈能督继架省汉找入一个地址如“www.163.com”，然后，下载这个页面。将页面用字符的形式分360问答析（正则表达式取出）所有的url存入特点数据结构（如链表），然后分别下载链表中的url指示的页面。再分析，再下饭婷七致汉必胞油船载，不断循环。那么下载的页面，就是网上的网页。按一定的算法索引起来，就是你的数据了。按url转跳的顺序可以分为深度和广度优先。这是最简单的一个爬虫。只要防止无限的循环，（就是一个页面的url中全部都指向自身，那么爬虫就不断下载一个页面了）网上的数据最终都可河速层亲世重剂洋心呼以下载下来。爬虫就是这个思想。但真正的爬虫都是有智能的取舍算法，多只爬虫并行采集的复杂系统。

相关文章

爬虫抢低价机票是如何实现的?

采集歌谣是什么生肖动物