问题补充说明:就解释解释,顺便详细的说一下流程,最好能举一个例子。。。。
最简单用正则表达式:输获冲谈能督继架省汉找入一个地址如“www.163.com”,然后,下载这个页面。将页面用字符的形式分360问答析(正则表达式取出)所有的url存入特点数据结构(如链表),然后分别下载链表中的url指示的页面。再分析,再下饭婷七致汉必胞油船载,不断循环。那么下载的页面,就是网上的网页。按一定的算法索引起来,就是你的数据了。按url转跳的顺序可以分为深度和广度优先。这是最简单的一个爬虫。只要防止无限的循环,(就是一个页面的url中全部都指向自身,那么爬虫就不断下载一个页面了)网上的数据最终都可河速层亲世重剂洋心呼以下载下来。爬虫就是这个思想。但真正的爬虫都是有智能的取舍算法,多只爬虫并行采集的复杂系统。