作为站长其实做seo优化时不用天天去模仿别人,了解底层原理、算法……很重要。今天就介绍下搜索引擎蜘蛛爬虫的分类。希望对你帮助。
1、批量型的蜘蛛爬虫-用户型
这种类型是针对用户有着明确的抓取范围和目标,当达到既定的目标之后,抓取工作就会停止。这个目标可以是抓取的时间,也可以是抓取的数量等 。
2、增量式蜘蛛爬虫-更新式
这种爬虫类型不同于批量型爬虫,没有固定的限制,且需要程序持续不断的运行,对于抓取到的数据定期的更新。它针对的是网页在不断变化的,增量式爬虫只需要抓取新产生或者发生新变化的网页,他不会重复的抓取没有变化的网页,这样可以缩减时间和存储空间,当然这种爬虫程序运行起来是相对有难度的。
主要使用去重原理。
3、通用爬虫-大型
通用蜘蛛爬虫也叫作全网爬虫,它是搜索引擎抓取系统的重要组成部分。主要为门户 网站站点搜索引擎和大型 Web 服务提供商采集网络数据。这类蜘蛛爬虫的爬行范畴和数量比较大,因此对于爬取速度和存储空间的要求很高。
4、聚焦蜘蛛爬虫-特定型
聚焦爬虫也可以称之为垂直型Spider,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大面广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。
聚焦蜘蛛爬虫是指有针对性的爬取,和通用蜘蛛爬虫相比对于硬件的要求有所降低,而且所抓取的数据垂直性更高,可以满足特定人群的需求。
总结:所有搜索引擎蜘蛛爬虫都在找好的食物,文章,网站,博客……进行整理归类,再根据人们的搜索关键词,进行显示出好它所判断的好内容给用户。当然不是人为的,而是根据算法而得到的结果,全自动化的,智能化……目的是为了让用户对搜索引擎形成依赖,而不是找很长时间都找不到满意的结果。
本文关键词:暂无关键词