网络营销推广
首页 > SEO技术 > SEO实战 > 搜索引擎原理第一阶段"爬行与抓取"

搜索引擎原理第一阶段"爬行与抓取"

作者:蒋元 来源:http://www.jiangyuanblog.com/ 2017-08-17 19:29:02

  作为一个网络营销师,对于seo搜索引擎营销一定要有一定的认识,近期有朋友咨询关于搜索引擎原理的全面知识,蒋元的网络营销博客计划分三次为大家介绍,对'...

  作为一个网络营销师,对于seo搜索引擎营销一定要有一定的认识,近期有朋友咨询关于搜索引擎原理的全面知识,蒋元的网络营销博客计划分三次为大家介绍,对于搜索引擎工作原理大体分为三个阶段:爬行与抓取、预处理、排名。今天我们就一起来了解一下关于搜索引擎原理之爬行与抓取。

搜索引擎营销

  对于百度搜索引擎来说,搜索引擎抓取程序(蜘蛛)通过跟踪链接发现和访问网页,读取页面HTML代码,存入到数据库中。

  1、蜘蛛(用来爬行与访问页面的程序)

  蜘蛛程序发出页面访问请求后,服务器返回html代码,存入原始数据库中。蜘蛛访问任何一个网站,首先会访问网站更目录下的robots文件。

  2、跟踪链接(跟踪链接访问多页面)

  对于跟踪最简单的爬行分两种:深度优先,广度优先。对于深度:会顺着第一个页面,发现链接就爬取,直到没有链接,返回第一个页面。广度:在一个页面发现多个链接,会按照层级,爬完该页面层级,在爬行下一个层级。蜘蛛的带宽资源与时间都不是无限的。

  3、吸引蜘蛛抓取的因素

  1)、网站和页面权重:增加爬行深度,与收录量

  2)、页面更新量

  3)、导入链接:新站重点外部链接,让搜索引擎知道此页面的存在,以及内部链接。

  4)、与首页点击距离

  5)、url结构:url规范化。

  4、地址库

  避免重复爬行与抓取建立的地址库,蜘蛛在页面发现链接,并不会马上抓取,会存入url地址库,统一安排抓取,抓取访问后,会存入已访问地址库中,目前地址库url来源:

  1)、人工录入的种子网站

  2)、页面抓取,地址库中没有,就会存入

  3)、提交表格提交金入

  4)、通过网站地图,站长平台提交的网址。

  5、爬行时的复制内容检测

  遇到权重很低的网站与大量转载或抄袭的内容时,很有可能就会不抓取。

  以上就是关于搜索引擎原理中的第一阶段相关介绍,相信大家对于搜索引擎原理之爬行与抓取有了一个全面的认识,更多有关网络营销技巧的介绍,请关注:蒋元的网络营销博客。

网络营销师   网络营销技巧   网络营销方案   网络营销学习

相关阅读

热点话题
  • 搜索引擎原理第二阶段“预处理”

    搜索引擎原理第二阶段“预处理”

  • 搜索引擎工作原理之第三阶段

    搜索引擎工作原理之第三阶段"排名"

  • 那些年这些算法的深究为搜索引擎算法不断的完善

    那些年这些算法的深究为搜索引擎算法不断的完善

  • 源码中图片seo优化的技巧是什么

    源码中图片seo优化的技巧是什么

  • 你如何理解搜索引擎优化?

    你如何理解搜索引擎优化?

  • 站内软文撰写有哪些技巧?

    站内软文撰写有哪些技巧?

今日话题