网络营销推广
首页 > 搜索营销 > SEO优化 > 搜索引擎原理第二阶段“预处理”

搜索引擎原理第二阶段“预处理”

作者:蒋元 来源:http://www.jiangyuanblog.com/ 2017-08-17 13:39:47

搜索引擎原理第二阶段:预处理,索引程序对抓取的页面进行文字提取,中文分词,去停止词,去噪声,去重,索引,倒序索引等处理,以备排名程序调用,详细内容我们通过蒋元的'...

  搜索引擎原理第二阶段:预处理,索引程序对抓取的页面进行文字提取,中文分词,去停止词,去噪声,去重,索引,倒序索引等处理,以备排名程序调用,详细内容我们通过蒋元的网络营销博客一起来了解一下。

搜索引擎排名

  1、提取文字

  目前对于搜索引擎还是以文字内容为主,对于抓取的html代码页面,进行html格式标签,js,程序等,提取出利于排名的页面文字内容。

  2、中文分词

  方法:词典匹配与基于统计,对于词典匹配,可分为正向匹配与逆向匹配,基于统计优势在于新出现的词响应比较快。中文分词的准确性,将影响搜索引擎排名的相关性。

  3、去停止词

  助词:的、地、得 感叹词:啊、额、呀 副词或介词:从而、以、却

  4、消除噪声

  例如:版权声明文字、导航条、广告等。

  5、去重

  对于站内内容,建议适当添加:的、地、得致使伪原创效果。

  6、正向索引

  经过上述流程,接下来就是搜索引擎提取关键词,按照分词程序将划分好的词,把页面转化成一个关键词组成的集合,并记录每个词的出现频率,格式等。搜索引擎程序会将页面及关键词形成词表结构存储进索引库,每一个文件对应一个文件ID。

  7、倒序索引

  当用户搜索某关键词时,排序程序在倒序索引中定位到这个关键词,找到所有包含这个关键词的文件。

  8、链接关系计算

  预处理中重要的一部分,搜索引擎抓取页面内容后,需要事前计算出:页面上有哪些链接指向那些其他页面,每个页面有哪些导入链接,链接使用了什么锚文本,这些负责的链接指向关系形成了网站和页面的链接权重。Google  PR值就是这种链接关系的主要体现之一。

  9、特殊文件处理

  对flsh非文字内容,以及脚本和程序只能进行有限的处理。

  10、质量判断

  用户体验,页面排版,广告布局、语法、页面打开速度等

  以上就是为大家介绍的关于搜索引擎原理第二阶段预处理的相关知识,相信大家对于搜索引擎原理有了进一步的了解,更多有关搜索引擎排名的相关知识,请关注:蒋元的网络营销博客。

 

相关阅读

热点话题
  • 搜索引擎原理第二阶段“预处理”

    搜索引擎原理第二阶段“预处理”

  • 搜索引擎工作原理之第三阶段

    搜索引擎工作原理之第三阶段"排名"

  • 那些年这些算法的深究为搜索引擎算法不断的完善

    那些年这些算法的深究为搜索引擎算法不断的完善

  • 源码中图片seo优化的技巧是什么

    源码中图片seo优化的技巧是什么

  • 你如何理解搜索引擎优化?

    你如何理解搜索引擎优化?

  • 站内软文撰写有哪些技巧?

    站内软文撰写有哪些技巧?

今日话题