客服电话:4001-543-345

当前位置:首页 > 网络营销知识 >

搜索引擎的预处理过程

作者:Seo168    来源:未知    时间:2014-12-10 21:40
摘要:上次给大家说了一下搜索引擎爬行和抓取的大致过程,今天继续再介绍一下搜索引擎的预处理。上一篇文章说过,搜索引擎会先抓取页面,但抓取的页面不能直接来进行排名处理,因为
      上次给大家说了一下搜索引擎爬行和抓取的大致过程,今天继续再介绍一下搜索引擎的预处理。上一篇文章说过,搜索引擎会先抓取页面,但抓取的页面不能直接来进行排名处理,因为数据库中的页面数量太多,计算量太大,无法在几秒钟内返回结果,所以就要行预处理。
      蜘蛛抓取到的页面中有很大一部分是HTML代码,这些代码大部分都是需要去掉的,搜索引擎只提取文字和一些包含文字信息的代码。提取文字后要对这些文字进行分词,这是中文搜索引擎特有的步骤。英语中单词与单词之间有空格分隔,但中文的句子中都是连在一起的,所以搜索引擎要分辨句子中的单词。另外句子中的一些无实际意义的虚词、介词感叹词等等也都会被去掉,还有一些页面上的版权声明、广告等也都是要去掉的内容。
      再之后是索引,这一步分为正向索引和倒排索引。正向索引简单的说就是把每个页面记录为一串关键词的集合,其中每个关键词的信息也都有明确的记录,如词频、格式、位置等,然后把它以表格形式存进索引库。而倒排索引则是每一个单独的关键词对应着哪些页面,这些页面中都出现了这个关键词。如此当用户搜索关键词时,排序程序在倒排索引中定位到这个关键词,就可以快速找到包含这个关键词的页面。

日本熟妇色在线视频