客服电话:4001-543-345

当前位置:首页 > 网站建设知识 >

蜘蛛是如何爬取内容的

作者:admin    来源:未知    时间:2016-07-05 10:31
摘要:网站建设 中蜘蛛在抓取的时候先得到信任他一般的都会抓取一些信任度高的网站或一些百度白名单的网站,网页内容的抓取是从一些链接发现一些其他页面。蜘蛛会把这些链接保存在自

    网站建设 中蜘蛛在抓取的时候先得到信任他一般的都会抓取一些信任度高的网站或一些百度白名单的网站,网页内容的抓取是从一些链接发现一些其他页面。蜘蛛会把这些链接保存在自己的数据库中,然后根据顺序来抓取这些页面。

  1、蜘蛛爬行网页的规则:

  对于蜘蛛网页权重越高,信用度越高,抓取的频率就越频繁,比如站点的首页和内页。蜘蛛先抓取站点的首页,因为首页的权重较高,而大部分的链接都指向首页。然后通过首页来抓取内页,而不是所有的内页都会被蜘蛛抓取。

  搜索引擎认为一般的中小型站点,三层是强大到足以承受所有的内容的,所以蜘蛛经常抓取的内容是三层,而三层以上的内容蜘蛛的内容不重要,所以不要经常占用。

  2、如何看到蜘蛛抓取?

  通过IIS日志可以看到蜘蛛爬行的内容,IIS日志百度蜘蛛和谷歌蜘蛛等。从IIS日志分析,展示蜘蛛型和爬行时间和抓取页面,抓取内容的大小和返回的网页代码,200代表抢顺利。

日本熟妇色在线视频