CASES 案例
我们的作品,他们的故事
Our work, their stories
Our work, their stories
龙兵剖析搜索引擎结构
我们知道要想做好网站并且推广出去,就要对搜索引擎有一定的认识,下面成都网站建设龙兵科技为您一一解析。
一、搜索引擎大致结构:用户查询、cache模块、排序(内容和链接)、索引库、蜘蛛去重、互联网
二、搜索引擎的爬行策略:
①宽度优先:它发现新连接会放在最后的待抓取ulr
②非完全的pagerank:判断链接重要性,去排序
③OCIP策略:改进的pagerank,抓取的10个URL的权重,就像花钱,相互链接,从链接导入判断,看哪个重要,OCIP不需要计算过程,速度
④大站优化策略:以域为(www.xbjianzhan.com)单位,蜘蛛坚持待抓取url库中的网页,进行归类。那一个域需要下载的页面较多,就优先下载那个域
三、蜘蛛爬行过程
①下载种子页面
②分析出里面的链接
③将分析出来的链接放入待抓取的数据库中
④依次下载待抓取的URL,并分析里面的链接并放入已爬行库中。
四、如果你网站页面不更新,或者排名不好可参考,页面更新策略
①历史参考策略:主要根据网页的历史变化作为参考已经,来知道爬虫对网站的更新时间。广告变化、网站头部、网站尾部、网站样式、颜色等变化,对于蜘蛛来说,不属于更新
②用户体验策略:主要根据用户体验作为参考的依据,来指导爬虫对网站的更新时间。用户前30名网站较多,判断一个网页是否需要更新,取决于网页的变化所带来的搜索质量的变化,影响越大,更新越快
③类聚抽样策略:把抓取到的网页根据属性,放到不同的类中,然后根据类别的属性,进行页面的更新频率和时间。 在不同的环境下,搜索引擎可能直接省略掉这个步骤,直接会以网站为类聚单位,对网站的内页进行抽样,计算更新频率,作为参考周期
五、蜘蛛的类型
对等式分布爬虫、主从分布式爬虫
一、搜索引擎大致结构:用户查询、cache模块、排序(内容和链接)、索引库、蜘蛛去重、互联网
二、搜索引擎的爬行策略:
①宽度优先:它发现新连接会放在最后的待抓取ulr
②非完全的pagerank:判断链接重要性,去排序
③OCIP策略:改进的pagerank,抓取的10个URL的权重,就像花钱,相互链接,从链接导入判断,看哪个重要,OCIP不需要计算过程,速度
④大站优化策略:以域为(www.xbjianzhan.com)单位,蜘蛛坚持待抓取url库中的网页,进行归类。那一个域需要下载的页面较多,就优先下载那个域
三、蜘蛛爬行过程
①下载种子页面
②分析出里面的链接
③将分析出来的链接放入待抓取的数据库中
④依次下载待抓取的URL,并分析里面的链接并放入已爬行库中。
①历史参考策略:主要根据网页的历史变化作为参考已经,来知道爬虫对网站的更新时间。广告变化、网站头部、网站尾部、网站样式、颜色等变化,对于蜘蛛来说,不属于更新
②用户体验策略:主要根据用户体验作为参考的依据,来指导爬虫对网站的更新时间。用户前30名网站较多,判断一个网页是否需要更新,取决于网页的变化所带来的搜索质量的变化,影响越大,更新越快
③类聚抽样策略:把抓取到的网页根据属性,放到不同的类中,然后根据类别的属性,进行页面的更新频率和时间。 在不同的环境下,搜索引擎可能直接省略掉这个步骤,直接会以网站为类聚单位,对网站的内页进行抽样,计算更新频率,作为参考周期
五、蜘蛛的类型
对等式分布爬虫、主从分布式爬虫
上一篇:上一篇:成都旅游网站建设策略
下一篇:下一篇:交友app开发商业计划书
最新资讯