搜索引擎就是一种程序,自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。搜索引擎可以分为:百度蜘蛛: Baiduspider , 360蜘蛛:360spider ,谷歌蜘蛛:geoglebot等。
搜索引擎的工作原理一般来说可以分为四步来完成,抓取,过滤,存取,排序。
1.抓取,搜索引擎顺着网页中的超链接在互联网中发现,搜索网页信息,然后再抓取里面的内容。从抓取的方式来看,可以分为深度抓取和广度抓取。深度抓取就是搜索引擎沿着网站的内部结构进行抓取,比如先抓取页,再抓取栏目页,然后再抓取详情页,就象树形结构一样,先到主干,然后到树枝,再到枝稍。一般结构超过三层,就不利于搜索引擎抓取了。不利于搜索引擎抓取和内容有JS,图片,视频,iframe框架,以及层级多的嵌套。
2.过滤,搜索引擎抓取了网页上的信息以后,就会把数据存放入临时数据库。然后搜索引擎把一些低质量的页面,比如采集来的,没有丰富内容的,文不对题的页面过滤掉。把它们当作垃圾一样,处理掉了。
3.存储,搜索引擎对一些高质量的,对用户有价值的,符合用户体验的内容就把它们存放在数据库中。以方便用户进行搜索查询进,随时可以调取。
4.排序,检索器根据用户输入的查询的关键词在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序。当我们看到在搜索引擎看到的只是一种强果,搜索引擎根据各种算法,把某个关键词的展现在页的位。
咨询相关问题或预约面谈,可以通过以下方式与我们联系
业务热线400-611-9921大客户专线158-1856-1755