日照网络公司
扫描关注网站建设微信公众账号

扫一扫微信二维码

日照网站优化公司教大家一些网站优化的基础知识!

昊诺网络o2017-07-25 09:25:28o网络知识o

页面分析


  页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供网站的原始页面,不能返回与用户查询条件想匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。
1.  网页索引
  为了提高页面检索的效率,搜索引擎需要抓取回来的原始页面建立索引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为了页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页面。
2.  网页分析
  网页分析是整个网页处理中很重要的环节,包括网页正文信息的提取(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。

  •   正文信息提取
      网页正文信息的提取实际上就是网页中非正文信息的过滤。其中,很为重要的就是对网页中标签信息的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。
  •   切词/分词
      经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分(也就是我们常说的切词或者分词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。
      每个搜索引擎的切词系统都会存在或多或少或少的差别,切词系统的优化只要取决于开发者对语言的理想能力。格外是中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件想匹配的信息。
  •   关键字重组
      为了迎合用户顺找信息的习惯,即以关键字为条件顺找与关键字相关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键字对应多个页面的关系表,即关键字反向索引表。而建立关键字反向索引表重要的任务就是对所以页面中的关键字列表进行重组。

  经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往往不能满足用户的需求,所以搜索引擎还会根据页面与用户查询条件相关性的高低再对这个列表重新排列,然后把处理的列表返回给用户。


   以上是日照网站优化公司(昊诺网络公司)分享,以后还要向大家介绍的搜索引擎对页面排序的问题。

文章关键词