解读这就是搜索引擎


《走进搜索引擎》这本是是比较简单的讲解了主流搜索引擎的大体系统,主要分为爬虫系统,分析系统,检索系统,查询系统。

爬虫系统(又称下载系统):下载万维网各种类型的网页,并且保持同步。

1.采取宽度优先. 2不重复抓取策略 采用md5 或者 哈希函数 3网页抓取优先策略,主要基于链接欢迎度(数目质量,反向连接),连接重要度,平均链接深度,4.网页重访策略 ,分为统一重访策略和个体重访策略。

分析系统:下载得到的网页数据进行pagerank 和分词计算

1网页结构分析:文本(长度,位置)打分 。2网页去重 有i-match算法和single算法。3通过字典对文本进行分词。4pagerank打分

索引系统:将分析处理后的网页对象索引入库。

1通过倒排索引。[词   文档数   偏移量] [单文档数 词个数 域列表]

查询系统:分析用户查询请求从索引库中检索出相关网页并排序后以查询结果返回用户。

1计算信息熵[查询词和检索词] 2自动摘要

以上是大致的提纲,下面是我做的思维导图。欢迎各位指教。