正排索引和倒排索引理解详解 古城微笑少年丶 2022-12-08 05:17 182阅读 0赞 ### 正排索引和倒排索引理解详解 ### * * 一、正排索引 * 二、 倒排索引 * 三、为什么搜索引擎选用倒排索引? * 四、倒排索引优点 * 五、小结 ***叮嘟!这里是小啊呜的学习课程资料整理。好记性不如烂笔头,今天也是努力进步的一天。一起加油进阶吧!*** ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNTQzNzg5_size_16_color_FFFFFF_t_70_pic_center] ## 一、正排索引 ## 蜘蛛爬虫经过文字提取、中文分词、去重等操作后,得到的就是独特的、能反应页面的主题内容、以词为单位的字符串。接下来搜索引擎索引程序就可以提取关键词了,`为该页面建立与关键词的对应关系`,而这个过程就叫做`正排索引`。 1.正排索引: 由文档指向关键词 文档--> 单词1 ,单词2 单词1 出现的次数 单词出现的位置; 单词2 单词2出现的位置 ... 正排索引:在搜索栏输入id查词条 (已知id) ## 二、 倒排索引 ## 当用户在搜索引擎搜索框中`输入关键词`的时候,搜索引擎就会把`和关键词有关的页面展现`给用户,而这个过程就叫做`倒排索引`。 2.倒排索引: 由关键词指向文档 单词1--->文档1,文档2,文档3 单词2--->文档1,文档2 倒排索引: 将搜索框中的词进行搜索查到哪些id包含这个词,在查这些id,找到词条 (通过分词查出id) ## 三、为什么搜索引擎选用倒排索引? ## **正排索引是不能直接用于排名的**,如果只存在正排索引,排名程序需要扫描所有索引库中的文件,找出包含这个关键词的文件,在进行相关性的计算。这样就**不能实时返回排名结果**。 所以,搜索引擎会将正排索引数据库重新构造为`倒排索引`,**把页面对应到关键词的关系表,转化为关键词对应的页面。** 这样,当用户搜索某个关键词的时候,排名程序在倒排索引中定位这个关键词,就可以马上找到所有包含这个关键词的页面。 ## 四、倒排索引优点 ## (1)不需要锁,提升并发能力,避免锁的问题。 (2)数据不变,一直保存在os cache中,只要cache内存足够。 (3)filter cache一直驻留在内存,因为数据不变。 (4)便于数据压缩,可以大幅度提高压缩率,节省cpu和io开销。 (5)在处理复杂的多关键字查询时,可在倒排表中先完成查询的并、交等逻辑运算,得到结果后再对记录进行存取,这样把对文档的查询转换为地址集合的运算,从而提高查找速度。 ## 五、小结 ## 正排索引和倒排索引的区别简单记为: 正排索引:文档 ---> 单词 倒排索引:单词 ---> 文档 倒排索引有着广泛的应用场景,比如: 搜索引擎、大规模数据库索引、文档检索、多媒体检索/信息检索领域等等。 总之,倒排索引在检索领域是很重要的一种索引机制。 **Ending!** 更多课程知识学习记录随后再来吧! 就酱,嘎啦! ![在这里插入图片描述][20200207152559955.png_pic_center] 注: 1、人生在勤,不索何获。 2、正排索引和倒排索引的区别参见博文:https://blog.csdn.net/u011243684/article/details/85264284 [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQzNTQzNzg5_size_16_color_FFFFFF_t_70_pic_center]: /images/20221123/b0b897b33a6f4700839648f5ff489336.png [20200207152559955.png_pic_center]: /images/20221123/bc58627db2e049b8b2a4af04245dd367.png
相关 倒排索引 倒排索引的核心组成:(包含两个部分) 单词词典(Term Dictionary):记录所有文档的单词,记录单词到倒排列表的关联关系 单词词 Myth丶恋晨/ 2023年07月03日 03:21/ 0 赞/ 26 阅读
相关 深入理解正排索引与倒排索引(设计思想和数据结构) 在了解倒排索引之前,我们需要先了解下正排索引 正排索引(foward index): 正排索引也称为"前向索引"。它是创建倒排索引的基础,通过文档到关键字(doc->w た 入场券/ 2023年02月13日 11:54/ 0 赞/ 123 阅读
相关 正排索引和倒排索引理解详解 正排索引和倒排索引理解详解 一、正排索引 二、 倒排索引 三、为什么搜索引擎选用倒排索引? 四、倒排索引优点 古城微笑少年丶/ 2022年12月08日 05:17/ 0 赞/ 183 阅读
相关 正排索引与倒排索引 <table> <tbody> <tr> <td> <p>(1)</p> </td> <td> <p>Java是世界上最好的编程语言</p> </td 女爷i/ 2022年11月03日 10:53/ 0 赞/ 244 阅读
相关 倒排索引 倒排索引是 es 中非常重要的索引结构,是从文档词项到文档 ID 的一个映射过程。 8.1 "正排索引" 我们在关系型数据库中见到的索引,就是“正排索引”。 8.2 灰太狼/ 2022年10月31日 14:59/ 0 赞/ 221 阅读
相关 倒排索引 1.什么是倒排索引 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是 ╰半夏微凉°/ 2022年08月27日 11:42/ 0 赞/ 289 阅读
相关 倒排索引 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根 我不是女神ヾ/ 2022年07月30日 13:25/ 0 赞/ 259 阅读
相关 倒排索引 创建两个文件数据,并上传到hdfs data file edit file file view search data2 abc - 日理万妓/ 2022年06月06日 04:41/ 0 赞/ 347 阅读
相关 倒排索引 1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾 我不是女神ヾ/ 2022年05月22日 06:47/ 0 赞/ 320 阅读
相关 倒排索引 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的... 小灰灰/ 2020年05月01日 19:45/ 0 赞/ 922 阅读
还没有评论,来说两句吧...