ES–文档相关性-搜云库技术团队

FAQ

1、相关性评分什么时候会变得没有意义？单纯使用 filter 并进行精准匹配的时候吗？

疑惑来源：Elasticsearch: 权威指南 » 基础入门 » 排序与相关性 » 排序。

理解：据解析ElasticSearch/Lucene打分策略这篇文章开头所述：”按照指定的 sort，此时分数是 0，即没有相关性的概念”，猜测当使用 sort 进行排序的时候，ES 将不会对文档进行打分。

2、空间向量模型中的值表示的是每一个词对该文档的权重，还是每一个词对该文档的分数？

疑惑来源：向量空间模型、解析ElasticSearch/Lucene打分策略。

理解：理解为每一个词对该文档的分数好像更合适一点，但在两篇文章的图表中，都表示的是每一个词对该文档的权重。

默认情况下，ES 搜索的返回结果是按照「相关性」进行排序的——最相关的文档排在最前面。因此提出一个问题：ES 为什么提供相关性打分机制？

应用场景

试想一个业务场景：我们可以给用户提供羽毛球、游泳等运动项目的场馆预定。用户在进行场馆搜索时，底层依靠 ES 搜索引擎。用户在输入搜索关键词之后，在 ES 索引中进行关键词匹配，然后将符合关键词的运动场馆展示给用户。业务流程看起来比较简单，但给用户展示最终数据时，需要综合考虑多种因素，如：价格、库存、评分、销量、经纬度等。

如果单纯按场馆距离、价格排序时，排序过于绝对。比如有时会想让库存数量多的场馆排名靠前，同时让评分过低的排名靠后，有时在有多家价格相同的场馆同时显示的情况下，想让距离用户近的场馆显示在前面，这时就可以通过 ES 强大的评分功能来实现。

文档打分的过程

先来看一下 ES 进行文档打分的总体过程：

1、先根据 query 的语法判断是否对 keyword 进行分词；
2、得出 keyword 中包含的 term；
3、根据 term 去索引中找到多个 doc；
4、根据 query 的语法，通过 boolean 模型得到最终的文档集；
5、根据 TF/IDF (BM25) 算法模型计算每个 term 对文档、query 的分值，得出文档、query 在某一维的坐标；
6、根据维度上的坐标画出文档、query 的空间向量；
7、计算文档以及 query 空间向量的夹角余弦值，在计算的过程中加入 boost，得到最终的得分 score。

接下来对上述过程中涉及到的一些术语进行解释。

分词

一个 query 语句会根据 query 的类型进行分词、语法解析拆分，并且按照类似 and 这种逻辑操作符，得出 bool 语句，这样可以先过滤出包含指定 term 的 doc。例如：

"match": {  
    "title": "hello world"
}

“hello world” 会被拆分成 “hello” | “world” | “hello & world” 等 term，并根据 term 和逻辑运算符来进行 doc 的过滤。这一过程是不含任何打分动作的，只是过滤出对应的文档。主要可以减少后续计算所涉及的文档数并为后续打分提供依据。

boolean 模型

布尔模型只是在查询中使用 AND、OR 和 NOT(与、或和非) 这样的条件来查找匹配的文档，比如以下查询：

full AND text AND search AND (elasticsearch OR lucene)

会将所有包括词 full、text 和 search，以及 elasticsearch 或 lucene 的文档作为结果集。这个过程简单且快速，它将所有可能不匹配的文档排除在外。

具体解释请参考：布尔模型。

向量空间模型

一个 keyword 被分词后，可能会产生多个 term。综合 TF/IDF，length norm (字段长度归一值「field 长度越长，给的相关度评分越低；field 长度越短，给的相关度评分越高」) 以及设置的权重能够计算出每个 term 对某个文档的分数，然后 Lucene 再将这多个 term 对一个文档的多个分数进行综合计算，最终将总分数作为这个文档对这个关键词的得分。

对于多个 term 是如何决定一个文档分数的，以及一个 query 是如何等到某个文档得分的，Lucene 采用的是空间向量模型：

空间的维：一个维代表一个 term，某个 term 通过 TF/IDF 以及字段的长度会计算出一个 doc 的分数，那么这个分数就是这个文档在这个维的坐标。所以计算出多个 term 的分值 (term1_score; term2_score; term3_score) 就相当于确定了一个文档在多个维的坐标，也就可以画出他的向量
文档向量 (doc vector)：假设这个文档包含 3 个 term。也就是说这个文档在空间中有三个维度含有此文档的坐标刻度。可以得出文档在空间中的一个向量
索引向量 (query vector)：这个 query 语句同样被当成一个文档来看待，同样可以在空间中找到某个 term 维上的坐标，根据坐标可以构成一个空间向量

query 对 doc 的得分计算：通过计算 doc vector 和 query vector 的夹角余弦值作为最终的分数。夹角越大，分数越小; 夹角越小，分数越大。

注意：博主对文档向量以及索引向量中的值所代表的含义尚有疑惑，这里暂时以词对文档的分数进行定义，正确性还有待研究。

总结

1、 sort 无法满足复杂场景下对结果集的排序；
2、 TF/IDF 算法的结果为 TF 与 IDF 的乘积；
3、理解文档打分的过程，理解向量空间模型。

参考阅读

1、 Elasticsearch系列五：搜索相关性排序算法详解
2、从零搭建 ES 搜索服务（六）相关性排序优化
3、机器学习：生动理解TF-IDF算法
4、解析ElasticSearch/Lucene打分策略
5、 Elasticsearch: 权威指南 » 深入搜索 » 控制相关度 » 相关度评分背后的理论

文章永久链接：https://tech.souyunku.com/40907

ES--文档相关性

FAQ

应用场景

相关性算法

TF/IDF 评分算法

词频 (Term frequency)

逆向文档频率 (Inverse document frequency)

TF/IDF 算法举例

OKapi BM25 算法原理

文档打分的过程

分词

boolean 模型

向量空间模型

总结

参考阅读

相关推荐

JetBrains 全家桶，激活、破解、教程