一尘不染

Elasticsearch中_source和_all有什么区别

elasticsearch

拥有所有领域的两者之间的区别使我难以理解。

如果我的文件有:

{"mydoc":
  {"properties":
      {"name":{"type":"string","store":"true"}},
      {"number":{"type":"long","store":"false"}},
      {"title":{"type":"string","include_in_all":"false","store":"true"}}

  }
}

我知道这_source是一个包含所有字段的字段。但是_all呢?这是否意味着“名称”被保存了几次(在中_source和两次_all),从而增加了文档占用的磁盘空间?

一次存储的领域,曾经为“名” _source,并一次_all?关于“数字”,什么是它存储在_all,即使没有_source

什么时候应该_source在查询中使用_all

我可以禁用的用例是_all什么,然后将拒绝使用什么功能?


阅读 741

收藏
2020-06-22

共1个答案

一尘不染

它与lucene中的索引字段和存储字段之间的差异几乎相同。

当您要搜索索引字段时,可以在存储要返回的字段作为搜索结果时使用它们。

_source字段用于存储最初发送给elasticsearch的整个源文档。它用作搜索结果,可供检索。您无法搜索。实际上,它是在Lucene中存储的字段,未进行索引。

_all字段用于索引来自文档组成的所有字段的所有内容。您可以搜索它,但永远不要返回它,因为它已被索引但没有存储在lucene中。

没有冗余,这两个字段用于不同的用例,并存储在lucene索引内的不同位置。该_all字段成为我们所谓的倒排索引的一部分,用于为文本建立索引,并能够对其进行全文搜索,而该_source字段只是作为lucene文档的一部分存储。

_source仅当您返回结果时,您才永远不会在查询中使用该字段,因为这是默认情况下Elasticsearch返回的结果。有一些取决于该_source字段的功能,如果禁用该功能则会丢失。其中之一是update
API
。同样,如果禁用它,则需要记住将store:yes要返回的所有字段配置为映射中的所有字段,以作为搜索结果。我宁愿说除非禁用它,否则不要禁用它,因为在很多情况下它确实很有帮助。另一种常见的用例是当您需要重新索引数据时;您可以只从elasticsearch本身检索所有文档,然后将它们重新发送到另一个索引。

另一方面,该_all字段只是默认的“全部捕获”字段,您可以在只想搜索所有可用字段而又不想在查询中全部指定它们时使用。它很方便,但我不会在生产中过分依赖它,最好在不同的字段上运行更复杂的查询,每个字段具有不同的权重。如果您不使用它,则可能要禁用它,与_source我认为禁用它相比,其影响要小一些。

2020-06-22