如何根据负载计划资源(我怀疑是Elasticsearch实例):
在负载下,我的意思是每分钟≈500K个事件,每个事件包含8-10个字段。
我应该转动哪些配置旋钮?我是这个堆栈的新手。
每分钟500,000个事件等于每秒8,333个事件,对于一个小型集群(3-5台机器)来说,这应该很容易处理。
问题在于将720M每日文档保留60天(43B文档)。如果10个字段中的每个字段均为32字节,则为13.8TB的磁盘空间(单个副本将近28TB)。
为了进行比较,我最大有5个节点(64GB的RAM,31GB的堆),其中1.2B文档占用了1.2TB的磁盘空间(使用副本则增加了一倍)。该群集无法通过每台计算机仅32GB的RAM来处理负载,但现在对64GB的内存感到满意。这是我们的10天数据。
大致来说,您期望的文件数量是群集的40倍,占用的磁盘空间是磁盘的10倍。
我前面没有确切的数字,但是我们使用doc_values的试验项目为我们节省了90%的堆空间。
如果所有这些数学都成立,并且doc_values这么好,那么就涉及到索引的实际字节而言,您可以使用类似的群集。我将征询有关拥有这么多单独文件的开销的更多信息。
我们已经完成了一些Elasticsearch调整,但是可能还有很多事情要做。
我建议您从少数64GB机器开始。您可以根据需要添加更多。引入几个(较小的)客户端节点作为索引和搜索请求的前端。