有谁知道一种用于基于星型模式数据仓库获取OLAP多维数据集的粗略大小的方法。基于维数,维表中的记录数和事实记录数,最后是聚合或不同记录数等的信息。
我正在查看的数据库有一个超过200亿行的事实表和一些2000万,7000万和13亿行的维表。
谢谢尼古拉斯
我可以看到创建此估算值的一些障碍。单独了解维度表的行数和基数并不比它们之间的关系重要。
想象一下两个低基数维分别具有n和的m唯一值。在这些维度上缓存OLAP聚合会在各个n + m值之间产生n * m不同的值,具体取决于该关系与纯双射相似的程度。仅给出您提供的信息,您只能说您得到的结果少于3.64 * 10^34值,这不是很有用。
n
m
n + m
n * m
3.64 * 10^34
我很悲观,有一种算法足够快,以至于在完成后生成多维数据集并权衡它就没有多大意义了。