一尘不染

非偏向返回n个随机正数(> = 0)的列表,这样它们的和== total_sum

algorithm

我正在寻找一种算法或一个建议来改进我的代码,以生成其总和等于某个任意数字的随机数列表。在下面的代码中,由于第一个数字往往会更高,因此总是会有偏差。

有没有一种方法可以使数字选择更加有效?

#!/usr/bin/python
'''
  Generate a list of 'numbs' positive random numbers whose sum = 'limit_sum'
'''

import random


def gen_list(numbs, limit_sum):
  my_sum = []
  for index in range(0, numbs):
    if index == numbs - 1:
      my_sum.append(limit_sum - sum(my_sum))
    else:
      my_sum.append(random.uniform(0, limit_sum - sum(my_sum)))

  return my_sum

#test
import pprint
pprint.pprint(gen_list(5, 20))
pprint.pprint(gen_list(10, 200))
pprint.pprint(gen_list(0, 30))
pprint.pprint(gen_list(1, 10))

输出

## output

[0.10845093828525609,
 16.324799712999706,
 0.08200162072303821,
 3.4534885160590041,
 0.031259211932997744]

[133.19609626532952,
 47.464880208741029,
 8.556082341110228,
 5.7817325913462323,
 4.6342577008233716,
 0.22532341156764768,
 0.0027495225618908918,
 0.064738336208217895,
 0.028888697891734455,
 0.045250924420116689]

[]

[10]

阅读 239

收藏
2020-07-28

共1个答案

一尘不染

好吧,假设要求是生成长度为N的随机向量,该向量 均匀地分布 在允许的空间内,我们将解决该问题,具体如下:

给定

  • 所需的长度L
  • 所需的总和S
  • 每个标量值的允许值范围[0,B],

生成长度为N的随机向量V,以使随机变量V在其允许空间内均匀分布。


我们可以通过注意到可以计算V = U * S来简化问题,其中U是具有期望总和1的相似随机向量,并且允许范围[0,b]的范围为b = B / S。值b必须在1
/ N和1之间。


首先考虑N =3。允许值{U}的空间是垂直于矢量[1 1 1]的平面的一部分,该平面穿过点[1/3 1/3
1/3],位于矢量的内部。分量在0到b之间的多维数据集。这组点{U}的形状像六边形。

(TBD:图片。我现在无法生成一个图像,我需要访问MATLAB或另一个可以进行3D绘图的程序。我无法安装Octave。)

最好使用一个向量= [1 1 1] / sqrt(3)的正交加权矩阵W(请参阅我的其他答案)。一种这样的矩阵是

octave-3.2.3:1> A=1/sqrt(3)
   A =  0.57735
octave-3.2.3:2> K=1/sqrt(3)/(sqrt(3)-1)
   K =  0.78868
octave-3.2.3:3> W = [A A A; A 1-K -K; A -K 1-K]
   W =

     0.57735   0.57735   0.57735
     0.57735   0.21132  -0.78868
     0.57735  -0.78868   0.21132

再次是正交的(W * W = I)

如果考虑立方体[0 0 b],[0 bb],[0 b 0],[bb 0],[b 0 0]和[b 0 b]的点,它们形成一个六边形,并且都是a b * sqrt(2/3)与立方体对角线的距离。这些不能满足所讨论的问题,但是在一分钟内很有用。另外两个点[0 0 0]和[bbb]在立方体的对角线上。

正交加权矩阵W允许我们生成在{U}内均匀分布的点,因为正交矩阵是旋转/反射并且不缩放或不倾斜的坐标变换。

我们将生成在W的3个向量定义的坐标系中均匀分布的点。第一个分量是立方体对角线的轴。U分量的总和完全取决于该轴,而不完全取决于其他轴。因此,沿该轴的坐标被强制为1
/ sqrt(3),它对应于点[1 / 3、1 / 3、1 / 3]。

其他两个分量的方向垂直于立方体的对角线。由于距对角线的最大距离为b * sqrt(2/3),因此我们将在-b * sqrt(2/3)和+ b * sqrt(2/3)之间生成均匀分布的数字(u,v)。

这给了我们一个随机变量U’= [1 / sqrt(3)uv]。然后,我们计算U =
U’*W。某些结果点将超出允许范围(U的每个分量必须在0到b之间),在这种情况下,我们将拒绝并重新开始。

换一种说法:

  1. 生成独立的随机变量u和v,它们分别均匀地分布在-b * sqrt(2/3)和+ b * sqrt(3)之间。
  2. 计算向量U’= [1 / sqrt(3)uv]
  3. 计算U = U’* W.
  4. 如果U的任何一个分量不在[0,b]范围内,则拒绝该值并返回步骤1。
  5. 计算V = U *S。

对于更高的尺寸(在与超立方体的主对角线垂直的超平面的一部分内均匀分布的点),解决方案相似:

预先计算等级N的加权矩阵W。

  1. 生成独立的随机变量u 1,u 2,… u N-1,每个均在-b * k(N)和+ b * k(N)之间均匀分布。
  2. 计算向量U’= [1 / N u 1,u 2,… u N-1 ]
  3. 计算U = U’*W。(实际上是构造和乘以W的捷径。)
  4. 如果U的任何一个分量不在[0,b]范围内,则拒绝该值并返回步骤1。
  5. 计算V = U *S。

范围k(N)是N的函数,N表示侧面1的超立方体的顶点与其主对角线之间的最大距离。我不确定通用公式,但对于N = 3是sqrt(2/3),对于N =
5是sqrt(6/5),可能在某个地方有一个公式。

2020-07-28