一尘不染

numpy:有效地与索引数组求和

python

假设我有2个矩阵M和N(都具有> 1列)。我也有一个包含2列的索引矩阵I-
M代表1列,N代表1列。N的索引是唯一的,但是M的索引可能会出现多次。我要执行的操作是

for i,j in w:
  M[i] += N[j]

除了for循环以外,还有其他更有效的方法吗?


阅读 158

收藏
2020-12-20

共1个答案

一尘不染

为了完整起见,在numpy> = 1.8中,您还可以使用np.addat方法:

In [8]: m, n = np.random.rand(2, 10)

In [9]: m_idx, n_idx = np.random.randint(10, size=(2, 20))

In [10]: m0 = m.copy()

In [11]: np.add.at(m, m_idx, n[n_idx])

In [13]: m0 += np.bincount(m_idx, weights=n[n_idx], minlength=len(m))

In [14]: np.allclose(m, m0)
Out[14]: True

In [15]: %timeit np.add.at(m, m_idx, n[n_idx])
100000 loops, best of 3: 9.49 us per loop

In [16]: %timeit np.bincount(m_idx, weights=n[n_idx], minlength=len(m))
1000000 loops, best of 3: 1.54 us per loop

除了明显的性能劣势外,它还有两个优点:

  1. np.bincount将其权重转换为双精度浮点数,.at将与数组的本机类型一起使用。这使其成为处理例如复数的最简单选择。
  2. np.bincount仅将权重加在一起,您就有了at一种用于所有ufunc的方法,因此您可以重复multiply,或logical_and或任何您喜欢的方式。

但是对于您的用例,np.bincount可能是要走的路。

2020-12-20