一尘不染

在numpy数组中内插NaN值

python

有没有一种快速的方法用(例如)线性插值替换numpy数组中的所有NaN值?

例如,

[1 1 1 nan nan 2 2 nan 0]

将被转换成

[1 1 1 1.3 1.6 2 2  1  0]

阅读 186

收藏
2020-12-20

共1个答案

一尘不染

让我们首先定义一个简单的辅助函数,以使其更直接地处理NaN的索引和逻辑索引:

import numpy as np

def nan_helper(y):
    """Helper to handle indices and logical indices of NaNs.

    Input:
        - y, 1d numpy array with possible NaNs
    Output:
        - nans, logical indices of NaNs
        - index, a function, with signature indices= index(logical_indices),
          to convert logical indices of NaNs to 'equivalent' indices
    Example:
        >>> # linear interpolation of NaNs
        >>> nans, x= nan_helper(y)
        >>> y[nans]= np.interp(x(nans), x(~nans), y[~nans])
    """

    return np.isnan(y), lambda z: z.nonzero()[0]

现在nan_helper(.)可以像这样使用:

>>> y= array([1, 1, 1, NaN, NaN, 2, 2, NaN, 0])
>>>
>>> nans, x= nan_helper(y)
>>> y[nans]= np.interp(x(nans), x(~nans), y[~nans])
>>>
>>> print y.round(2)
[ 1.    1.    1.    1.33  1.67  2.    2.    1.    0.  ]

-–
尽管指定一个单独的函数来执行以下操作似乎有点过头了:

>>> nans, x= np.isnan(y), lambda z: z.nonzero()[0]

它最终将支付股息。

因此,每当您处理与NaNs相关的数据时,只需将其所需的所有(新的与NaN相关的新功能)封装在某些特定的辅助函数下即可。您的代码库将更易于理解,因为它遵循易于理解的习惯用法。

实际上,内插法是了解如何完成NaN处理的一个很好的上下文,但是在其他各种上下文中也使用了类似的技术。

2020-12-20