一尘不染

当第一列是字符串而其余列是数字时,如何使用numpy.genfromtxt?

python

基本上,我有一堆数据,其中第一列是字符串(标签),其余列是数值。我运行以下命令:

data = numpy.genfromtxt('data.txt', delimiter = ',')

这样可以很好地读取大多数数据,但是label列只是获取“ nan”。我该如何处理?


阅读 146

收藏
2020-12-20

共1个答案

一尘不染

默认情况下,np.genfromtxt使用dtype=float:这就是将字符串列转换为NaN的原因,因为毕竟它们不是数字…

您可以使用以下方法np.genfromtxt来尝试猜测列的实际类型dtype=None

>>> from StringIO import StringIO
>>> test = "a,1,2\nb,3,4"
>>> a = np.genfromtxt(StringIO(test), delimiter=",", dtype=None)
>>> print a
array([('a',1,2),('b',3,4)], dtype=[('f0', '|S1'),('f1', '<i8'),('f2', '<i8')])

您可以使用它们的名称访问列,例如a['f0']

dtype=None如果您不知道列应该是什么,那么使用是一个好技巧。如果您已经知道它们应具有的类型,则可以给出一个明确的dtype。例如,在测试中,我们知道第一列是字符串,第二列是int,我们希望第三列是浮点数。然后,我们将使用

>>> np.genfromtxt(StringIO(test), delimiter=",", dtype=("|S10", int, float))
array([('a', 1, 2.0), ('b', 3, 4.0)], 
      dtype=[('f0', '|S10'), ('f1', '<i8'), ('f2', '<f8')])

建议使用显式dtype方式,比使用显式方式有效得多dtype=None

在这两种情况下(dtype=None或显式,非均质dtype),您最终都会得到结构化数组。

[注意:使用dtype=None,第二次解析输入,并且更新各列的类型以匹配可能的更大类型:首先我们尝试使用bool,然后是int,然后是浮点数,然后是复数,然后保留字符串如果其他所有方法都失败了。实际上,该实现相当笨拙。已经进行了一些尝试来使类型猜测更有效(使用regexp),但到目前为止还没有任何问题]

2020-12-20