基本上,我有一堆数据,其中第一列是字符串(标签),其余列是数值。我运行以下命令:
data = numpy.genfromtxt('data.txt', delimiter = ',')
这样可以很好地读取大多数数据,但是label列只是获取“ nan”。我该如何处理?
默认情况下,np.genfromtxt使用dtype=float:这就是将字符串列转换为NaN的原因,因为毕竟它们不是数字…
np.genfromtxt
dtype=float
您可以使用以下方法np.genfromtxt来尝试猜测列的实际类型dtype=None:
dtype=None
>>> from StringIO import StringIO >>> test = "a,1,2\nb,3,4" >>> a = np.genfromtxt(StringIO(test), delimiter=",", dtype=None) >>> print a array([('a',1,2),('b',3,4)], dtype=[('f0', '|S1'),('f1', '<i8'),('f2', '<i8')])
您可以使用它们的名称访问列,例如a['f0']…
a['f0']
dtype=None如果您不知道列应该是什么,那么使用是一个好技巧。如果您已经知道它们应具有的类型,则可以给出一个明确的dtype。例如,在测试中,我们知道第一列是字符串,第二列是int,我们希望第三列是浮点数。然后,我们将使用
dtype
>>> np.genfromtxt(StringIO(test), delimiter=",", dtype=("|S10", int, float)) array([('a', 1, 2.0), ('b', 3, 4.0)], dtype=[('f0', '|S10'), ('f1', '<i8'), ('f2', '<f8')])
建议使用显式dtype方式,比使用显式方式有效得多dtype=None。
在这两种情况下(dtype=None或显式,非均质dtype),您最终都会得到结构化数组。
[注意:使用dtype=None,第二次解析输入,并且更新各列的类型以匹配可能的更大类型:首先我们尝试使用bool,然后是int,然后是浮点数,然后是复数,然后保留字符串如果其他所有方法都失败了。实际上,该实现相当笨拙。已经进行了一些尝试来使类型猜测更有效(使用regexp),但到目前为止还没有任何问题]