Python:将numpy字符串数组转换为数字数组的最快方法

2024-05-03 17:13:53 发布

您现在位置:Python中文网/ 问答频道 /正文

任何人都可以告诉我,将这个字符串数组转换为数字数组的最快方法是什么:

import numpy as np
strarray = np.array([["123456"], ["654321"]])

     to

numberarray = np.array([[1,2,3,4,5,6], [6,5,4,3,2,1]])

将str映射到list,然后将str映射到int对于一个大数组来说太慢了!在

请帮忙!在


Tags: to方法字符串importnumpyasnp数字
2条回答

这里有一种方法,可以将输入字符串转换为N个长度的数字数组,也就是说,每个字符串被转换为长度为N的一维数组,其中N是每个字符串的长度。 这里建议的方法基本上是将字符串转换为它们的int等价物,然后使用与前面元素power-10缩放版本的区别来获得所有数字。实现方式如下-

A = (strarray.astype(int)/(10**np.arange(len(strarray[0][0])))).astype(int)
out = np.column_stack((A[:,-1],(A[:,:-1] - 10*A[:,1:])[:,::-1]))

样本运行-

^{pr2}$

可以使用数组view方法将字符串拆分为单个字符:

In [18]: strarray = np.array([[b"123456"], [b"654321"]])

In [19]: strarray.dtype
Out[19]: dtype('S6')

In [20]: strarray.view('S1')
Out[20]: 
array([['1', '2', '3', '4', '5', '6'],
       ['6', '5', '4', '3', '2', '1']], 
      dtype='|S1')

有关数据类型字符代码,请参见here。在

然后最明显的下一步是使用astype

^{pr2}$

但是,要重新解释单个字节的整数(48)并将其重新解释为整数。这是因为ASCII字符占用一个字节,而'0''9'是二进制的,相当于(u)int8的48到57(检查^{} builtin)。在

速度比较:

In [26]: ar = np.array([[''.join(np.random.choice(list('123456789'), size=320))] for _ in range(1000)], bytes)

In [27]: %timeit _ = ar.view('S1').astype(np.uint8)
1 loops, best of 3: 284 ms per loop

In [28]: %timeit _ = ar.view(np.uint8) - ord('0')
1000 loops, best of 3: 1.07 ms per loop

如果使用Unicode而不是ASCII,则需要执行这些步骤略有不同。或者先用astype(bytes)转换成ASCII。在

相关问题 更多 >