Numpy笔记
基础知识
NumPy的主要对象是同构多维数组。它是一个元素表(通常是数字),所有类型都相同,由非负整数元组索引。在NumPy维度中称为 轴 。
例如,3D空间中的点的坐标[1, 2, 1]
具有一个轴。该轴有3个元素,所以我们说它的长度为3.在下图所示的例子中,数组有2个轴。第一轴的长度为2,第二轴的长度为3。
1 | [[ 1., 0., 0.], |
NumPy的数组类被调用ndarray
。它也被别名所知 array
。请注意,numpy.array
这与标准Python库类不同array.array
,后者只处理一维数组并提供较少的功能。ndarray
对象更重要的属性是:
- ndarray.ndim - 数组的轴(维度)的个数。在Python世界中,维度的数量被称为rank。
- ndarray.shape - 数组的维度。这是一个整数的元组,表示每个维度中数组的大小。对于有 n 行和 m 列的矩阵,
shape
将是(n,m)
。因此,shape
元组的长度就是rank或维度的个数ndim
。 - ndarray.size - 数组元素的总数。这等于
shape
的元素的乘积。 - ndarray.dtype - 一个描述数组中元素类型的对象。可以使用标准的Python类型创建或指定dtype。另外NumPy提供它自己的类型。例如numpy.int32、numpy.int16和numpy.float64。
- ndarray.itemsize - 数组中每个元素的字节大小。例如,元素为
float64
类型的数组的itemsize
为8(=64/8),而complex32
类型的数组的itemsize
为4(=32/8)。它等于ndarray.dtype.itemsize
。 - ndarray.data - 该缓冲区包含数组的实际元素。通常,我们不需要使用此属性,因为我们将使用索引访问数组中的元素。
#一个例子
1 | import numpy as np |
#数组创建
有几种方法可以创建数组。
例如,你可以使用array函数从常规Python列表或元组中创建数组。得到的数组的类型是从Python列表中元素的类型推导出来的。
1 | import numpy as np |
一个常见的错误,就是调用array
的时候传入多个数字参数,而不是提供单个数字的列表类型作为参数。
1 | 1,2,3,4) # WRONG a = np.array( |
array
还可以将序列的序列转换成二维数组,将序列的序列的序列转换成三维数组,等等。
1 | 1.5,2,3), (4,5,6)]) b = np.array([( |
也可以在创建时显式指定数组的类型:
1 | 1,2], [3,4] ], dtype=complex ) c = np.array( [ [ |
通常,数组的元素最初是未知的,但它的大小是已知的。因此,NumPy提供了几个函数来创建具有初始占位符内容的数组。这就减少了数组增长的必要,因为数组增长的操作花费很大。
函数zeros
创建一个由0组成的数组,函数 ones
创建一个完整的数组,函数empty
创建一个数组,其初始内容是随机的,取决于内存的状态。默认情况下,创建的数组的dtype是 float64
类型的。
1 | 3,4) ) np.zeros( ( |
为了创建数字组成的数组,NumPy提供了一个类似于range
的函数,该函数返回数组而不是列表。
1 | 10, 30, 5 ) np.arange( |
当arange
与浮点参数一起使用时,由于有限的浮点精度,通常不可能预测所获得的元素的数量。出于这个原因,通常最好使用linspace
函数来接收我们想要的元素数量的函数,而不是步长(step):
1 | from numpy import pi |
另见这些API
array
open in new window, zeros
open in new window, zeros_like
open in new window, ones
open in new window, ones_like
open in new window, empty
open in new window, empty_like
open in new window, arange
open in new window, linspace
open in new window, numpy.random.mtrand.RandomState.rand
open in new window, numpy.random.mtrand.RandomState.randn
open in new window, fromfunction
open in new window, fromfile
open in new window
#打印数组
当您打印数组时,NumPy以与嵌套列表类似的方式显示它,但具有以下布局:
- 最后一个轴从左到右打印,
- 倒数第二个从上到下打印,
- 其余部分也从上到下打印,每个切片用空行分隔。
然后将一维数组打印为行,将二维数据打印为矩阵,将三维数据打印为矩数组表。
1 | 6) # 1d array a = np.arange( |
有关 reshape
的详情,请参阅下文。
如果数组太大而无法打印,NumPy会自动跳过数组的中心部分并仅打印角点:
1 | print(np.arange(10000)) |
要禁用此行为并强制NumPy打印整个数组,可以使用更改打印选项set_printoptions
。
1 | # sys module should be imported np.set_printoptions(threshold=sys.maxsize) |
#基本操作
数组上的算术运算符会应用到 元素 级别。下面是创建一个新数组并填充结果的示例:
1 | 20,30,40,50] ) a = np.array( [ |
与许多矩阵语言不同,乘积运算符*
在NumPy数组中按元素进行运算。矩阵乘积可以使用@
运算符(在python> = 3.5中)或dot
函数或方法执行:
1 | 1,1], A = np.array( [[ |
某些操作(例如+=
和 *=
)会更直接更改被操作的矩阵数组而不会创建新矩阵数组。
1 | 2,3), dtype=int) a = np.ones(( |
当使用不同类型的数组进行操作时,结果数组的类型对应于更一般或更精确的数组(称为向上转换的行为)。
1 | 3, dtype=np.int32) a = np.ones( |
许多一元操作,例如计算数组中所有元素的总和,都是作为ndarray
类的方法实现的。
1 | 2,3)) a = np.random.random(( |
默认情况下,这些操作适用于数组,就像它是一个数字列表一样,无论其形状如何。但是,通过指定axis
参数,您可以沿数组的指定轴应用操作:
1 | 12).reshape(3,4) b = np.arange( |
#通函数
NumPy提供熟悉的数学函数,例如sin,cos和exp。在NumPy中,这些被称为“通函数”(ufunc
)。在NumPy中,这些函数在数组上按元素进行运算,产生一个数组作为输出。
1 | 3) B = np.arange( |
另见这些通函数
all
open in new window, any
open in new window, apply_along_axis
open in new window, argmax
open in new window, argmin
open in new window, argsort
open in new window, average
open in new window, bincount
open in new window, ceil
open in new window, clip
open in new window, conj
open in new window, corrcoef
open in new window, cov
open in new window, cross
open in new window, cumprod
open in new window, cumsum
open in new window, diff
open in new window, dot
open in new window, floor
open in new window, inner
open in new window, INV , lexsort
open in new window, max
open in new window, maximum
open in new window, mean
open in new window, median
open in new window, min
open in new window, minimum
open in new window, nonzero
open in new window, outer
open in new window, prod
open in new window, re
open in new window, round
open in new window, sort
open in new window, std
open in new window, sum
open in new window, trace
open in new window, transpose
open in new window, var
open in new window, vdot
open in new window, vectorize
open in new window, where
open in new window
#索引、切片和迭代
一维的数组可以进行索引、切片和迭代操作的,就像 列表open in new window 和其他Python序列类型一样。
1 | 10)**3 a = np.arange( |
多维的数组每个轴可以有一个索引。这些索引以逗号分隔的元组给出:
1 | def f(x,y): |
当提供的索引少于轴的数量时,缺失的索引被认为是完整的切片:
1 | 1] # the last row. Equivalent to b[-1,:] b[- |
b[i]
方括号中的表达式 i
被视为后面紧跟着 :
的多个实例,用于表示剩余轴。NumPy也允许你使用三个点写为 b[i,...]
。
三个点( ...
)表示产生完整索引元组所需的冒号。例如,如果 x
是rank为5的数组(即,它具有5个轴),则:
x[1,2,...]
相当于x[1,2,:,:,:]
,x[...,3]
等效于x[:,:,:,:,3]
x[4,...,5,:]
等效于x[4,:,:,5,:]
。
1 | 0, 1, 2], # a 3D array (two stacked 2D arrays) c = np.array( [[[ |
对多维数组进行 迭代(Iterating) 是相对于第一个轴完成的:
1 | for row in b: |
但是,如果想要对数组中的每个元素执行操作,可以使用flat
属性,该属性是数组的所有元素的迭代器open in new window:
1 | for element in b.flat: |
另见
Indexing, Indexingopen in new window (reference), newaxis
open in new window, ndenumerate
open in new window, indices
open in new window
#形状操纵
#改变数组的形状
一个数组的形状是由每个轴的元素数量决定的:
1 | 10*np.random.random((3,4))) a = np.floor( |
可以使用各种命令更改数组的形状。请注意,以下三个命令都返回一个修改后的数组,但不会更改原始数组:
1 | # returns the array, flattened a.ravel() |
由 ravel() 产生的数组中元素的顺序通常是“C风格”,也就是说,最右边的索引“变化最快”,因此[0,0]之后的元素是[0,1] 。如果将数组重新整形为其他形状,则该数组将被视为“C风格”。NumPy通常创建按此顺序存储的数组,因此 ravel() 通常不需要复制其参数,但如果数组是通过获取另一个数组的切片或使用不常见的选项创建的,则可能需要复制它。还可以使用可选参数指示函数 ravel() 和 reshape(),以使用FORTRAN样式的数组,其中最左边的索引变化最快。
该reshape
open in new window函数返回带有修改形状的参数,而该 ndarray.resize
open in new window方法会修改数组本身:
1 | a |
如果在 reshape 操作中将 size 指定为-1,则会自动计算其他的 size 大小:
1 | 3,-1) a.reshape( |
另见
ndarray.shape
open in new window, reshape
open in new window, resize
open in new window, ravel
open in new window
#将不同数组堆叠在一起
几个数组可以沿不同的轴堆叠在一起,例如:
1 | 10*np.random.random((2,2))) a = np.floor( |
该函数将column_stack
open in new window 1D数组作为列堆叠到2D数组中。它仅相当于 hstack
open in new window2D数组:
1 | from numpy import newaxis |
另一方面,该函数ma.row_stack
open in new window等效vstack
open in new window 于任何输入数组。通常,对于具有两个以上维度的数组, hstack
open in new window沿其第二轴vstack
open in new window堆叠,沿其第一轴堆叠,并concatenate
open in new window 允许可选参数给出连接应发生的轴的编号。
注意
在复杂的情况下,r_
open in new window和c c_
open in new window于通过沿一个轴堆叠数字来创建数组很有用。它们允许使用范围操作符(“:”)。
1 | 1:4,0,4] np.r_[ |
与数组一起用作参数时, r_
open in new window 和 c_
open in new window 在默认行为上类似于 vstack
open in new window 和 hstack
open in new window ,但允许使用可选参数给出要连接的轴的编号。
另见
hstack
open in new window, vstack
open in new window, column_stack
open in new window, concatenate
open in new window, c_
open in new window, r_
open in new window
#将一个数组拆分成几个较小的数组
使用hsplit
open in new window,可以沿数组的水平轴拆分数组,方法是指定要返回的形状相等的数组的数量,或者指定应该在其之后进行分割的列:
1 | 10*np.random.random((2,12))) a = np.floor( |
vsplit
open in new window沿垂直轴分割,并array_split
open in new window允许指定要分割的轴。
#拷贝和视图
当计算和操作数组时,有时会将数据复制到新数组中,有时则不会。这通常是初学者混淆的根源。有三种情况:
#完全不复制
简单分配不会复制数组对象或其数据。
1 | 12) a = np.arange( |
Python将可变对象作为引用传递,因此函数调用不会复制。
1 | def f(x): |
#视图或浅拷贝
不同的数组对象可以共享相同的数据。该view
方法创建一个查看相同数据的新数组对象。
1 | c = a.view() |
切片数组会返回一个视图:
1 | 1:3] # spaces added for clarity; could also be written "s = a[:,1:3]" s = a[ : , |
#深拷贝
该copy
方法生成数组及其数据的完整副本。
1 | # a new array object with new data is created d = a.copy() |
有时,如果不再需要原始数组,则应在切片后调用 copy
。例如,假设a是一个巨大的中间结果,最终结果b只包含a的一小部分,那么在用切片构造b时应该做一个深拷贝:
1 | int(1e8)) a = np.arange( |
如果改为使用 b = a[:100]
,则 a
由 b
引用,并且即使执行 del a
也会在内存中持久存在。
#功能和方法概述
以下是按类别排序的一些有用的NumPy函数和方法名称的列表。有关完整列表,请参阅参考手册里的常用API。
- 数组的创建(Array Creation) - arangeopen in new window, arrayopen in new window, copyopen in new window, emptyopen in new window, empty_likeopen in new window, eyeopen in new window, fromfileopen in new window, fromfunctionopen in new window, identityopen in new window, linspaceopen in new window, logspaceopen in new window, mgridopen in new window, ogridopen in new window, onesopen in new window, ones_likeopen in new window, zerosopen in new window, zeros_likeopen in new window
- 转换和变换(Conversions) - ndarray.astypeopen in new window, atleast_1dopen in new window, atleast_2dopen in new window, atleast_3dopen in new window, matopen in new window
- 操纵术(Manipulations) - array_splitopen in new window, column_stackopen in new window, concatenateopen in new window, diagonalopen in new window, dsplitopen in new window, dstackopen in new window, hsplitopen in new window, hstackopen in new window, ndarray.itemopen in new window, newaxis, ravelopen in new window, repeatopen in new window, reshapeopen in new window, resizeopen in new window, squeezeopen in new window, swapaxesopen in new window, takeopen in new window, transposeopen in new window, vsplitopen in new window, vstackopen in new window
- 询问(Questions) - allopen in new window, anyopen in new window, nonzeroopen in new window, whereopen in new window,
- 顺序(Ordering) - argmaxopen in new window, argminopen in new window, argsortopen in new window, maxopen in new window, minopen in new window, ptpopen in new window, searchsortedopen in new window, sortopen in new window
- 操作(Operations) - chooseopen in new window, compressopen in new window, cumprodopen in new window, cumsumopen in new window, inneropen in new window, ndarray.fillopen in new window, imagopen in new window, prodopen in new window, putopen in new window, putmaskopen in new window, realopen in new window, sumopen in new window
- 基本统计(Basic Statistics) - covopen in new window, meanopen in new window, stdopen in new window, varopen in new window
- 基本线性代数(Basic Linear Algebra) - crossopen in new window, dotopen in new window, outeropen in new window, linalg.svdopen in new window, vdotopen in new window
#Less 基础
#广播(Broadcasting)规则
广播允许通用功能以有意义的方式处理不具有完全相同形状的输入。
广播的第一个规则是,如果所有输入数组不具有相同数量的维度,则将“1”重复地预先添加到较小数组的形状,直到所有数组具有相同数量的维度。
广播的第二个规则确保沿特定维度的大小为1的数组表现为具有沿该维度具有最大形状的数组的大小。假定数组元素的值沿着“广播”数组的那个维度是相同的。
应用广播规则后,所有数组的大小必须匹配。更多细节可以在广播中找到。
#花式索引和索引技巧
NumPy提供比常规Python序列更多的索引功能。除了通过整数和切片进行索引之外,正如我们之前看到的,数组可以由整数数组和布尔数组索引。
#使用索引数组进行索引
1 | 12)**2 # the first 12 square numbers a = np.arange( |
当索引数组a
是多维的时,单个索引数组指的是第一个维度a
。以下示例通过使用调色板将标签图像转换为彩色图像来显示此行为。
1 | 0,0,0], # black palette = np.array( [ [ |
我们还可以为多个维度提供索引。每个维度的索引数组必须具有相同的形状。
1 | 12).reshape(3,4) a = np.arange( |
当然,我们可以按顺序(比如列表)放入i
,j
然后使用列表进行索引。
1 | l = [i,j] |
但是,我们不能通过放入i
和j
放入数组来实现这一点,因为这个数组将被解释为索引a的第一个维度。
1 | s = np.array( [i,j] ) |
使用数组索引的另一个常见用法是搜索与时间相关的系列的最大值:
1 | 20, 145, 5) # time scale time = np.linspace( |
您还可以使用数组索引作为分配给的目标:
1 | 5) a = np.arange( |
但是,当索引列表包含重复时,分配会多次完成,留下最后一个值:
1 | 5) a = np.arange( |
这是合理的,但请注意是否要使用Python的 +=
构造,因为它可能不会按预期执行:
1 | 5) a = np.arange( |
即使0在索引列表中出现两次,第0个元素也只增加一次。这是因为Python要求“a + = 1”等同于“a = a + 1”。
#使用布尔数组进行索引
当我们使用(整数)索引数组索引数组时,我们提供了要选择的索引列表。使用布尔索引,方法是不同的; 我们明确地选择我们想要的数组中的哪些项目以及我们不需要的项目。
人们可以想到的最自然的布尔索引方法是使用与原始数组具有 相同形状的 布尔数组:
1 | 12).reshape(3,4) a = np.arange( |
此属性在分配中非常有用:
1 | 0 # All elements of 'a' higher than 4 become 0 a[b] = |
您可以查看以下示例,了解如何使用布尔索引生成Mandelbrot集open in new window的图像:
1 | import numpy as np |
使用布尔值进行索引的第二种方法更类似于整数索引; 对于数组的每个维度,我们给出一个1D布尔数组,选择我们想要的切片:
1 | 12).reshape(3,4) a = np.arange( |
请注意,1D布尔数组的长度必须与要切片的尺寸(或轴)的长度一致。在前面的例子中,b1
具有长度为3(的数目 的行 中a
),和 b2
(长度4)适合于索引的第二轴线(列) a
。
#ix_()函数
ix_
open in new window函数可用于组合不同的向量,以便获得每个n-uplet的结果。例如,如果要计算从每个向量a,b和c中取得的所有三元组的所有a + b * c:
1 | 2,3,4,5]) a = np.array([ |
您还可以按如下方式实现reduce:
1 | def ufunc_reduce(ufct, *vectors): |
然后将其用作:
1 | ufunc_reduce(np.add,a,b,c) |
与普通的ufunc.reduce相比,这个版本的reduce的优点是它利用了广播规则 ,以避免创建一个参数数组,输出的大小乘以向量的数量。
#使用字符串建立索引
请参见结构化数组。
#线性代数
工作正在进行中。这里包括基本线性代数。
#简单数组操作
有关更多信息,请参阅numpy文件夹中的linalg.py.
1 | import numpy as np |
#技巧和提示
这里我们列出一些简短有用的提示。
#“自动”整形
要更改数组的尺寸,您可以省略其中一个尺寸,然后自动推导出尺寸:
1 | 30) a = np.arange( |
#矢量堆叠
我们如何从同等大小的行向量列表中构造一个二维数组?在MATLAB这是很简单:如果x
和y
你只需要做两个相同长度的向量m=[x;y]
。在此NumPy的通过功能的工作原理column_stack
,dstack
,hstack
和vstack
,视维在堆叠是必须要做的。例如:
1 | x = np.arange(0,10,2) # x=([0,2,4,6,8]) |
这些函数背后的逻辑在两个以上的维度上可能很奇怪。
另见
#直方图
histogram
应用于数组的NumPy 函数返回一对向量:数组的直方图和bin的向量。注意: matplotlib
还有一个构建直方图的功能(hist
在Matlab中称为),与NumPy中的直方图不同。主要区别在于pylab.hist
自动绘制直方图,而 numpy.histogram
只生成数据。
1 | import numpy as np |
1 | # Compute the histogram with numpy and then plot it |