性能 | 7f - 柒风博客

Python 性能分析之每行耗时 line_profiler

2020年1月12日作者：7forz
暂无评论
大家都知道，Python 的运算性能不是很强，所以才有了那么多用 C/C++ 来计算的第三方 Python 包，还有各种各样的加速实践。

那么，应该加速哪些代码呢？我之前一般用自带的 cProfile，然而它的输出确实不是太好看，夹杂了非常多无用的信息。

最近才发现了 line_profiler 这个第三方扩展，用起来比 cProfile 直观很多。

安装
```
pip install line-profiler
```
安装需要编译器。如果在 Windows 平台，需要自行先安装 C++ 编译器。如果不想装麻烦的 VC++，可以转而在这里下载别人编译好的 .whl 安装包。在 Linux/Mac 上面就简单很多，编译环境肯定有的。最近发现新版的已经不需要了，Windows 也有了编译好的包，可以直接安装。

使用

在需要 profile 的函数前，加上”@profile”，例如下面的 xxxxxx.py：
```
@profile
def main():
    l = [i for i in range(10000)]
    s = set(l)

    for _ in range(1000):
        if 9876 in l:
            pass
        if 9876 in s:
            pass

if __name__ == '__main__':
    main()
```
这个”@profile”只是一个标记，不是 Python 的语句，所以会导致代码不能直接运行，只能用专门的方法运行（下面有），这不是太方便（目前的版本是这样）。

经过一点使用，了解到 @profile 的用法有一点限制，不可以对 class 打标签，但是可以打在 class 的方法上；子函数也可以用；并且可以同时 profile 多个函数。

然后，运行：
```
kernprof -v -l xxxxxx.py
```
我们就得到了结果：
```
Wrote profile results to xxxxxx.py.lprof
Timer unit: 1e-06 s

Total time: 0.076552 s
File: xxxxxx.py
Function: main at line 2

Line #      Hits         Time  Per Hit   % Time  Line Contents
==============================================================
     2                                           @profile
     3                                           def main():
     4         1        965.0    965.0      1.3      l = [i for i in range(10000)]
     5         1        792.0    792.0      1.0      s = set(l)
     6
     7      1001       1278.0      1.3      1.7      for _ in range(1000):
     8      1000      71133.0     71.1     92.9          if 9876 in l:
     9                                                       pass
    10      1000       1297.0      1.3      1.7          if 9876 in s:
    11      1000       1087.0      1.1      1.4              pass
```
可以发现，第 8 行的地方，无论是每次运行（Per Hit），还是总耗时（% Time），都占用了大量的时间。所以就改为第 10 行的用法，马上快了几十倍。

参考

1. https://github.com/rkern/line_profiler
2. https://github.com/pyutils/line_profiler 这个是新版本
用 Numba 加速你的 Python 代码，性能轻松大提升

2019年9月9日作者：7forz
暂无评论
Numba 简介

Numba 是 Python 的一个 JIT (just-in-time) 编译器，最适用于 NumPy 数组、函数，以及 Python 循环。基本上，用法就是给原来的 Python 函数加一个修饰器，当运行到经 Numba 修饰的函数时，它会被编译为机器码，之后再调用时，就能以机器码的速度来执行了。

按我上手使用的经验来看，Numba 对原代码的改动不是太大，对能加速的部分，加速效果明显；对不支持的加速的 Python 语句/第三方库，可以选择不使用 numba 来规避。这是我选择 Numba 的原因。

首先：应该编译（优化）什么？

由于 Numba 本身的限制（稍后介绍），不能做到对整个程序完全的优化。实际上，也没必要这样做——只需要优化真正耗时间的部分即可。

怎么找到真正耗时间的部分？除了靠直觉，还可以借用工具来分析，例如 Python 自带的 cProfile，还有 line_profiler 等，这里不再细讲。

安装

可以通过 conda 或 pip，一个命令安装：
conda / pip install numba

什么样的代码能加速？

按照官方文档的示例代码，如果代码中含有很多数学运算、使用 NumPy，或者有大量 Python 的 for 循环（这可是 Python 性能大忌），那么 Numba 就能给你很好的效果。尤其是多重 for 循环，可以获得极大的加速。

大家都知道，给一个 np.ndarray 加 1 是很快的（向量化、广播），但是如果 for 遍历这个 array 的元素再每个加 1就会很慢（新手容易犯的小错误）；但是这都没关系，有了 Numba 再 for 遍历元素加 1，和直接用 ndarray 加 1 的耗时是差不多的！

再举个例子，下面这段代码，就能享受到 JIT：
```
from numba import jit
import numpy as np

x = np.arange(100).reshape(10, 10)

@jit(nopython=True)  # 设置为"nopython"模式 有更好的性能
def go_fast(a):  # 第一次调用时会编译
    trace = 0
    for i in range(a.shape[0]):   # Numba likes loops
        trace += np.tanh(a[i, i]) # Numba likes NumPy functions
    return a + trace              # Numba likes NumPy broadcasting

print(go_fast(x))
```
但是，类似下面的代码，Numba 就没什么效果：
```
from numba import jit
import pandas as pd

x = {'a': [1, 2, 3], 'b': [20, 30, 40]}

@jit
def use_pandas(a):  # 这个函数就加速不了
    df = pd.DataFrame.from_dict(a) # Numba 不支持 pd.DataFrame
    df += 1                        # Numba 也不支持这个
    return df.cov()                # 和这个

print(use_pandas(x))
```
总之，Numba 应付不了 pandas。以我的经验，需要先把 DataFrame 转成 np.ndarray，再输入给 Numba。

要强制用 nopython 模式

刚才有效果的代码中，@jit(nopython=True) 这里传入了 nopython 这个参数，而没什么效果的代码中，就没有这个参数。为什么呢？

这是因为，@jit 实际上有两种模式，分为别 nopython 和 object 模式。只有 nopython 模式，才是能真正大幅加速的模式。而 nopython 模式只支持部分的 Python 和 NumPy 函数，如果运行时用到了不支持的函数/方法，程序就会崩掉（例如刚才不能加速的例子如果加上 nopython 就会崩）。如果不强制设定 nopython 模式，编译函数失败时，会回退到 object 模式，程序虽然不会崩，但却偏离了我们给它加速的本意。

我既然用了 Numba，我就希望它能真正地发挥作用。所以选择强制开启 nopython ，如果不能加速，不如让它直接崩溃，我们再作对应修改。
阅读更多…
CPU性能天梯图

2014年3月7日作者：7forz
暂无评论

转自百度AMD吧，顺便也给自己mark一个。点击查看大图。

Python 性能分析之每行耗时 line_profiler

安装

使用

参考

用 Numba 加速你的 Python 代码，性能轻松大提升

Numba 简介

首先：应该编译（优化）什么？

安装

什么样的代码能加速？

要强制用 nopython 模式

CPU性能天梯图

Ad: