扬中网站建设门户报价,合肥网站建设托管,自适应h5网站模板,变性 wordpress(给机器学习算法与Python学习加星标#xff0c;提升AI技能)选自towardsdatascience#xff0c;作者#xff1a;Martin Heinz本文转自机器之心(nearhuman2014)本文将介绍如何提升 Python 程序的效率#xff0c;让它们运行飞快#xff01;计时与性能分析在开始优化之前… (给机器学习算法与Python学习加星标提升AI技能)选自towardsdatascience作者Martin Heinz本文转自机器之心(nearhuman2014)本文将介绍如何提升 Python 程序的效率让它们运行飞快计时与性能分析在开始优化之前我们首先需要找到代码的哪一部分真正拖慢了整个程序。有时程序性能的瓶颈显而易见但当你不知道瓶颈在何处时这里有一些帮助找到性能瓶颈的办法注下列程序用作演示目的该程序计算 e 的 X 次方(摘自 Python 文档)# slow_program.pyfrom decimal import *def exp(x): getcontext().prec 2 i, lasts, s, fact, num 0, 0, 1, 1, 1 while s ! lasts: lasts s i 1 fact * i num * x s num / fact getcontext().prec - 2 return sexp(Decimal(150))exp(Decimal(400))exp(Decimal(3000))最懒惰的「性能分析」首先最简单但说实话也很懒的方法——使用 Unix 的 time 命令~ $ time python3.8 slow_program.pyreal 0m11,058suser 0m11,050ssys 0m0,008s如果你只想给整个程序计时这个命令即可完成目的但通常是不够的……最细致的性能分析另一个极端是 cProfile它提供了「太多」的信息~ $ python3.8 -m cProfile -s time slow_program.py 1297 function calls (1272 primitive calls) in 11.081 seconds Ordered by: internal time ncalls tottime percall cumtime percall filename:lineno(function) 3 11.079 3.693 11.079 3.693 slow_program.py:4(exp) 1 0.000 0.000 0.002 0.002 {built-in method _imp.create_dynamic} 4/1 0.000 0.000 11.081 11.081 {built-in method builtins.exec} 6 0.000 0.000 0.000 0.000 {built-in method __new__ of type object at 0x9d12c0} 6 0.000 0.000 0.000 0.000 abc.py:132(__new__) 23 0.000 0.000 0.000 0.000 _weakrefset.py:36(__init__) 245 0.000 0.000 0.000 0.000 {built-in method builtins.getattr} 2 0.000 0.000 0.000 0.000 {built-in method marshal.loads} 10 0.000 0.000 0.000 0.000 :1233(find_spec)8/4 0.000 0.000 0.000 0.000 abc.py:196(__subclasscheck__)15 0.000 0.000 0.000 0.000 {built-in method posix.stat}6 0.000 0.000 0.000 0.000 {built-in method builtins.__build_class__}1 0.000 0.000 0.000 0.000 __init__.py:357(namedtuple)48 0.000 0.000 0.000 0.000 :57(_path_join)48 0.000 0.000 0.000 0.000 :59()1 0.000 0.000 11.081 11.081 slow_program.py:1()...这里我们结合 cProfile 模块和 time 参数运行测试脚本使输出行按照内部时间(cumtime)排序。这给我们提供了大量信息上面你看到的行只是实际输出的 10%。从输出结果我们可以看到 exp 函数是罪魁祸首(惊不惊喜意不意外)现在我们可以更加专注于计时和性能分析了……计时专用函数现在我们知道了需要关注哪里那么我们可能只想要给运行缓慢的函数计时而不去管代码的其他部分。我们可以使用一个简单的装饰器来做到这点def timeit_wrapper(func): wraps(func) def wrapper(*args, **kwargs): start time.perf_counter() # Alternatively, you can use time.process_time() func_return_val func(*args, **kwargs) end time.perf_counter() print({0:10}.{1:8} : {2:8}.format(func.__module__, func.__name__, end - start)) return func_return_val return wrapper接着将该装饰器按如下方式应用在待测函数上timeit_wrapperdef exp(x): ...print({0:10} {1:8} {2:^8}.format(module, function, time))exp(Decimal(150))exp(Decimal(400))exp(Decimal(3000))得到如下输出~ $ python3.8 slow_program.pymodule function time __main__ .exp : 0.003267502994276583__main__ .exp : 0.038535295985639095__main__ .exp : 11.728486061969306此时我们需要考虑想要测量哪一类时间。time 库提供了 time.perf_counter 和 time.process_time 两种时间。其区别在于perf_counter 返回绝对值其中包括了 Python 程序并不在运行的时间因此它可能受到机器负载的影响。而 process_time 只返回用户时间(除去了系统时间)也就是只有进程运行时间。让程序更快现在到了真正有趣的部分了让 Python 程序跑得更快我不会告诉你一些奇技淫巧或代码段来神奇地解决程序的性能问题而更多是关于通用的想法和策略。使用这些策略可以对程序性能产生巨大的影响有时甚至可以带来高达 30% 的提速。使用内置的数据类型这一点非常明显。内置的数据类型非常快尤其相比于树或链表等自定义类型而言。这主要是因为内置数据类型使用 C 语言实现使用 Python 实现的代码在运行速度上和它们没法比。使用 lru_cache 实现缓存/记忆我在之前的博客中介绍过这一技巧但我认为它值得用一个简单例子再次进行说明import functoolsimport time# caching up to 12 different resultsfunctools.lru_cache(maxsize12)def slow_func(x): time.sleep(2) # Simulate long computation return xslow_func(1) # ... waiting for 2 sec before getting resultslow_func(1) # already cached - result returned instantaneously!slow_func(3) # ... waiting for 2 sec before getting result上面的函数使用 time.sleep 模拟了繁重的计算过程。当我们第一次使用参数 1 调用函数时它等待了 2 秒钟后返回了结果。当再次调用时结果已经被缓存起来所以它跳过了函数体直接返回结果。使用局部变量这和每个作用域中变量的查找速度有关。我之所以说「每个作用域」是因为这不仅仅关乎局部变量或全局变量。事实上就连函数中的局部变量、类级别的属性和全局导入函数这三者的查找速度都会有区别。函数中的局部变量最快类级别属性(如 self.name)慢一些全局导入函数(如 time.time)最慢。你可以通过这种看似没有必要的代码组织方式来提高效率# Example #1class FastClass: def do_stuff(self): temp self.value # this speeds up lookup in loop for i in range(10000): ... # Do something with temp here# Example #2import randomdef fast_function(): r random.random for i in range(10000): print(r()) # calling r() here, is faster than global random.random()使用函数这也许有些反直觉因为调用函数会让更多的东西入栈进而在函数返回时为程序带来负担但这其实和之前的策略相关。如果你只是把所有代码扔进一个文件而没有把它们放进函数那么它会因为众多的全局变量而变慢。因此你可以通过将所有代码封装在 main 函数中并调用它来实现加速如下所示def main(): ... # All your previously global codemain()不要访问属性另一个可能让程序变慢的东西是用来访问对象属性的点运算符(.)。这个运算符会引起程序使用__getattribute__进行字典查找进而为程序带来不必要的开销。那么我们怎么避免(或者限制)使用它呢# Slow:import redef slow_func(): for i in range(10000): re.findall(regex, line) # Slow!# Fast:from re import findalldef fast_func(): for i in range(10000): findall(regex, line) # Faster!当心字符串当在循环中使用取模运算符(%s)或 .format() 时字符串操作会变得很慢。有没有更好的选择呢根据 Raymond Hettinger 近期发布的推文我们只需要使用 f-string 即可它可读性更强代码更加紧凑并且速度更快基于这一观点如下从快到慢列出了你可以使用的一系列方法f{s} {t} # Fast!s t .join((s, t))%s %s % (s, t) {} {}.format(s, t)Template($s $t).substitute(ss, tt) # Slow!生成器本质上并不会更快因为它们的目的是惰性计算以节省内存而非节省时间。然而节省的内存会让程序运行更快。为什么呢如果你有一个大型数据集并且你没有使用生成器(迭代器)那么数据可能造成 CPU 的 L1 缓存溢出进而导致访存速度显著变慢。当涉及到效率时非常重要的一点是 CPU 会将它正在处理的数据保存得离自己越近越好也就是保存在缓存中。读者可以看一看 Raymond Hettingers 的演讲(https://www.youtube.com/watch?vOSGv2VnC0got8m17s)其中提到了这些问题。总结优化的第一要义就是「不要去做」。但如果你必须要做我希望这些小技巧可以帮助到你。然而优化代码时一定要谨慎因为该操作可能最终造成代码可读性变差、可维护性变差这些弊端可能超过代码优化所带来的好处。参考链接https://towardsdatascience.com/making-python-programs-blazingly-fast-c1cd79bd1b32本文为机器之心编译转载请联系本公众号获得授权。推荐阅读惊呆了这样可以将Numpy加速700倍神经网络训不好看看这37个坑InfoSpider | 这个开源爬虫工具箱一不小心火了从AlexNet到BERT深度学习中那些最重要idea的最简单回顾