添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
备案 控制台
学习
实践
活动
专区
工具
TVP
写文章
专栏首页 Python大数据分析 Python中最简单易用的并行加速技巧
3 0

海报分享

Python中最简单易用的并行加速技巧

❝本文示例代码及文件已上传至我的 Github 仓库https://github.com/CNFeffery/DataScienceStudyNotes❞

1 简介

我们在日常使用 Python 进行各种数据计算处理任务时,若想要获得明显的计算加速效果,最简单明了的方式就是想办法将默认运行在单个进程上的任务,扩展到使用多进程或多线程的方式执行。

而对于我们这些从事数据分析工作的人员而言,以最简单的方式实现等价的加速运算的效果尤为重要,从而避免将时间过多花费在编写程序上。而今天的文章费老师我就来带大家学习如何利用 joblib 这个非常简单易用的库中的相关功能,来快速实现并行计算加速效果。

2 使用joblib进行并行计算

作为一个被广泛使用的第三方 Python 库(譬如 scikit-learn 项框架中就大量使用 joblib 进行众多机器学习算法的并行加速),我们可以使用 pip install joblib 对其进行安装,安装完成后,下面我们来学习一下 joblib 中有关并行运算的常用方法:

2.1 使用Parallel与delayed进行并行加速

joblib 中实现并行计算只需要使用到其 Parallel delayed 方法即可,使用起来非常简单方便,下面我们直接以一个小例子来演示:

joblib 实现并行运算的思想是将一组通过循环产生的串行计算子任务,以多进程或多线程的方式进行调度,而我们针对自定义的运算任务需要做的仅仅是将它们封装为函数的形式即可,譬如:

import time