精选文章

数据挖掘工程师眼中的利器：Python大数据挖掘分析工具，望周知！

2020-04-22 17:56:48　|　来源：中培企业IT培训网

当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。其中Python作为目前最炙手可热的编程语言，将C++斩于马下，跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话，那就真的Out了！

Python（Matrix Laboratory，矩阵实验室）是美国Mathworks公司开发的应用软件，具备强大的科学及工程计算能力，它不但具有以矩阵计算为基础的强大数学计算能力和分析功能，而且还具有丰富的可视化图形表现功能和方便的程序设计能力。python并不提供一个专门的数据挖掘环境，但它提供非常多的相关算法的实现函数，是学习和开发数据挖掘算法的很好选择。

今天我们就来讲述一下Python大数据挖掘分析的工具：

一、Numpy工具

Python并没有提供数组功能。虽然列表可以完成基本的数组功能，但它不是真正的数组，而且在数据量较大时，使用列表的速度就会慢得让人难以接受。为此，Numpy提供了真正的数组功能，以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库，Scipy、Matplotlib、Pandas等库都依赖于它。值得强调的是，Numpy内置函数处理数据的速度是C语言级别的，因此在编写程序的时候，应当尽量使用它们内置的函数，避免出现效率瓶颈的现象（尤其是涉及循环的问题）。

linux安装命令：

pip install numpy pip -i https://pypi.douban.com/simple

二、Scipy工具

Numpy提供了多维数组功能，但它只是一般的数组，并不是矩阵。例如，当两个数组相乘时，只是对应元素相乘，而不是矩阵乘法。Scipy提供了真正的矩阵，以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算，显然，这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。

linux安装命令：

pip install scipy pip -i https://pypi.douban.com/simple

三、MatPlotlib工具

不论是数据挖掘还是数学建模，都免不了数据可视化的问题。对于Python来说，Matplotlib是最著名的绘图库，它主要用于二维绘图，当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab相似但更为丰富的命令，让我们可以非常快捷地用Python可视化数据，而且允许输出达到出版质量的多种图像格式。

linux安装命令：

pip install matplotlib pip -i https://pypi.douban.com/simple

四、Pandas工具

Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具，使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上，它使得以NumPy为中心的应用很容易使用。Pandas的名称来自于面板数据（Panel Data）和Python数据分析（Data Analysis），它最初被作为金融数据分析工具而开发出来，由AQR Capital Management公司于2008年4月开发出来，并于2009年底开源。Pandas的功能非常强大，支持类似于SQL的数据增、删、查、改，并且带有丰富的数据处理函数；支持时间序列分析功能；支持灵活处理缺失数据等。

Pandas基本的数据结构是Series和Data Frame，Series就是序列，类似一维数组；Data Frame则是相当于一张二维的表格，类似二维数组，它的每一列都是一个Series。为了定位Series中的元素，Pandas提供了Index对象，每个Series都会带有一个对应的Index，用来标记不同的元素，Index的内容不一定是数字，也可以是字母、中文等，它类似于SQL中的主键。类似地，Data Frame相当于多个带有同样Index的Series的组合（本质是Series的容器），每个Seiries都带有唯一的表头，用来标识不同的series。

linux安装命令：

pip install pandas pip -i https://pypi.douban.com/simple

pip install xlrd pip -i https://pypi.douban.com/simple # 读取excel

pip install xlwt pip -i https://pypi.douban.com/simple # 写入excel

五、StatsModels工具

pandas着眼于数据的读取、处理和探索，而StatsModels则更加注重数据的统计建模分析，它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互，因此，它与Pandas结合，成为了Python下强大的数据挖掘组合。

linux安装命令：

pip install statsmodels pip -i https://pypi.douban.com/simple

六、Keras工具

Keras库搭建神经网络，是基于Theano的强大的深度学习库，利用它不仅仅可以搭建普通的神经网络，还可以搭建各种深度学习模型，如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的，因此速度也相当快。

Theano也是Python的一个库，用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点，最重要的是它还实现了GPU加速，使得密集型数据的处理速度是CPU的数十倍。

Linux执行keras快于Windows，工作中建议使用Linux执行keras。