当今常用的数据挖掘建模工具包括SAS Enterprise Miner、IBM SPSS Modeler、SQL Server(Analysis Server)、Python、WEKA、KNIME、RapidMiner和TipDM。其中Python作为目前最炙手可热的编程语言,将C++斩于马下,跃居世界编程语言排行榜第三名。数据挖掘工程师如果连Python数据挖掘的工具及使用都不清楚的话,那就真的Out了!
Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。python并不提供一个专门的数据挖掘环境,但它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。
今天我们就来讲述一下Python大数据挖掘分析的工具:
一、Numpy工具
Python并没有提供数组功能。虽然列表可以完成基本的数组功能,但它不是真正的数组,而且在数据量较大时,使用列表的速度就会慢得让人难以接受。为此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy还是很多更高级的扩展库的依赖库,Scipy、Matplotlib、Pandas等库都依赖于它。值得强调的是,Numpy内置函数处理数据的速度是C语言级别的,因此在编写程序的时候,应当尽量使用它们内置的函数,避免出现效率瓶颈的现象(尤其是涉及循环的问题)。
linux安装命令:
pip install numpy pip -i https://pypi.douban.com/simple
二、Scipy工具
Numpy提供了多维数组功能,但它只是一般的数组,并不是矩阵。例如,当两个数组相乘时,只是对应元素相乘,而不是矩阵乘法。Scipy提供了真正的矩阵,以及大量基于矩阵运算的对象与函数。Scipy包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算,显然,这些功能都是挖掘与建模必备的。Scipy依赖于Numpy,因此安装它之前得先安装Numpy。
linux安装命令:
pip install scipy pip -i https://pypi.douban.com/simple
三、MatPlotlib工具
不论是数据挖掘还是数学建模,都免不了数据可视化的问题。对于Python来说,Matplotlib是最著名的绘图库,它主要用于二维绘图,当然它也可以进行简单的三维绘图。它不但提供了一整套和Matlab相似但更为丰富的命令,让我们可以非常快捷地用Python可视化数据,而且允许输出达到出版质量的多种图像格式。
linux安装命令:
pip install matplotlib pip -i https://pypi.douban.com/simple
四、Pandas工具
Pandas是Python下最强大的数据分析和探索工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据非常快速和简单。Pandas构建在Numpy之上,它使得以NumPy为中心的应用很容易使用。Pandas的名称来自于面板数据(Panel Data)和Python数据分析(Data Analysis),它最初被作为金融数据分析工具而开发出来,由AQR Capital Management公司于2008年4月开发出来,并于2009年底开源。Pandas的功能非常强大,支持类似于SQL的数据增、删、查、改,并且带有丰富的数据处理函数;支持时间序列分析功能;支持灵活处理缺失数据等。
Pandas基本的数据结构是Series和Data Frame,Series就是序列,类似一维数组;Data Frame则是相当于一张二维的表格,类似二维数组,它的每一列都是一个Series。为了定位Series中的元素,Pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素,Index的内容不一定是数字,也可以是字母、中文等,它类似于SQL中的主键。类似地,Data Frame相当于多个带有同样Index的Series的组合(本质是Series的容器),每个Seiries都带有唯一的表头,用来标识不同的series。
linux安装命令:
pip install pandas pip -i https://pypi.douban.com/simple
pip install xlrd pip -i https://pypi.douban.com/simple # 读取excel
pip install xlwt pip -i https://pypi.douban.com/simple # 写入excel
五、StatsModels工具
pandas着眼于数据的读取、处理和探索,而StatsModels则更加注重数据的统计建模分析,它使得python有了R语言的味道。StatsModels支持与Pandas进行数据交互,因此,它与Pandas结合,成为了Python下强大的数据挖掘组合。
linux安装命令:
pip install statsmodels pip -i https://pypi.douban.com/simple
六、Keras工具
Keras库搭建神经网络,是基于Theano的强大的深度学习库,利用它不仅仅可以搭建普通的神经网络,还可以搭建各种深度学习模型,如自编码器、循环神经网络、递归神经网络、卷积神经网络等。由于它是基于Theano的,因此速度也相当快。
Theano也是Python的一个库,用来定义、优化和高效地解决多维数组数据对应数学表达式的模拟估计问题。它具有高效地实现符号分解、高度优化的速度和稳定性等特点,最重要的是它还实现了GPU加速,使得密集型数据的处理速度是CPU的数十倍。
Linux执行keras快于Windows,工作中建议使用Linux执行keras。
linux安装命令:
pip install theano keras pip -i https://pypi.douban.com/simple
pip install --ignore-installed tensorflow keras pip -i https://pypi.douban.com/simple
如读者希望在windows环境中搭建Keras可参考下面的安装方法:
1.安装Anaconda3-2019.10-Windows-x86_64.exe
可在https://www.anaconda.com/distribution/下载
2.配置path安装路径(假设安装在C:Anaconda3)
C:Anaconda3condabin
3.安装mingw,执行下面3个命令
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
conda install mingw libpython
4.配置path安装路径
C:Anaconda3MinGWin
C:Anaconda3MinGWx86_64-w64-mingw32lib
5.pip install theano keras pip -i https://pypi.douban.com/simple
如果pip命令无法使用配置path路径指向Python安装目录的Scripts路径
6.lindux支持tensorflow,windows支持theano,更改keras默认后台为theano
修改当前用户下的C:UsersAdministrator.keraskeras.json,将tensorflow改成theano
如果找不到该文件在cmd命令中执行
python
import keras
提示不支持tensorflow,此时会创建出keras.json
或直接使用课件中给出的.keras目录赋值到当前用户目录下
7.再次在cmd命令中执行
python
import keras
看到Using Theano backend则安装成功
好了,今天的Python大数据挖掘分析的工具就介绍到这里,希望对今后从事Phthon大数据挖掘分析工作的小伙伴有一定的帮助!