机器学习是什么?从广义上讲,机器学习是一种能够赋予机器学习的能力,让它以此完成直接编程无法完成的功能的方法。但从实践的意义上讲,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
人工智能是一种能够使得计算机及其系统能够成功完成通常需要人类智能行为才能完成的任务的研究和开发。机器学习是人工智能的核心,是训练计算机完成上述任务的技术和过程,是其必不可少的一部分。
目前机器学习应用领域十分广泛,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等。
机器学习的应用领域
谷歌是互联网领域有名的使用机器学习的公司,如下图所示,谷歌将机器学习应用到不同的产品中。
机器学习的三大基石—算法、数据和计算能力,算法作为其中之一,是非常重要的。然而当前的算法数不胜数,而新的算法更是层出不穷,那么机器学习都会涉及哪些算法呢?不同算法适用于哪些场景呢?
机器学习的任务
当前在机器学习领域,最常见的机器学习任务主要有三类:回归(Regression)、分类(Classification)、聚类(Clustering)。
回归是一种用于连续型数值变量预测和建模的算法,使用案例包括房地产价格、股价走势或学生成绩等的预测。
分类是用于分类变量建模及预测的算法,使用案例包括员工流失、邮件过滤、金融欺诈等的预测。
聚类则是基于数据内部结构来寻找样本自然族群(集群)的算法,使用案例包括用户画像、电商物品聚类、社交网络分析等。
我们可以用几个例子来说明:
假设你是个地产商。你有以往售出楼房的数据--总面积、有几间卧室等等——以及它们的售价。你拿到一幢新房的时候,就能根据手头的数据,预测新房的售价。这是一个回归问题。
假设你是一个医生。你有很多人的健康数据——各项生理指标、遗传因素、以及他们是非患有某一种疾病的测试结果。测试结果可以用二进制表示为:1代表患有疾病,0代表未患有疾病。当你遇到一个新的测试者,输入他的数据,你就能预测他是否患有疾病。因为输出的形式是已知的(1或者0),这是一个分类问题。
假设你是一个市场经理。你有一些客户的资料——客户年龄、购买产品、购买金额等——你希望找出哪些客户属于相近的群体,可能给他们一些特殊优惠。以上的客户资料可以作为算法的输入,不过你不知道输出会是什么样的,因此这是聚类问题。
机器学习常用算法
面对不同的问题,演化出了许许多多的算法,这些算法根据其功能和形式的类似性大致可分为以下几类:
在这十三个大类里又有很多具体的算法,比如常见的回归算法包括:最小二乘法、逻辑回归、逐步式回归、多元自适应回归样条等。
不同的算法有不同的优缺点也有不同的应用领域,例如常见的决策树算法易于理解和解释、可以可视化分析、容易提取出规则、运行速度快、对中间值缺失不敏感、可以处理不相关特征数据。但同时容易产生过度匹配的问题、构建耗时、同时对缺失数据处理比较困难。由于决策树良好的分析能力,在决策过程应用较多,常用于企业管理实践,企业投资决策等领域。
决策树原理示意图
“天下没有免费的午餐”,没有算法能完美地解决所有问题,算法的选择要受很多因素的影响,比如数据集的规模或结构。在用给定的测试集来评估性能并挑选算法时,应当根据具体的问题来采用不同的算法。
通常工程师在选择算法时需要考虑主要因素有:
1)数据量的大小、数据质量和数据本身的特点
2)要解决的具体业务场景中问题的本质是什么?
3)可以接受的计算时间是什么?
4)算法精度要求有多高?
也就是说,所选的算法必须要适用于当下要的问题,这就要求选择正确的机器学习任务,需要考虑算法的准确度,训练时间和易用性。就好像,如果你需要打扫房子,你可能会用到吸尘器、扫帚或是拖把,但你绝对不该掏出铲子来挖地。
机器学习算法通过自动地从提供的数据中学习,它会让我们的程序变得更“聪明”。
想了解更多IT资讯,请访问中培伟业官网:中培伟业