大数据

浅聊大数据、数据分析以及数据挖掘

2023-04-20 09:15:11 | 来源:企业IT培训

在大数据领域里,经常会看到例如数据挖掘、数据分析、大数据数据等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。很多人在刚入门的时候,这几个概念经常会分不清,今天,我们浅谈一下大数据分析及挖掘技术!

首先我们需要了解什么是大数据(Big Data)?大数据的发展趋势?

什么是大数据(Big Data)

大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。积极目的的资讯。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

大数据发展趋势

趋势一:数据的资源化

何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。

趋势二:与云计算的深度结合

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。

趋势三:科学理论的突破

随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。

趋势四:数据科学和数据联盟的成立

未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

趋势五:数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。

趋势六:数据管理成为核心竞争力

数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。

趋势七:数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。

趋势八:数据生态系统复合化程度加强

大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

接下来,咱们再浅谈一下大数据分析及挖掘技术!

▶ 在大数据观念不断被提及的今天,大数据分析与挖掘技术作为大数据处理的关键技术,其重要性更是不言而喻。本期技术科普将结合电视剧《纸牌屋》与Netflix公司等实际案例,从大数据分析及挖掘的定义、对象、流程及方法展开介绍。

数据挖掘的定义

▶ 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘对象

借助于数据挖掘技术,Netflix在《纸牌屋》播出之前就已胜券在握。它的成功得益于Netflix对当时3300万订阅用户的海量数据积累和分析。这一数据挖掘的对象包括文本数据源、多媒体数据库、空间数据库、时态数据库等。

当一位用户通过浏览器登录Netflix账号,Netflix后台技术将用户位置数据、设备数据悄悄地记录下来。这些记忆代码还包括用户收看过程中所做的收藏、推荐到社交网络等动作。在Netflix看来,暂停、回放、快进、停止等动作都是一个行为,每天用户在Netflix上将产生高达3000多万个行为,此外,Netflix的订阅用户每天还会给出400万个评分、300万次搜索请求、询问剧集播放时间等。因此,Netflix可以做到最及时准确地掌握电影电视剧市场的热度动态。

数据挖掘流程

数据挖掘的流程可以分为定义问题、选择数据、数据预处理、数据挖掘、结果分析五个部分。

Netflix利用数据挖掘计算出喜欢“BBC剧”“大卫·芬奇”和“凯文·史派西”的用户存在极大程度的交集。基于这一关键要素,Netflix用1亿美元买下一部早在1990年就播出的BBC电视剧《纸牌屋》的版权,请来导演大卫·芬奇(David Fincher),并由老戏骨凯文·史派西(Kevin Spacey)担当男主角。最终《纸牌屋》不仅是当年Netflix网站上有史以来观看量最高的剧集,也在美国及40多个国家大热。

Netflix用事实告诉资本市场,大数据不是花架子,而是地道的生产力。

当然统计学上讲,100%的概率都未必发生,0%的概率都未必不发生,这只是小概率事件,不要让这个成为你脱单的绊脚石。

数据挖掘方法及实践

1.统计分析

在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

下面将以1896年雅典奥运会到2016年里约奥运会的所有比赛运动员数据为例,从金牌运动员身高与体重的角度进行分析并展示。人的身高和体重是两种相关性的量,可以用回归分析来分析。

从金牌运动员身高体重关系的箱型图中我们发现,身高和体重数据基本都在回归线上,除了体重大于120公斤的运动员,他们参加的项目主要是举重和柔道。

2.预测性分析

大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等。

上图是金牌运动员身高体重关系的预测模型。线性回归要求因变量必须是连续性数据变量;逻辑回归要求因变量必须是分类变量,二分类或者多分类。例如,要分析性别、年龄、身高、饮食习惯对于体重的影响,如果这个体重是属于实际的重量,是连续性的数据变量,这时采用线性回归;如果将体重分类成低、中、高这三种类型作为因变量,则采用逻辑回归。

从纷繁的数据中挖掘出其特点,可以帮助我们了解目前状况以及确定下一步的行动方案,从依靠猜测进行决策转变为依靠预测进行决策。它能够帮助分析用户的结构化和非结构化数据中的趋势、模式和关系,运用这些指标来洞察预测将来事件,并做出相应的措施。

大数据分析更多依赖于业务知识,数据挖掘更多侧重于技术的实现,对于业务的要求稍微有所降低,数据挖掘往往需要更大数据量,而数据量越大,对于技术的要求也就越高需要比较强的编程能力,数学能力和机器学习的能力。如果从结果上来看,数据分析更多侧重的是结果的呈现,需要结合业务知识来进行解读。而数据挖掘的结果是一个模型,通过这个模型来分析整个数据的规律,一次来实现对于未来的预测,比如判断用户的特点,用户适合什么样的营销活动。显然,数据挖掘比数据分析要更深一个层次。数据分析是将数据转化为信息的工具,而数据挖掘是将信息转化为认知的工具。