大数据

CDA-L1业务数据分析师认证

2022-12-30 15:00:44　|　来源：中培企业IT培训网

一、培训背景

「CDA 数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科学化、专业化、正规化、系统化的人才技能准则。CDA数据分析师认证考试是评判「标准化人才」的唯一考核路径。CDA考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点，考生可按照大纲要求进行相关知识的学习，获取技能，成为专业人才。

二、知识要求

针对不同知识，掌握程度的要求分为【领会】、【熟知】、【应用】三个级别，考生应按照不同知识要求进行学习。

1．领会：考生能够领会了解规定的知识点，并能够了解规定知识点的内涵与外延，了解其内容要点和它们之间的区别与联系，并能做出正确的阐述、解释和说明。

2．熟知：考生须掌握知识的要点，并能够正确理解和记忆相关理论方法，能够根据不同要求，做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。

3．应用：考生须学会将知识点落地实践，并能够结合相关工具进行商业应用，能够根据具体要求，给出问题的具体实施流程和策略。

三、考试范围

PART 1 数据分析概念与统计学基础（占比 30%）

a. 数据分析概念、方法论、流程（占比 5%）

b. 描述性统计分析（占比 12%）

c. 推断性统计分析（占比 8%）

d. 方差分析（占比 2%）

e. 一元线性回归分析（占比 3%）

PART 2 SQL 数据库基础（占比 15%）

a. SQL 及关系型数据库基本概念（占比 1%）

b. SQL 数据类型、运算符、函数（占比 3%）

c. SQL 查询语句（占比 5%）

d. SQL 连接语句（占比 5%）

e. SQL 其它语句（占比 1%）

PART 3 数据采集与处理（占比 15%）

a. 数据采集方法（占比 5%）

b. 市场调研（占比 2%）

c. 数据预处理方法（占比 8%）

PART 4 数据建模分析（占比 40%）

a. 主成分分析法（占比 4%）、因子分析法（占比 2%）

b. 系统聚类法（占比 2%）、K-Means 聚类法（占比 3%）

c. 对应分析（占比 2%）、多维尺度分析（占比 2%）

d. 多元回归分析法

多元线性回归（占比10%）

逻辑回归（占比10%）

e. 时间序列（占比 5%）.

四、考试形式与试卷结构

考试方式：VUE线上考试，随约随考

考试题型：客观题（单选+多选）

考试时间：120 分钟

考试条件：无要求，皆可报考

考试成绩：分为A、B、C、D 四个层次，A、B、C 为通过考试，D 为不通过.

注：考试未通过者可进行一次补考，补考费用为六折优惠。每个等级科目补考各限一次。

五、课程大纲

章节	模块	培训内容
PART1 数据分析概念与统计学基础	1、数据分析概述	【领会】数据分析和数据挖掘的概念强调商业数据分析中对业务的理解商业数据分析和预测的本质数据分析的8个层次大数据对传统小数据分析的拓展【熟知】明确数据分析目标及意义数据分析的过程数据分析与数据挖掘的常用方法 CRISP-DM、SEMMA 方法论数据分析中不同人员的角色与职责
	2、描述性统计分析	【领会】数据的计量尺度数据的集中趋势、离中趋势和数据分布的概念统计图的概念各种统计图的含义和画法【熟知】衡量数据集中趋势、离中趋势和数据分布的常用指标及计算方法统计图形的绘制、图形元素的调整、可视化效果，主要涉及条形图、线图、直方图、盒须图、散点图、气泡图、马赛克图、玫瑰图及其多种图形整合。明确统计图形对统计指标表达上的对应关系【应用】根据不同数据类型选用不同的统计指标来进行数据的集中趋势、离中趋势和数据分布的衡量，不同统计图的使用场景。会写数据分析报告和结合业务需求对报告进行合理解释，对业务ᨀ出建设性意见建议。
	3、抽样估计	【领会】随机试验、随机事件、随机变量的概念总体与样本的概念抽样估计的理论基础正态分布及三大分布的函数形式和图像形式抽样的多种组织形式确定必要样本容量的原因【熟知】随机事件的概率抽样平均误差的概念与数学性质点估计与区间估计方法的特点与优缺点全体总体与样本总体参数和统计量重复抽样与不重复抽样抽样误差的概念对总体平均数和总体成数的区间估计方法必要样本容量的影响因素中心极限定理的意义与应用【应用】随机变量及其概率分布全部可能的样本单位数目的概念及其在不同抽样方法下的确定抽样平均误差在实际数据分析中的计算方法
	4、假设检验	【领会】假设检验的基本概念其基本思想在数据分析中的作用假设检验的基本步骤假设检验与区间估计的联系假设检验中的两类错误【熟知】 P值的含义及计算如何利用P值进行检验 z检验统计量 t检验统计量 F检验统计量 c2检验统计量的函数形式和检验步骤【应用】实现单样本t检验两独立样本t检验的步骤和检验中使用的统计量与原假设两种检验应用的数据分析场景。
	5、方差分析	【领会】方差分析的相关概念单因素方差分析的原理统计量构造过程【熟知】单因素方差分析的基本步骤总离差平方和（SST）的含义及计算组间离差平方和（SSA）的含义及计算组内离差平方和（SSE）的含义及计算单因素方差分析的原假设【应用】实现单因素方差分析的步骤对方差分析表的分析以及多重比较表的分析
	6、简单线性回归分析	【领会】相关图的绘制与作用相关表的编制与作用相关系数定义公式的字母含义估计标准误差与相关系数的关系【熟知】相关关系的概念与特点相关关系与函数关系的区别与联系相关关系的种类相关系数的意义以及利用相关系数的具体数值对现象相关等级的划分回归分析的概念回归分析的主要内容和特点建立一元线性回归方程的条件应用回归分析应注意的问题估计标准误差的意义及计算【应用】运用简捷法公式计算相关系数相关分析分析中应注意的问题回归分析与相关分析的区别与联系
PART 2 SQL数据库基础	1、SQL 基础概念	【领会】关系型数据库基本概念、属性主键外键 E-R 图 ANSI-SQL 以及不同的数据库实现的关系【熟知】逻辑运算符比较运算符算术运算符通配符
	2、SQL 查询语句	【应用】 select 语句包括查询单列多列，去重，前N 列 from 语句、where 语句、group by 语句、having 语句、order by 语句、子查询 SQL 聚合函数，包括 count、sum、avg、max、min 等
	3、SQL 连接语句	【领会】表的连接类型，包括内连接（等值、不等值）、外连接（左、右、全）、交叉连接（笛卡尔连接）查询的集合操作，只包括并集操作【应用】 inner join 的用法 left/right/full join 的用法 cross join 的用法 union 的用法
	4、其它 SQL 语句	【领会】表的创建视图及索引的概念及创建数据插入、更新、删除【领会】高级函数，如Oracle 或 Hive 中的 row number over partition by、正则匹配等
PART 3 数据采集与处理	1、数据采集方法	【领会】一手数据与二手数据来源渠道优劣势分析使用注意事项【熟知】一手数据采集中的概率抽样与非概率抽样的区别与优缺点【运用】概率抽样方法，包括简单随机抽样、分层抽样、系统抽样、分段抽样明确每种抽样的优缺点根据给定条件选择最可行的抽样方式计算简单随机抽样所需的样本量 Ø 市场调研【熟知】市场调研的基本步骤（ᨀ出问题、调查收集材料、分析预测问题）单选题及多项选择题的设置数据编码及录入 Ø 数据预处理方法【熟知】数据预处理的基本步骤，包括数据集成（不同数据源的整合）、数据探索、数据变换（标准化）、数据归约（维度归约技术、数值归约技术），这部分内容不需要涉及计算，只需要根据需求明确可选的处理技术即可。【应用】数据清洗，包括填补遗漏的数据值（根据业务场景使用常数、中位数、众数等方法，不涉及多重查补的方法）、平滑有噪声数据（移动平均）、识别或除去异常值（单变量根据中心标准化值，多变量使用快速聚类），以及解决不一致问题（熟知概念即可），查重（只考核 SQL 的语句，不涉及 R、SAS 等其它语言）。
PART 4 数据建模分析总体要求领会模型基本原理，数值模型操作流程，懂得模型应用场景，能够完成数据建模分析报告。	1、描述性数据分析/挖掘方法——主成分分析	【领会】主成分分析的计算步骤主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置【熟知】适用于主成分分析的变量度量类型。通过分析结果，选取合适的保留主成分的个数，注意区分两种不同的分析目的（尽量压缩变量、避免共线性情况下保留更多信息）保留主成分个数的评判标准的差异。【应用】在深入理解主成分的意义的基础之上，在遇到业务问题时，有能力决定是否使用主成分分析方法；有能力决定何时采用相关系数计算方法和协方差矩阵计算方法；有能力解释主成分得分的结果；根据变量分布情况进行函数转换。
	2、描述性数据分析/挖掘方法——因子分析	【领会】了解因子分析模型设置，只需要关注主成分法的计算步骤【熟知】适用于因子分析的变量度量类型。通过分析结果，选取合适的因子个数；知道最常用的因子旋转的方法。【应用】在遇到业务问题时，有能力决定是否使用因子分析，还是使用主成分分析方法就可以了；有能力根据原始变量在各因子上的权重明确每个因子的意义；有能力对大量变量进行维度分析，分维度打分，并比较与专家打分（德尔菲法）的区别；在聚类前对数据进行描述，发现理想的聚类方式和数量。
	3、描述性数据分析/挖掘方法——聚类分析	【领会】多种聚类算法的特点【熟知】聚类方法的基本逻辑系统聚类和K-Means 聚类的基本算法和优缺点系统聚类的计算步骤，包括两点距离、两类合并的计算方法系统聚类法中选择最优聚类数量的方法 K-Means 聚类的基本算法聚类分析变量标准化的原因和计算方法变量需要进行主成分分析的原因变量进行函数转化的原因和计算方法【应用】结合客户画像、客户细分、商品聚类、离群值检验（欺诈、反洗钱）等业务运用场景，选取合适的聚类方法与步骤聚类事后分析，根据聚类后变量分布情况获取每类的特征
	4、描述性数据分析/挖掘方法——对应分析	【领会】对应分析的算法【熟知】适用于对应分析的变量度量类型对应分析与列联表分析、主成分分析的关系这种方法优缺点及如何与其它模型结合使用【应用】对应分析使用的指标如何量化及其常见的量化方式在客户满意度分析、市场绩效及产品细分等场景下的运用双标图的可视化、解释与意义扩展
	5、描述性数据分析/挖掘方法——多维尺度分析	【领会】多维尺度分析的算法。【熟知】适用于多维尺度分析的变量度量类型该分析方法和主成分分析、因子分析、对应分析的异同点，尤其是和因子分析的区别【应用】多维尺度分析在客户产品感知图等方面的运用
	6、预测性数据分析方法——线性回归与模型诊断及优化	【领会】线性回归系数的计算公式【熟知】明确线性回归的6 个经典假设（线性模型、不存在共线性、残差期望为 0、同方差、正态性、随机抽样明确违反前5 个假设后出现的问题模型是否违反前5 个经典假设的检验方法与模型纠正的方法变量筛选方法离群值、指标计算方法明晰横截面和时间序列数据在回归建模上的差异【应用】结合业务构建回归模型并且解释回归系数根据业务场景与变量分布情况进行函数转换解释变量为分类变量时的处理方法区分预测性建模与解释性建模的关系使用结果进行新样本预测进行客户价值分析的基本步骤与注意事项
	7、预测性数据分析方法——构造对二分类变量的预测模型	【领会】卡方检验计算公式二分类逻辑回归的计算公式【熟知】分类变量是否存在相关关系的描述方法和检验方法，涉及列联表分析、卡方检验似然比与Logit 转换二分类逻辑回归模型构建与变量筛选模型评估的方法，涉及混淆矩阵、ROC 曲线【应用】结合业务构建回归模型并且解释回归系数根据业务场景与变量分布情况进行函数转换使用结果进行新样本预测进行客户流失预测、信用评级、精准营销等模型的基本步骤与注意事项
	8、时间序列	【领会】明确趋势分解法、ARIMA 方法、时间序列回归方法的差异和适用场景明确每种方法的计算方法【熟知】趋势分解法，涉及乘法模型、加法模型 ARIMA 方法的具体步骤；时间序列回归的方法【应用】结合业务（业绩预测、预警），选取合适的分析方法进行业务时间序列预测等模型的基本步骤与注意事项
推荐学习书目	说明：推荐学习书目中，部分书籍结合软件，但考试不会考软件，考生可根据自身需求选择性学习。参考书目不需全部学完，根据考纲知识点进行针对性学习即可。	[1] 贾俊平，何晓群，金勇进. 统计学（第 7 版）[M]. 中国人民大学出版社，2018.（必读） [2] 斯蒂芬森，晋劳，琼斯. SQL 入门经典（第 5 版）[M]. 人民邮电出版社，2011.（必读） [3] 黄缙华.MySQL 入门很简单[M].清华大学出版社，2011.（选读） [4] 何晓群. 多元统计分析（第 4 版）[M]. 中国人民大学出版社, 2015. （必读） [5] 盛骤，试式千，潘承毅. 概率论与数理统计（第 4 版）, 高等教育出版社,2008.（选读） [6] 王斌会 . 多元统计分析及 R 语言建模（第 4 版）[M]. 暨南大学出版社, 2016. （选读） [7] 李静萍. 多元统计分析：原理与基于 SPSS 的应用（第二版） , 中国人民大学出版社, 2015. （选读） [8] Wes McKinney. 利用 Python 进行数据分析[M]. 机械工业出版社，2014. （选读） [9] 王燕. 应用时间序列分析（第四版）,中国人民大学出版社, 2015. （ 9 和 10 二选一） [10] 王燕. 时间序列分析：基于 R, 中国人民大学出版社, 2015. （ 9 和 10 二选一） [11] Daniel T. Larose，Chantal D. Larose. 数据挖掘与预测分析（第 2 版）[M]. 清华大学出版社，2017. （选读） [12] 经管之家，曹正凤. 从零进阶!数据分析的统计基础[M]. 电子工业出版社，2016. （选读） [13] 经管之家，常国珍. 胸有成竹!数据分析的 SPSS 和 SAS EG 进阶[M]. 电子工业出版社， 2016. （选读） [14] 经管之家，徐筱刚. 如虎添翼：数据处理的 SPSS 和 SAS EG 实现[M]. 电子工业出版社， 2016. （选读）
总结交流与答疑

六、授课专家

刘老师十几年软件研发经验，十年企业培训经验，对Java、Python、区块链等技术领域有独特的研究，精通J2EE企业级开发技术，Java方向：设计模式、Spring MVC、MyBatis、Spring、StringBoot、WebService、CXF并且对Java源码有深入研究，Python方向：Python核心编程、Python数据分析、Python OOP、Mongodb、Django、Scrapy爬虫技术、基于Scikit-Learn机器学习框，Tensorflow深度学习框架、人脸识别技术。

常老师 北京大学会计学博士，ThoughtWorks中国首席金融数据科学家。具有18年数据规划、数据治理、智能算法在金融和电信行业的落地经验。协助企业逐步积累数据资产，运用数据智能工具优化业务流程，取得数字化竞争优势。代表客户有人民银行、国家开发银行、中国建设银行、中国移动、中国银行、中国民生银行。在加入ThoughtWorks之前，曾在毕马威大数据部任总监、在中银消费金融数据部任高级经理、在百度大数据任数据产品经理。兼任北京语言大学金融硕校外导师，同时担任的社会角色和荣誉有中国大数据产业生态联盟专家委员会委员，CDA数据分析研究院名誉院长，腾讯云最有价值专家（TVP），建设银行反洗钱和数据资产管理资深外部专家。著有《金融数据科学手册》系列丛书、《Python数据科学：技术详解与商业实践》、《用商业案例学R语言数据挖掘》、《胸有成竹：数据分析的SASEG进阶》等多本著作。

王老师 现任某上市公司软件产品部副总兼大数据产品线总经理，国际信息和数据质量协会（IAIDQ）会员，ITSS数据治理标准工作组成员。曾获得数据管理专业认证（CDMP）、数据治理专业认证（DGP）、信息质量专业认证（IQCP）三项国际认证。2010年加入普元，全面主持普元大数据产品的研发、拓展及团队管理工作。十年大型企业信息化架构设计与建设经验，曾任中国人民银行核心平台架构师。主持参与了国家开发银行大数据治理项目、中国人民银行软件开发平台、国家电网云计算平台等大型项目建设。对大数据行业有着深入的研究和洞察，并对企业信息化平台建设，企业云计算及大数据平台建设有着丰富经验。