大数据

大数据分析模型之数据模型和业务模型

2020-10-19 15:51:02　|　来源：中培企业IT培训网

模型是指抽象出来的某个实际问题或客观事物或法律的形式表达。任何模型都包含三个部分：目标，变量和关系。通过澄清变量并更改变量，可以直接呈现结果以实现目标。在日常数据分析中，我们常用的模型主要包括数据模型和业务模型。那么大数据分析模型之数据模型和业务模型分别是什么？具体包括哪些内容？下文是详细介绍。

　　一、数据模型

统计数据视角的实体模型通常指的是统计分析或大数据挖掘、深度学习、人工智能技术等种类的实体模型，这些模型是从科学研究视角去往界定的。

　　1、降维

对大量的数据和大规模的数据进行数据挖掘时，往往会面临“维度灾害”。数据集的维度在无限地增加，但由于计算机的处理能力和速度有限，此外，数据集的多个维度之间可能存在共同的线性关系。这会立即造成学习模型的可扩展性不足，乃至许多那时候优化算法結果会无效。因而，人们必须减少层面总数并减少层面间共线性危害。

数据降维也称为数据归约或数据约减。它的目的就是为了减少数据计算和建模中涉及的维数。有两种数据降维思想：一种是基于特征选择的降维，另一种是基于维度变换的降维。

　　2、回归

回归是一种数据分析方法，它是研究变量X对因变量Y的数据分析。我们了解的最简答的回归模型就是一元线性回归（只包含一个自变量和因变量，并且晾在这的关系可以用一条直线表示）。

回归分析根据自变量的数量分为单回归模型和多元回归模型。根据影响是否是线性的，可以分为线性回归和非线性回归。

　　3、聚类

我们都听过“物以类聚，人以群分”这个词语，这个是聚类分析的基本思想。聚类分析法是大数据挖掘和测算中的基础每日任务，聚类分析法是将很多统计数据集中化具备“类似”特点的统计数据点区划为一致类型，并最后转化成好几个类的方式。大量数据集中必须有相似的数据点。基于这一假设，可以区分数据，并且可以找到每个数据集（分类）的特征。

　　4、分类

分类算法根据对己知类型训炼集的测算和剖析，从文中发觉类型标准，为此分折新统计数据的类型的类别优化算法。分类算法是解决分类问题的一种方法，是数据挖掘、机器学习和模式识别的一个重要研究领域。

　　5、关联

关联规则学习根据寻找最能解释数据变量之间关系的规则，在大量多元数据集中找到有用的关联规则。这是一种从大量数据中找出各种数据之间关系的方法。此外，它还可以挖掘基于时间序列的各种数据之间的关系。

　　6、时间序列

时间序列是一种用于研究数据随时间变化的算法，是一种常用的回归预测方法。原则是事物的连续性。所谓连续性，是指客观事物的发展具有规律性的连续性，事物的发展是按照其内在规律进行的。在一定的条件下，只要规则作用的条件不发生质的变化，事物的基本发展趋势就会持续到未来。

　　7、异常数据检测

在大多数数据挖掘或数据工作中，异常值将被视为“噪声”，并在数据预处理过程中消除，以避免其对整体数据评估和分析挖掘的影响。然而，在某些情况下，如果数据工作的目标是关注异常值，这些异常值将成为数据工作的焦点。

数据集中的异常数据通常被称为异常点、异常值或孤立点等。典型的特征是这些数据的特征或规则与大多数数据不一致，表现出“异常”的特征。检测这些数据的方法称为异常检测。

　　二、业务模型

业务流程实体模型指的是对于某一业务流程情景而界定的，用以解决困难的某些实体模型，这种实体模型跟上边实体模型的差别取决于情景化的运用。

　　1、会员数据化运营分析模型