大数据

数据生命周期管理模型之数据在线度

2018-05-03 10:50:46 | 来源:中培企业IT培训网

2.数据生命周期管理模型

前文已经划分了生命周期的各个阶段,并明确了相关的注意事项,下面将介绍数据生命周期的具体管理模型。

(1)数据在线度  随着时间的推移,新数据不断产生,历史数据使用频率不断下降,使用价值也相应衰减到较低水平,但这个阶段的划分是相对的,在线的定义也是定性的。为了更好地体现数据的生命周期,需要定量描述数据所处的各阶段,使用数据在线度( DataOn-line Level,DOL)y准确反应数据的在线程度和使用衰减情况。数据在线度与用户对数据的访问频度口相关。口为单位时间内的访问次数,与数据的迁移安全性、代价、必要性有关。假设迁移因子为m,则关联函数为y。=,(a。,m。),其中£为时间。

在新生数据被频繁访问期间,即在线阶段,此时y=l。随着时间的推移,访问频率发生变化,数据在线度随之加以修正,直至达到某阈值,数据即处于归档阶段(包括在线归档和离线归档)。此后受资源所限或其他因素所致,可考虑进行数据销毁。当y趋近于0或达到某阈值时,可对数据进行离线归档处理。当数据生命周期进入归档阶段时,需要对数据进行迁移或从系统中将数据分离出来。但也有部分业务系统,因设备老化、技术限制或迁移难度大等原因,无法实现对访问频率下降的数据进行迁移。同时也存在一些数据虽然访问频率下降,但是在一段时间内仍需维持在线或在线归档状态,或者借助新技术在满足业务系统正常运转的前提下提前对数据进行迁移的情况。迁移因子影响了数据在线度,对数据生命周期阶段划分具有阻碍或促进作用。综上所述,在线度关联函数如下:

其中,ao为初始上线频繁访问时平均访问次数,且0≤m。≤l,f为时间,可根据数据及系统需求,将单位设为年(或月、日)等。图8-3反映了数据在线度与数据生命周期之间的关系。

标签: 生命周期管理