大数据

非结构化数据的元数据管理

2018-04-28 10:19:50 | 来源:中培企业IT培训网

5.4  非结构化数据的元数据管理

由于非结构化数据的类型和表现形式多样,其元数据管理办法很难统一,并且非结构化数据的内容不确定、不易获取(如影音、视频),因此其元数据的提取和管理在业界还是一个新领域。在此,仅就几类非结构化数据进行元数据管理方法的初步探讨。

1)对于影音、视频、图片等形式的非结构化数据,其内容一般较难获取,因此根据前面介绍的四面体模型来管理这类非结构化数据的元数据。数据生成或获取时明确其语义特征、基本属性、底层特征三方面属性,可以将其抽离出来作为结构化数据存储,那么就可以按照结构化数据的元数据管理方法进行管理。

2)对于网页、文档等,不仅可以获取语义特征、基本属性、底层特征等属性作为元数据,还可以从其中对其内容进行读取解析,抽取出关键字,作为非结构化数据的标签。主要分为三种类别:

第一种是提取文章里的关键词,作为主题词标签元数据。

第二种是对文章进行多个维度的分类,打上分类标签,如在舆情分析过程中,会打上文章所涉及的银行、产品及业务、风险点、正负面情感等。

第三种是文章本身的结构化标签元数据,如时间、作者、来源、大小等。

在实现过程中,只有通过分词、文本去重、各类分析模型(如主题分析模型、分类模型、情感分析模型)处理,并辅以各种自动化训练手段,才能获取网页、文档等各类文本的非结构化数据的标签元数据。

3)对于具有加密方式的非结构化数据,要获取其内容,一般需要比较高级的权限,因此在对其进行管理时只能获取基本的语义特征、基本属性,即可以知道文档的名称、时间等,而对于其内容则无法获知,一般和影音、视频、图片的相关元数据管理方法类似。

标签: 元数据管理