大数据

文本获取与预处理

2018-05-09 14:39:03　|　来源：中培企业IT培训网

(2)舆情分析在大数据时代的背景下，网络上存在大量以文本为代表的非结构化数据，特别是互联网上的新闻、社交媒体数据，其中更不乏与商业银行有关的舆情信息。对这些信息进行有效的挖掘和利用，将为商业银行及时掌握在互联网上传播的潜在风险事件提供一个全新的视角。

实现舆情风险管理的文本挖掘技术过程一般分为文本获取、预处理、分析挖掘、可视化展现等步骤。

1)文本获取：商业银行获取文本的方式包括已采购的财经新闻、行业动态、研究报告等外部资讯信息，还可以通过开发采集工具来进一步扩大新闻媒体的采集范围，比如对以微博、论坛为代表的社交媒体信息进行采集。采集方式包括搜索引擎（通过搜索引擎进行关键词搜索，之后将所有结果通过爬网程序进行采集）、新闻网站、论坛页面适配（通过Web爬虫程序抓取微博或论坛页面，并从页面结构中解析出正文和评论数据）、微博页面适配（通过模拟实际用户登录后对微博信息进行采集）。

2)预处理：包括中文分词和文本去重等步骤，从而实现文本的预处理。前者是在获取到文本数据之后，将文本切分成词汇的集合，使得机器能够更好地理解词汇组成的文本。后者则通过相似哈希算法快速对海量文本相似程度进行计算：将文档看成特征词的集合，为每个特征词分配唯一编码；根据特征词的编码以及在文档中的权重，通过相似哈希算法生成文档的信息指纹（可比较的64位二进制编码）；文档指纹完全相同的文档，则认定为内容相同；指纹间不同的位数越少，则说明文档内容越相似。文本虚词的增减、语句位置的变换将不会影响近似文本的发现。

标签：舆情分析