大数据

大数据处理系统需要攻克的技术点有哪些?

2020-09-24 18:13:31 | 来源:中培企业IT培训网

随着大数据重要性的日益提高,数据处理的挑战变得尤为突出。其中,数据处理对于所有数据系统都是必不可少的。在数据处理系统中,数据源是多种多样的,并且数据量很大。如何确保数据处理的可靠性和如何避免重复数据,以及如何确保数据质量,这就需要数据处理系统需要一定的技术。那么大数据处理系统需要攻克的技术点有哪些?

现有的大数据处理系统可以分为两类:批处理大数据系统与流处理大数据系统。以Hadoop为代表的批处理大数据系统需先将数据汇聚成批,经批量预处理后加载至分析型数据仓库中,以进行高性能实时查询。这类系统虽然可对完整大数据集实现高效的即席查询,但无法查询到最新的实时数据,存在数据迟滞高等问题。

相较于批处理大数据系统,以Spark Streaming、Storm、Flink为代表的流处理大数据系统将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。此类系统可以对最新实时数据实现高效预设分析处理模型的查询,数据迟滞低。然而受限于内存容量,系统需丢弃原始历史数据,无法在完整大数据集上支持Ad-Hoc查询分析处理。因此,研发具有快速、高效、智能且自主可控特点的流式大数据实时处理技术与平台是当务之急。

  大数据处理系统需要攻克的技术点有哪些?

实现一个融合批处理和流处理两类系统且对应用透明的系统级方案,需要攻克以下几个技术难点。

  1.复杂指标的增量计算

尽管计数、求和、平均等指标能够依靠查询结果合并实现,然而方差、标准差、熵等大部分复杂指标无法依靠简单合并完成查询结果的融合。再者,当查询涉及热点数据维度及长周期时间窗口的复杂指标时,多次重新计算会带来巨大的计算开销。

  2.基于分布式内存的并行计算

采用粗放的调度策略会造成内存资源的极大浪费,亟须研究实现一种细粒度的基于进度实时感知的融合存储策略,以极大地优化和提升融合系统的内存使用效率。

  3.多尺度时间窗口漂移的动态数据处理

来自业务系统的数据查询请求会涉及多种尺度的时间窗口,如“最近5笔刷卡交易的金额”“最近10 min内密码重试次数”“过去10年的月均交易额”等。每次查询请求都重新计算结果会对系统性能造成极大的影响,亟须研究实现一种支持多种时间窗口尺度、多种窗口漂移方式的动态数据实时处理方法,以快速响应来自业务系统的即席查询请求。

  4.高可用、高可扩展的内存计算

基于内存介质能够大大提升数据分析及处理能力,然而由于其易挥发的特性,一般需要采用多副本的方式来实现基于内存的高可用方案,这使得“如何确保不同副本的一致性”成为一个待解决的问题。此外,在集群内存不足或者部分节点失效时,“如何让集群在不间断提供服务的同时重新平衡”同样是一个待解决的技术难题。亟须研究分布式多副本一致性协议以及自平衡的智能分区算法,以进一步提升流处理集群的可用性以及可扩展性。

“流立方”流式大数据实时处理技术在上述领域取得了一系列突破,该技术提供基于时间窗口漂移的动态数据快速处理,支持计数、求和、平均、最大、最小、方差、标准差、K阶中心矩、递增/递减、最大连续递增/递减、唯一性判别、采集、过滤等多种分布式统计计算模型,并且实现了复杂事件、上下文处理等实时分析处理模型集的高效管理技术。

上述就是关于大数据处理系统需要攻克的技术点有哪些的全部内容介绍,想了解更多关于大数据的信息,请继续关注中培伟业。