数据中心技术包括云计算、内部部署技术和IT管理方法的组合而成。IT运营团队正在努力适应这一新现实,并应对其带来的日益复杂的问题。人们可以从新闻报道中了解到,越来越多的停电和停机事件使银行和金融服务瘫痪、强迫机场停止运营、影响了医疗的可用性。因此AIOps的出现,解决了这些问题,那么AIOps发展趋势如何?
第一个趋势就是AIOps落地的多样化,这个结论是基于我通过多种渠道采集到的信息。我们自己有一个公众号“智能运维前沿”,马上要突破10000个用户了;我们还有一个超过千人AIOps群,已经成功举办了两届AIOps 挑战赛,我一年中会到几十家各行各业机构去进行现场交流。从上述多种渠道采集到的信息清楚表明:现在开始落地AIOps的,除了互联网公司、银行以外,证券、保险,电力、运营商、工业制造、国家机关、自动驾驶公司也都在尝试AIOps落地。
第二个趋势是AIOps产业生态化。各个行业都在试图尝试落地AIOps,给AIOps方向提供了一个很好的产业基础。“产、学、研、用”各方也都在积极跟进,形成了一个AIOps生态系统。在这个生态系统里,专业的人负责专业的事,有越来越多的学术机构从事AIOps原理研究;由机构用户负责提出实际需求,由有预研能力的厂商把AIOps原理上的突破变成实际落地效果;有负责数据采集、接入、存储等的厂商,还有负责集成、交付、维保等的厂商。也就是说,“学、研、产、用”几方专业分工,通力协作。AIOps产业生态化在AIOps落地过程中是一个重要的里程碑,会大力推动AIOps的更快落地。
第三个趋势是AIOps数据多样化。数据中心的系统物理架构和软件架构都非常庞大复杂。因此我们必须采集、治理、融合多种运维数据源、从中提取对运维最有用的信息,帮助我们了解数据中心最新最全的运行状态, 从而为AIOps的众多场景服务。因此我们说AIOps数据多样化是必然趋势。
第四个趋势是AIOps场景多样化。下面罗列了一些我们与合作伙伴合作、交流时遇到的具体场景。我们分成几个大场景:即异常发现、事件发现、事件分析、系统画像、图谱丰富等。每一个大场景会包含很多的具体场景,比如“事件分析”大场景就包括“异常机器定位”、“交易链条定位”、“多维度异常定位”等多种类型的事件分析。也就是说,当用户认识到AIOps能实际帮助到运维的时候,会自发与生态系统中的伙伴共同找到越发多样化的AIOps场景。
第五个趋势是AIOps场景精细化。异常检测(也就是通过分析监控数据自动发现运维故障)就包含单指标异常检测、多指标异常检测、多维度异常检测、日志异常检测等等。而单指标异常检测在检测业务、机器、网络、数据库、存储系统、批处理的异常时,其场景和检测侧重点会有所不同,因此需要针对精细化的具体场景进行AIOps异常检测算法的适当调整或适配。
为了避免AIOps场景多样化和精细化导致的落地工作量增加,我们必须把各类场景用到的AIOps算法共性部分抽象提炼出来作为公用模块,为多个场景服务。如下图所示,从日志数据测量出的指标数据的异常检测,就可以复用单指标异常检测这一算法模块,并且这一算法模块已经服务化,即可以通过API直接调用。所以我们说的第六个趋势就是AIOps算法服务化,提升了效率,让整体服务得更好。
在AIOps场景多样化、场景精细化、算法服务化的前提下,第七个趋势,即AIOps技术平台化也就水到渠成了。AIOps技术平台化打穿多个场景、多个数据源、多个算法。如下图所示,上面输入的是各种运维监控数据,输出的就是我们所需要的各种运维智能,中间是各种服务化的AIOps算法。不管具体的某个运维场景有什么样的特点,我们都可以通过整体平台进行自由组合和编排,从而高效落地该运维场景,避免传统方法的重复低效落地。
这也就引出了第八个趋势:AIOps新算法落地加速化。
以往一个新算法研制出来后,需要大量的工程工作配合才能让新算法产生实际效果。有了平台化之后,只需要通过编排把该新算法、新算法所需数据、已有工程工作“串”在一起,就能够快速落地。比如做了一个0day攻击检测算法ZeroWall,我们在一家具体机构进行尝试的时候,一周内捕获28种0day攻击,每天捕获上万条0day攻击,每天误报数0到6个。如果按照以往方法,我们要花大量的时间去做ZeroWall的落地工作,而有了AIOps平台化, ZeroWall的落地工作就快了很多。
在过去半年期间,各个行业的合作伙伴都提出了AIOps成熟度评估标准化的需求,而银保监会、证监会、人行、工信部相关领导也都表示会支持。这个事情我也已经着手联合各方开始做,预计一两年的时间才能做出一个切实可行的标准。
AIOps发展趋势如何通过上述介绍,相信大家已经知晓,想了解更多关于AIOps的信息,请继续关注中培伟业。