AIOps的落地究竟如何?

背景

论这几年的行业关键词,AI的热度一直居高不下。行业炒作、炫技同时也充斥各种质疑的声音,汇总起来就是:

AIOps的落地究竟如何?

AI 仅是实验室的产品

AI无法真正落地......

经历了两年的起起落落,市场的泡沫退却,AI开始回归理性,更看重人工智能与行业的场景结合与落地。

说到底,AI的本质是赋能企业的工具。在场景落地过程中,需要实实在在的解决用户所面临的痛点。我们从2020年中型企业购买应用选择图,人工智能应用占比54.10%,成为中型企业选购的热门应用。

AIOps的落地究竟如何?

 (资料来自网络)

场景落地,不再追求纸面上的算法和名词解读。真正进入一场产业AI,B端用户需求将高效的智能应用推到前端。不难理解,AI场景落地让用户获得一次全新的体验。提高用户效率、改善用户体验和促进业务增长,这些价值点决定AI产业发展具有肥沃的生长土壤。

01智能运维算法应用

智能运维以场景+智能技术应用融合,核心在于探索智能技术如何转化、服务、适配运维行业的发展、如何给运维行业带来解决问题的新思路。基于运维场景,智能运维就是围绕着指标、日志、溯源、告警四要素进行转化的 AI 赋能。

LinkSLA智能运维管家根据多年的实践经验发布了指标异常检测、日志聚类分析、指标根因分析等五大算法问题。

AI赋能场景

1

指标异常检测

降低规则配置的复杂度,智能降噪;

及时告警,为后续的根因分析提供了宝贵的信息和时间。

2

指标趋势预测

用户可以提前获知设备运行状态,例如CPU使用率、磁盘内存和网络响应时间等基本监控,并在未来的库存容量和销售收入中得到指示。获得更多排查时间和缓冲期,规避事件发生;

3

日志聚类分析

加强对日志的管理能力,对于系统产生的海量异构日志,可以通过日志聚类的方法,将相同模式的日志归为一类,以此快速的掌握日志全貌,同时能够方便后续的问题定位与异常检测。

4

指标根因分析

以便为系统故障提供补救措施,根因分析在AIOps中至关重要。在定位系统的根本原因后,运维人员将能够识别问题并进行修复

5

知识库推荐算法

减少用户自行检索问题解决方案的频度与难度,让用户更准确更快捷地找到自己想要的解决方案;

02 AI to B的落地实践

AIOps在运维的五个基本要素,即质量、性能、效率、成本、安全。如何赋能企业客户,接下来将详细讲应用需要做的事情。

1、合理的先级设定。 

优先级的顺序应该是:效率--安全--质量--性能--成本。这里类比历史著名医学案例,扁鹊三兄弟。

对于常出故障的系统,最需要的是扁鹊——治大病,其次需要扁鹊二哥——治小病,最后需要扁鹊大哥——治未病。

也就是,首先要降低故障修复时间,是运维最重要、最痛的点;其次,延长无故障时间,识别并消除小隐患;最后,要通过故障演练,提前发现和解决问题,不影响用户体验。

AIOps从应用价值出发”要事优先“原则,解决故障,既要有全局视野,抓重点细节,也要拓扑故障的根因。

2、点面结合。 

既注重可量化价值的技术点,如业务指标异常检测;也注重端对端价值的场景。

业务指标异常检测,提前X分钟发现故障,就像医院里的医疗设备,比原来的设备检测得更准、更快,价值得到认可。

但是另一面,在应急排障中,基于全栈数据做异常发现;基于趋势异常信号做关联,从而获得“上帝视角”。机器学习算法,在趋势性预测、异常检测算法,日志聚类分析等方面,以庖丁解牛的方式进行拆解,在复杂的运维场景中,完成数据高效分析,达到快速定位根因分析的效果。

总结

智能运维的终极实现目标就是减少对人的依赖,逐步信任机器,实现机器的自判、自断和自决。

发表评论

相关文章