技术主题

什么是 AIOps?

以问号为重点的信息技术项目图示

概述

AIOps 是 IT 运营人工智能的通用简称。AIOps 的其他名称包括 IT 运营分析(ITOA)、高级运营分析、ITOM 人工智能、IT 数据分析和认知运营。

AIOps 是大数据分析、人工智能和机器学习在 IT 运营数据中的多层次应用。其目标是实现 IT 运营自动化,智能识别模式,增强常见流程和任务,并解决 IT 问题。

通过将服务管理、性能管理和自动化结合在一起,AIOps 可以帮助企业实现持续的洞察和改进。它可以监控和管理应用程序和硬件系统的性能和可靠性,检测异常问题,适应负载变化,处理故障,并在干扰最小的情况下主动进行调整。

AIOps

定义 AIOps

AIOps 是 IT 运营人工Intelligence 的缩写。它是一种先进的分析方法,包括机器学习和人工智能,用于监控和管理应用程序和硬件系统的性能和可靠性,检测异常问题,适应负载变化,处理故障,并在不中断或尽量少中断服务的情况下主动或快速调整。AIOps 的其他名称包括 IT 运营分析(ITOA)、高级运营分析、ITOM 的人工智能、IT 数据分析和认知运营。

AIOps 是将大数据分析和机器学习多层次地应用于IT 运营数据。其目标是实现 IT 运营自动化、智能识别模式、增强常见流程和任务并解决 IT 问题。AIOps 将服务管理性能管理、事件管理和自动化结合在一起,以实现持续的洞察和改进。

行业分析师定义了 AIOps 平台应提供的一系列功能。这些功能包括

  • 收集和汇总多种来源的数据,如网络、应用程序、数据库、工具和云,以及各种形式的数据,包括指标、事件、事故、变更、拓扑结构、日志文件、配置数据、关键绩效指标、流式数据和非结构化数据(如社交媒体帖子)以及文档(自然语言处理)。
  • 管理数据,将数据存储在一个可用于分析和报告的地方,还包括索引和过期等功能。
  • 通过机器学习分析数据,包括模式检测、异常检测和预测分析。
  • 将重要警报与 "噪音 "区分开来。
  • 对数据进行关联和上下文关联,同时进行实时处理,以识别问题。
  • 充当战略叠加器,汇集多种监测工具和其他投资。
  • 将知识固化为响应和修复的自动化和协调。
  • 不断学习,改进今后处理和解决问题的能力。

为什么需要 AIOps?

许多组织已从静态、分散的现场系统过渡到更动态的内部部署、公共云、私有云和托管云环境组合,在这些环境中,资源会不断扩展和重新配置。

更多的设备(尤其是Internet of Things 或物联网)、系统和应用正在提供 IT 需要监控的海啸般的数据。例如,如果您有 10,000 台服务器或虚拟机,并且每分钟监控 100 个指标,那么每小时就有 6,000 万个数据点。 

没有人能够处理 IT 运营部需要处理的爆炸性数据。IT 团队无法按优先级及时解决不同的问题。他们被大量的警报淹没,其中许多警报都是多余的。这可能会导致警报疲劳,即重要的警报可能会因为不重要的警报而被忽略。这会对用户和客户体验造成负面影响。

传统的 IT 管理解决方案无法跟上信息量的增长。它们无法从海量信息中智能地筛选出指标和事件。它们无法在相互依存但又各自独立的环境中关联数据。它们无法提供 IT 运营所需的预测分析和实时洞察力,从而无法对问题做出快速响应。

为了更快地识别、解决和预防影响较大的故障和其他 IT 运营问题,企业正在转向 AIOps。AIOps 使 IT 运营团队能够快速、主动地应对故障和宕机,同时花费更少的精力。它弥补了动态、多样和困难的 IT 环境与用户对系统可用性和性能的最低或零中断期望之间的差距。


AIOps 有哪些好处?

AIOps 对 IT 运营的好处包括

  • 更有效地利用基础设施和能力
  • 改进变革与绩效之间的相关性,并提高其他变革管理效率。
  • 通过异常检测,在客户受到影响之前预防问题的发生。
  • 通过更快的根本原因分析 (RCA),准确定位问题或减少操作员在事故发生时必须检查的项目数量。
  • 加快重要 IT 系统的平均问题检测时间(MTTD)和平均问题解决时间(MTTR)。
  • 统一 IT 环境视图
  • 深入了解哪些工作负载会导致成本增加。
  • 减少代价高昂的中断。
  • 支持传统基础设施、公共云、私有云和混合云。
  • 更快地交付新的 IT 服务。

为员工和客户带来的好处包括

AIOps 通常通过优化网络来提高 IT 服务的质量,它使 IT 运营和 IT 运营团队现代化,不仅仅是解决问题,而是随着时间的推移不断改进,使 IT 系统和运营变得更好。

所有这一切都将提高服务质量和客户满意度,减少客户流失,同时比人工方式的 IT 运营管理大大节约成本。


AIOps 的三个阶段

检测 IT 事件

在发生或已经发生 IT 事故时,及时发现并报告。

  • 历史分析
  • 性能分析
  • 找到瓶颈
  • 显示哪些设备超载
  • 查找服务故障
  • 对各种事件、日志和指标进行关联和上下文分析

预测 IT 事故

识别潜在的 IT 事故,并在影响用户之前对其进行报告。

  • 异常检测
  • 变革影响分析
  • 在故障、过载或其他故障情况影响用户之前进行预测
  • 能力管理

减少 IT 事故

自动修复 IT 事件或向人工发送报告,使他们更容易解决问题。

  • 根本原因分析
  • 自动或辅助预测性维护
  • 自动或辅助网络优化
  • 增强型技术支持

如何开始使用 AIOps

当您决定采用 AIOps 时,主要有两种途径:

两者各有利弊,但大致相当于购买一个好引擎来制造自己的汽车或购买一辆快车。考虑一下你想做哪一种。

构建自己的 AIOps 解决方案

使用快速、嵌入式 AIOps 引擎自行构建的原因如下:

  • 您有独特的 IT 环境或非典型的要求。
  • 您希望将 AIOps 纳入更广泛的公司人工智能项目。
  • 您拥有技术精湛的 IT、数据科学和软件工程部门。
  • 您希望构建 AIOps 解决方案,并将其销售给专注于某个行业(如电信)的其他公司。

OpenText™ Vertica™ Data Platform是许多 AIOps 解决方案公司内部的强大数据分析引擎,这些公司销售 AIOps 解决方案,通常针对特定行业或地区进行定制。

例子包括

购买开箱即用的 AIOps 解决方案

购买开箱即用的预包装 AIOps 解决方案的原因:

  • 您希望利用供应商的专业知识。
  • 你想更快地发展,那就是你没有时间建立自己的系统。
  • 您希望您的专家专注于公司的核心竞争力,而不是 IT 运营。
  • 您不想为软件提供持续支持。

OpenText™ Operations Bridge是一款企业事件和性能管理软件,可自动监控和分析跨所有数据类型的任何设备、操作系统、数据库、应用程序或服务的多云和内部部署资源的健康状况和性能。

探索 AIOps 技术如何提供速度和规模,以领先解决影响客户体验并最终影响收入的服务可靠性问题。


AIOps 成功案例

AIOps 平台提供基于人工智能的相关性,以减少噪音

AIOps 帮助葡萄牙最大的通信和娱乐集团 NOS 区分噪音和事实,方法是使用基于人工智能的自动事件关联(AEC),利用机器学习和算法分析事件流中的模式,并利用这些模式将事件分组,这些事件很有可能源自同一个问题。通过这种分组方式,操作员可以集中精力处理事件。它显示了按 AEC 分组的所有相关事件,从而更容易识别和解决根本原因。

AIOps 为自动化 IT 监控解决方案提供动力

法国 IT 服务提供商 NXO France 使用 AIOps 构建并部署了创新的自动化 IT 监控解决方案,以全面准确地了解 NXO 客户所使用的动态复杂网络,并通过数千种开箱即用的操作自动执行补救措施任务。

利用 AIOps 积极主动地解决问题,提高服务质量,改进决策流程

Türk Telekom 是土耳其领先的信息和通信技术公司。他们使用 AIOps 提供即时影响分析和自动运行算法的能力,以检测问题的根本原因,并对结果进行实时监控。"我们在其他业务领域与OpenText 建立了合作伙伴关系,并认为 AIOps 的全套解决方案将使该项目受益匪浅"。

我们能提供什么帮助?

脚注