技术主题

什么是 IT 运营中的可观察性?

以笔记本电脑为重点的 IT 项目图示

概述

当操作员、开发人员和系统可靠性工程师(SRE)能够快速理解 IT 系统性能的变化并做出反应时,企业系统就具备了可观察性。通过深入了解应用程序和微服务之间的通信情况,工程师和管理员能够立即发现故障和运行速度减慢的情况,而无需像大型企业那样需要高成本、人力密集型的作战室。当复杂的应用程序跨越公共云、自有数据中心和第三方处理器,从而难以确定服务质量下降的根本原因时,您所获得的速度尤其有帮助。

高级可观察性在一个关键方面不同于传统监控:高级可观察性不仅能收集监控中常用的度量数据,还能捕捉事务流和时间,并将其与相关事件和日志结合起来,提供可操作的见解。这些洞察力可提供对系统/应用行为更全面的了解,并有助于发现原本难以发现的问题。

可观察性并不是一个新名词。可观测性是在 1960 年结合控制理论提出的,现在已进入其他学科,包括 IT。由于混合云的复杂性,"云计算可观测性 "也成为了一个流行术语。

了解如何使用 OpenTelemetry 驱动的可观察性来实现现代洞察力。

可观察性

监测和可观测性之间有何区别?

可观察性常常与监测相混淆,但两者截然不同。

监控是指随着时间的推移观察系统的性能。监控工具通常从特定来源收集性能数据,如日志文件或性能计数器。例如,监控可以告诉你系统上有多少用户,但不能主动告诉你何时达到容量限制。监控是一种被动的方法,需要你提前知道哪些是需要监控的重要内容。它的局限性之一是只关注特定时间点的指标。

可观察性的功能比监控更广泛。可观察性工具从所有可用来源收集数据,如日志、性能计数器和应用程序代码。然后分析这些数据,以获得系统内部运作的可见性并了解其行为。这些数据可用于发现趋势,并提供如何改进系统的见解,从而在问题出现之前将其检测出来。

可观察性是广泛监控和事务级分析的结果,就像视觉是眼睛和大脑视觉处理的结果一样。OpenText™ 可观察性解决方案OpenText AIOps 平台相结合,可提供可观察性洞察力以及维护复杂 IT 服务所需的广泛事件、系统管理和修复功能。


可观测性的重要数据类型有哪些?

关于可观测性解决方案,有两种观点:

  1. MELT.这个首字母缩略词确定了作为可观测性一部分所收集的数据类型。
    • 度量:这是典型的监控--测量从微秒级网络响应时间到完整合成事务的时间活动。
    • 事件:测量期间发生的由系统生成的事件。
    • 日志:非结构化数据,可深入了解系统活动。
    • 跟踪:记录请求在分布式系统节点中移动的整个过程的可视化表示,提供服务间连接的时间明细和上下文。
  2. 黄金信号。黄金信号由Google 推广,是其 SRE 手册的一部分,代表了一种更加以性能为中心的解决问题的方法。
    • 延迟:应用程序处理一个请求所需的时间。
    • 流量:系统收到的请求数量。
    • 错误率:请求失败率。
    • 饱和度:服务能力状况。

请注意,收集到的数据有很大的相似性,但根据上下文(类型与性能)的不同,它们的描述也不同。无论您使用的是 MELT 还是黄金信号,关键都在于关注异常结果,以发现问题并确定问题发生的位置。在题为 "OpenTelemetry 如何帮助实现可观察性?"的下一节中,您可以了解更多有关 OpenTelemetry 如何使用这些数据来提供非凡的可观察性的信息。


OpenTelemetry 如何帮助实现可观测性?

OpenTelemetry云原生计算基金会管理的一个开源项目。它提供了一个厂商中立的仪器协议,用于收集遥测数据,包括指标、跟踪和日志。该协议适用于所有编程语言和平台,让您可以在单一视图中分析所有数据。这种标准化方法在定义和关联遥测数据的同时简化了仪器操作。OpenTelemetry 的主要优势在于其可移植性,这使得开发人员和中央 IT 部门可以选择最适合其角色的工具集。


可观察性和 IT 运行

IT 运营部通常会监控数据中心,以保持服务正常运行时间和性能。当出现与硬件或软件故障无关的问题时,IT 运维部门会为开发人员开单,让他们使用可观察性工具研究潜在问题。开发人员经常在 Promotheus 中执行复杂的查询,创建用于分析的数据流并访问日志以调查故障。

随着 OpenTelemetry 的出现,IT 运营团队可以通过包含相关指标和日志的跟踪来简化数据收集和分析。OpenTelemetry 协议的相关功能使操作员无需使用 PromQL 等复杂的编程语言或执行日志查询来启动和理解可观测性数据。

相反,他们可以通过点击轻松访问相关数据。虽然操作员可能不会提出代码更新建议,但他们可以识别性能瓶颈,并将问题单直接转给责任方--无论是内部开发人员还是在应用程序中遇到减速问题的第三方供应商。


可观察性有哪些好处?

通过这些关键优势,企业可以获得全面的 IT 可观察性

  • 提高质量:观察得越多,发现的关键问题就越多,从而生产出更好的产品,满足利益相关者和客户的期望。
  • 提高效率:通过可观测性,公司可以快速调试系统和软件。
  • 降低成本:延长调试时间会耗费大量的时间和金钱,而从长远来看,可观察性可以降低这些成本。
  • 更快上市:有了可观察性,您就可以如期交付新的/更新的应用程序等 IT 服务
  • 应用程序性能监控:全面的可观察性使企业能够立即诊断关键软件问题并改进性能指标。
  • 有助于业务分析:由于可观察性是一个数据密集型过程,您可以了解更多有关关键绩效指标(KPI)的信息,如投资回报率(ROI)和您的底线。
  • 卓越的用户体验:在问题出现之前发现问题,可带来卓越的用户体验,从而提高组织的声誉和盈利能力。
  • 基础设施、云和 Kubernetes 监控:Observability 可帮助基础架构和运营 (I&O) 团队、Kubernetes 环境和云检测软件问题。其结果是增强了对构成成功应用的所有组件的覆盖。
  • 改进根本原因分析:指标、日志和跟踪的结合可实现更快、更准确的根本原因分析。团队可以快速关联不同系统和服务的数据,找出问题的根源。
  • 加强协作:可观察性为开发、运营和业务团队提供了对系统行为的共同理解。这种共同点可以改善沟通,加快问题的解决。
  • 预测性问题解决方案:通过全面的可观察性数据和高级分析,企业可以在潜在问题影响用户之前就将其识别出来。这种积极主动的方法可减少停机时间,提高服务可靠性。
  • 可扩展性管理:Observability 可为系统可扩展性管理提供重要见解,帮助企业优化资源并有效规划增长。

如果实施得当,可观察性可以成为获得完整 IT 可见性的强大工具,从而对组织的 IT 性能质量、效率、上市时间和盈利能力产生积极影响。


AIOps 如何与可观察性协同工作?

AIOps通过将洞察力转化为行动来增强可观察性。例如,可观察性可以帮助开发人员了解特定代码段对应用程序行为的影响,而 AIOps 则使运营团队能够以最小的工作量自动响应中断和减速。这些工具共同为团队提供了最大限度的可视性,以及对问题及其影响的深刻理解。

这种组合对于顺利运营至关重要,尤其是在拥有跨职能团队和高度分布式计算环境的情况下。AIOPs 加上可观察性,可增强关键的日常 IT 操作,包括

  • 精确调试:使用来自事件、指标、日志、跟踪和其他可用来源的数据,快速识别并解决问题。
  • 主动检测:利用可视化和基于算法的趋势来识别潜在问题,从而在问题出现之前进行检测。
  • 具有成本效益的维护:让应用程序所有者和中央 IT 团队有能力监控整个企业的系统,广泛了解软件和硬件故障及性能,而无需依赖昂贵的开发人员或 SRE 资源。
  • 提高效率:深入了解如何改进系统并做出相应改变。
  • 更广泛地覆盖多个云原生架构:采用第三方工具来实现对多个云原生架构的全面了解,而不是依赖于公共云供应商的性能工具。
  • 基于 GenAI 的 IT 运营加速:通过基于 GenAI 的事件驱动修复建议和智能文档查询,使经验丰富的操作员和新操作员都能快速了解并修复检测到的问题。
  • 综合修复:利用强大的 AIOps 平台提供自动或用户实施的修复,推动高效率和高效益的运营。

从优化网络交易到确保 IT 性能满足客户期望,AIOps 和可观察性都有广泛的应用。下面是一个突出其价值的使用案例:

假设你是一名开发人员,试图找出系统崩溃的原因。如果使用监控功能,您必须确保所有相关系统都已受到监控,手动从中收集数据,然后尝试拼凑出发生了什么。这个过程既困难又耗时,因为你的数据都是崩溃发生后的。

借助 AIOps 和可观察性,您可以自动访问所有可用来源的数据,包括相关指标、日志和跟踪。您还可以访问来自公共和私有文档的 GenAI 修复建议以及自动修复。最重要的是,您可以借助分析功能发现异常情况,以便在系统崩溃前找到问题所在。


可观察性工具和成本

成本是可观察性工具的一个主要缺点。最近的一项调查发现,几乎所有受访者(98%)每年至少有几次遇到超支或意外费用激增的情况,其中 51% 的受访者至少每月都会遇到超支或意外费用激增的情况

这些峰值主要是由于可观察性工具供应商收取的摄取成本造成的,这些工具可以获取与应用程序事务相关的大量数据。这些成本有两种结果:

  1. 使用可观测性的应用软件不全(只有那些被评为对企业运作至关重要的应用软件)。
  2. 除了 SRE 和开发人员之外,没有扩展可观察性工具。

在这两种情况下,OpenTelemetry 的出现以及OpenText 等供应商提供的更具成本效益的定价,可以将监控范围扩展到所有 IT 服务,并允许 IT 运营部门访问这些工具。


可观察性的最佳做法是什么?

为了最大限度地提高可观察性在企业中的价值,请考虑以下基本最佳实践:

从明确的目标开始

  • 确定可观察性实施的具体目标。
  • 确定需要详细监控的关键系统和服务。
  • 建立正常系统行为的基准指标。

定义有意义的衡量标准

  • 关注直接影响业务成果的指标。
  • 实施 USE 方法(利用率、饱和度、误差)。
  • 为特定业务流程创建自定义指标。

设置适当的仪器

  • 尽可能采用自动仪器。
  • 确保各系统的标记和标签一致。
  • 平衡数据粒度与存储和性能成本。

创建有效的仪表板

  • 设计能清晰描述系统健康状况的仪表盘。
  • 包括高层概览和详细的深入分析功能。
  • 针对不同利益相关者的需求定制视图。

OpenText 可观察性解决方案

OpenText 提供全面的可观察性解决方案,旨在满足现代 IT 环境的复杂需求。我们的集成方法可确保您整个 IT 产业的完全可视性:

云计算可观察性 OpenText 的云计算可观察性解决方案可深入洞察多个云计算提供商的云原生应用程序和基础架构。这些解决方案使企业能够监控云资源利用率、成本和性能,同时确保最佳的服务交付。团队可以快速识别并解决云环境特有的问题,例如配置错误的服务或资源限制。

应用程序可观察性 我们的应用程序可观察性功能可提供有关应用程序性能、用户体验和业务事务的详细见解。该解决方案可帮助开发和运营团队了解应用程序行为、跟踪用户旅程并优化应用程序性能。它包括实时监控、代码级诊断和用户体验分析功能。
OpenText Application Observability 有哪些新功能?

基础架构可观察性 OpenText 的基础架构可观察性解决方案可对整个 IT 基础架构(包括服务器、存储和虚拟化环境)进行全面监控和分析。该解决方案使团队能够跟踪混合环境中的资源利用率、容量趋势和基础架构健康状况,确保实现最佳性能和资源分配。
OpenText Infrastructure Observability 有哪些新功能?

网络可观察性 我们的网络可观察性解决方案提供端到端的网络性能、流量模式和连接问题可视性。它可帮助企业保持最佳网络性能、识别潜在的安全威胁并确保可靠的服务交付。该解决方案包括用于网络故障排除、容量规划和性能优化的高级分析。


可观察性的底线:更好地了解 IT 产业

可观察性是了解整个基础架构整体状态的重要因素。大量出于好意而实施的工具给 IT 产业带来了混乱,导致系统变得前所未有的复杂。

这种复杂性严重阻碍了系统故障排除和管理。工具越多,问题就越多,尤其是当常用工具停止工作时,问题就更难发现和解决。

有效的可观察性工具提供了一种积极主动的补救方法,有助于更快地发现问题。

相关产品

OpenText AI Operations Management

利用跨云的全栈 AIOps 构建业务可靠性

OpenText Core Application Observability

利用 OpenTelemetry 经济高效地监控和管理应用程序

OpenText Core Infrastructure Observability

提升云计算和企业内部基础设施的性能

OpenText Network Operations Management

优化不断发展的网络

OpenText 核心云网络可观察性

缩小云网络与非云网络之间的可观测性差距

我们能提供什么帮助?

脚注