当操作员、开发人员和系统可靠性工程师(SRE)能够快速理解 IT 系统性能的变化并做出反应时,企业系统就具备了可观察性。通过深入了解应用程序和微服务之间的通信情况,工程师和管理员能够立即发现故障和运行速度减慢的情况,而无需像大型企业那样需要高成本、人力密集型的作战室。当复杂的应用程序跨越公共云、自有数据中心和第三方处理器,从而难以确定服务质量下降的根本原因时,您所获得的速度尤其有帮助。
高级可观察性在一个关键方面不同于传统监控:高级可观察性不仅能收集监控中常用的度量数据,还能捕捉事务流和时间,并将其与相关事件和日志结合起来,提供可操作的见解。这些洞察力可提供对系统/应用行为更全面的了解,并有助于发现原本难以发现的问题。
可观察性并不是一个新名词。可观测性是在 1960 年结合控制理论提出的,现在已进入其他学科,包括 IT。由于混合云的复杂性,"云计算可观测性 "也成为了一个流行术语。
可观察性常常与监测相混淆,但两者截然不同。
监控是指随着时间的推移观察系统的性能。监控工具通常从特定来源收集性能数据,如日志文件或性能计数器。例如,监控可以告诉你系统上有多少用户,但不能主动告诉你何时达到容量限制。监控是一种被动的方法,需要你提前知道哪些是需要监控的重要内容。它的局限性之一是只关注特定时间点的指标。
可观察性的功能比监控更广泛。可观察性工具从所有可用来源收集数据,如日志、性能计数器和应用程序代码。然后分析这些数据,以获得系统内部运作的可见性并了解其行为。这些数据可用于发现趋势,并提供如何改进系统的见解,从而在问题出现之前将其检测出来。
可观察性是广泛监控和事务级分析的结果,就像视觉是眼睛和大脑视觉处理的结果一样。OpenText™ 可观察性解决方案与OpenText AIOps 平台相结合,可提供可观察性洞察力以及维护复杂 IT 服务所需的广泛事件、系统管理和修复功能。
关于可观测性解决方案,有两种观点:
请注意,收集到的数据有很大的相似性,但根据上下文(类型与性能)的不同,它们的描述也不同。无论您使用的是 MELT 还是黄金信号,关键都在于关注异常结果,以发现问题并确定问题发生的位置。在题为 "OpenTelemetry 如何帮助实现可观察性?"的下一节中,您可以了解更多有关 OpenTelemetry 如何使用这些数据来提供非凡的可观察性的信息。
OpenTelemetry是云原生计算基金会管理的一个开源项目。它提供了一个厂商中立的仪器协议,用于收集遥测数据,包括指标、跟踪和日志。该协议适用于所有编程语言和平台,让您可以在单一视图中分析所有数据。这种标准化方法在定义和关联遥测数据的同时简化了仪器操作。OpenTelemetry 的主要优势在于其可移植性,这使得开发人员和中央 IT 部门可以选择最适合其角色的工具集。
IT 运营部通常会监控数据中心,以保持服务正常运行时间和性能。当出现与硬件或软件故障无关的问题时,IT 运维部门会为开发人员开单,让他们使用可观察性工具研究潜在问题。开发人员经常在 Promotheus 中执行复杂的查询,创建用于分析的数据流并访问日志以调查故障。
随着 OpenTelemetry 的出现,IT 运营团队可以通过包含相关指标和日志的跟踪来简化数据收集和分析。OpenTelemetry 协议的相关功能使操作员无需使用 PromQL 等复杂的编程语言或执行日志查询来启动和理解可观测性数据。
相反,他们可以通过点击轻松访问相关数据。虽然操作员可能不会提出代码更新建议,但他们可以识别性能瓶颈,并将问题单直接转给责任方--无论是内部开发人员还是在应用程序中遇到减速问题的第三方供应商。
通过这些关键优势,企业可以获得全面的 IT 可观察性:
如果实施得当,可观察性可以成为获得完整 IT 可见性的强大工具,从而对组织的 IT 性能质量、效率、上市时间和盈利能力产生积极影响。
AIOps通过将洞察力转化为行动来增强可观察性。例如,可观察性可以帮助开发人员了解特定代码段对应用程序行为的影响,而 AIOps 则使运营团队能够以最小的工作量自动响应中断和减速。这些工具共同为团队提供了最大限度的可视性,以及对问题及其影响的深刻理解。
这种组合对于顺利运营至关重要,尤其是在拥有跨职能团队和高度分布式计算环境的情况下。AIOPs 加上可观察性,可增强关键的日常 IT 操作,包括
从优化网络交易到确保 IT 性能满足客户期望,AIOps 和可观察性都有广泛的应用。下面是一个突出其价值的使用案例:
假设你是一名开发人员,试图找出系统崩溃的原因。如果使用监控功能,您必须确保所有相关系统都已受到监控,手动从中收集数据,然后尝试拼凑出发生了什么。这个过程既困难又耗时,因为你的数据都是崩溃发生后的。
借助 AIOps 和可观察性,您可以自动访问所有可用来源的数据,包括相关指标、日志和跟踪。您还可以访问来自公共和私有文档的 GenAI 修复建议以及自动修复。最重要的是,您可以借助分析功能发现异常情况,以便在系统崩溃前找到问题所在。
成本是可观察性工具的一个主要缺点。最近的一项调查发现,几乎所有受访者(98%)每年至少有几次遇到超支或意外费用激增的情况,其中 51% 的受访者至少每月都会遇到超支或意外费用激增的情况。
这些峰值主要是由于可观察性工具供应商收取的摄取成本造成的,这些工具可以获取与应用程序事务相关的大量数据。这些成本有两种结果:
在这两种情况下,OpenTelemetry 的出现以及OpenText 等供应商提供的更具成本效益的定价,可以将监控范围扩展到所有 IT 服务,并允许 IT 运营部门访问这些工具。
为了最大限度地提高可观察性在企业中的价值,请考虑以下基本最佳实践:
从明确的目标开始
定义有意义的衡量标准
设置适当的仪器
创建有效的仪表板
OpenText 提供全面的可观察性解决方案,旨在满足现代 IT 环境的复杂需求。我们的集成方法可确保您整个 IT 产业的完全可视性:
云计算可观察性 OpenText 的云计算可观察性解决方案可深入洞察多个云计算提供商的云原生应用程序和基础架构。这些解决方案使企业能够监控云资源利用率、成本和性能,同时确保最佳的服务交付。团队可以快速识别并解决云环境特有的问题,例如配置错误的服务或资源限制。
应用程序可观察性 我们的应用程序可观察性功能可提供有关应用程序性能、用户体验和业务事务的详细见解。该解决方案可帮助开发和运营团队了解应用程序行为、跟踪用户旅程并优化应用程序性能。它包括实时监控、代码级诊断和用户体验分析功能。
OpenText Application Observability 有哪些新功能?
基础架构可观察性 OpenText 的基础架构可观察性解决方案可对整个 IT 基础架构(包括服务器、存储和虚拟化环境)进行全面监控和分析。该解决方案使团队能够跟踪混合环境中的资源利用率、容量趋势和基础架构健康状况,确保实现最佳性能和资源分配。
OpenText Infrastructure Observability 有哪些新功能?
网络可观察性 我们的网络可观察性解决方案提供端到端的网络性能、流量模式和连接问题可视性。它可帮助企业保持最佳网络性能、识别潜在的安全威胁并确保可靠的服务交付。该解决方案包括用于网络故障排除、容量规划和性能优化的高级分析。
可观察性是了解整个基础架构整体状态的重要因素。大量出于好意而实施的工具给 IT 产业带来了混乱,导致系统变得前所未有的复杂。
这种复杂性严重阻碍了系统故障排除和管理。工具越多,问题就越多,尤其是当常用工具停止工作时,问题就更难发现和解决。
有效的可观察性工具提供了一种积极主动的补救方法,有助于更快地发现问题。
利用跨云的全栈 AIOps 构建业务可靠性
利用 OpenTelemetry 经济高效地监控和管理应用程序
提升云计算和企业内部基础设施的性能
优化不断发展的网络
缩小云网络与非云网络之间的可观测性差距