技術主題

什麼是 IT 運營中的可觀測性?

以筆記型電腦為重點的 IT 專案插圖

概述

當操作人員、開發人員和系統可靠度工程師 (SRE) 能夠快速理解 IT 系統效能的變化並做出反應時,企業系統的可觀察性便可實現。藉由深入瞭解應用程式與微服務之間的溝通,工程師和管理員能夠立即發現故障和緩衝,而不需要像大型組織一樣需要高成本、人力密集的戰鬥室。當複雜的應用程式跨越公有雲、自有資料中心和協力廠商處理器時,您所獲得的速度會特別有幫助,因為這樣會使您更難找出服務降級的根本原因。

先進的可觀察性在一個關鍵方面有別於傳統的監控:先進的可觀察性不僅可收集監控中常見的度量資料,還可擷取交易流程和時間,並將其與相關事件和日誌結合,以提供可行的洞察力。這些洞察力可提供對系統/應用程式行為更全面的瞭解,並有助於找出原本難以發現的問題。

可觀察性並非新術語。可觀察性於 1960 年與控制理論結合而創造,現在已進入其他學科,包括 IT。由於混合雲的複雜性,「雲端可觀測性」也成為一個流行的名詞。

看看如何使用 OpenTelemetry 驅動的可觀察性來轉向現代的洞察力。

可觀察性

監控和可觀測性有什麼區別?

可觀測性經常與監控相混淆,但兩者是完全不同的。

監控是指隨時間觀察系統的效能。監控工具通常會從特定來源收集效能資料,例如記錄檔或效能計數器。例如,監控可以告訴您系統上有多少使用者,但不會主動告訴您何時達到容量限制。監控是一種被動式的方法,需要您事先知道哪些是重要的監控項目。它的限制之一是它專注於擷取特定時間點的指標。

可觀察性的功能比監視更廣泛。可觀察性工具從所有可用來源收集資料,例如日誌、效能計數器和應用程式碼。然後分析這些資料,以獲得系統內部運作的可視性,並瞭解其行為。這些資料可用於識別趨勢,並深入瞭解如何改進系統,從而在問題發生之前加以偵測。

可觀察性是廣泛監控和交易層級分析的結果,就像視力是眼睛和大腦視覺處理的結果一樣。OpenText™ 可觀察性解決方案OpenText AIOps 平台結合後,可提供可觀察性洞察力,以及維護複雜 IT 服務所需的廣泛事件、系統管理和修復功能。


對於可觀察性而言,哪些是重要的資料類型?

可觀察性解決方案有兩種流派:

  1. MELT。這個首字母縮寫識別了作為可觀察性一部分所收集的資料類型。
    • 度量:這是典型的監控 - 從微秒級的網路回應時間到完整的合成交易,測量隨時間變化的活動。
    • 事件:測量期間發生的系統產生事件。
    • 日誌:提供系統活動深入瞭解的非結構化資料。
    • 軌跡:記錄請求在分散式系統節點中移動的整個過程的視覺表示,提供服務之間連接的時序明細與上下文。
  2. 黃金訊號。黃金訊號由Google 推廣為其 SRE 手冊的一部分,代表一種更以效能為中心的解決問題方法。
    • 延遲:您的應用程式為一個請求提供服務所需的時間。
    • 流量:系統收到的要求數量。
    • 錯誤:請求失敗的比率。
    • 飽和:服務內容量的狀態。

請注意,收集到的資料有顯著的相似性,但根據上下文(類型 vs 性能)的不同而有不同的描述。無論您使用的是 MELT 或黃金訊號,關鍵都是要專注於異常結果,以偵測問題並確認問題發生的位置。在下一節,標題為OpenTelemetry 如何幫助可觀察性? 你可以了解更多關於 OpenTelemetry 如何使用這些資料來提供非凡的可觀察性。


OpenTelemetry 對可觀察性有何幫助?

OpenTelemetry是一個由Cloud Native Computing Foundation 管理的開放源碼專案。它提供一個廠商中立的儀器通訊協定,用於收集遙測資料,包括度量值、軌跡和日誌。此協定適用於所有程式語言和平台,讓您可以在單一檢視中分析所有資料。這種標準化的方法在定義與關聯遙測資料的同時,也簡化了儀器的使用。OpenTelemetry 的主要優勢在於其可移植性,可讓開發人員和中央 IT 選擇最適合其角色的工具集。


可觀察性與 IT 作業

IT 營運部通常會監控其資料中心,以維持服務的正常運作時間和效能。當出現與硬體或軟體故障無關的問題時,IT Operations 會開啟票單,讓開發人員使用可觀察性工具研究潛在問題。開發人員通常會在 Promotheus 中執行複雜的查詢,建立資料流以進行分析,並存取日誌以調查故障。

隨著 OpenTelemetry 的出現,IT 運作團隊可以透過包含相關指標和日誌的追蹤來簡化資料收集和分析。OpenTelemetry 通訊協定的關聯功能,讓操作人員無需使用複雜的程式語言 (如 PromQL) 或執行日誌查詢,即可啟動並瞭解可觀察性資料。

相反,他們可以輕鬆地點選存取相關資料。雖然操作員可能不會建議程式碼更新,但他們可以找出效能瓶頸,並直接將單據傳送給負責方 - 不論是內部開發人員或在應用程式中遇到速度緩慢問題的協力廠商。


可觀測性有什麼好處?

組織可透過這些主要優點獲得完整的 IT 可觀察性

  • 提高品質:觀察越多,就能發現越多的關鍵問題,進而製造出更好的產品,滿足利害關係人和客戶的期望。
  • 提高效率:透過可觀察性,公司可以快速調試系統和軟體。
  • 降低成本:長時間的除錯會耗費大量的時間和金錢,長遠來說,可觀察性可以降低成本。
  • 更快上市:有了可觀察性,您就可以如期提供 IT 服務,例如新的/更新的應用程式
  • 應用程式效能監控:全面的可觀察性可讓組織立即診斷重要的軟體問題,並改善效能指標。
  • 有助於業務分析:由於可觀察性是一個重數據的過程,您可以瞭解更多關於關鍵績效指標 (KPI),例如投資報酬率 (ROI) 和您的底線。
  • 卓越的使用者體驗:在問題發生之前偵測問題,可提供卓越的使用者體驗,進而提升組織的聲譽與獲利能力。
  • 基礎架構、雲端及 Kubernetes 監控:Observability 可協助偵測基礎架構與作業 (I&O) 團隊、Kubernetes 環境和雲端的軟體問題。其結果是增強了對成功應用程式所有元件的覆蓋。
  • 改善根本原因分析:結合指標、日誌和軌跡,可以更快、更準確地分析根本原因。團隊可以快速將不同系統和服務的資料相互關聯,以找出問題的根源。
  • 加強協作:可觀察性讓開發、營運和業務團隊對系統行為有共同的瞭解。這種共通點可改善溝通並加速問題的解決。
  • 預測性問題解決:透過全面的可觀察性資料和先進的分析,組織可以在潛在問題影響使用者之前找出問題。這種前瞻性的方法可減少停機時間並提昇服務可靠性。
  • 可擴充性管理:Observability 提供管理系統擴充性的重要洞察力,協助組織最佳化資源,並有效規劃成長。

如果實施得當,可觀測性可以成為獲得完整IT可見性的強大工具,從而對組織的IT性能品質、效率、上市時間和盈利能力產生積極影響。


AIOps 如何與可觀測性相結合?

AIOps可將洞察力轉化為行動,從而增強可觀察性。例如,可觀察性可幫助開發人員瞭解特定程式碼區段如何影響應用程式的行為,而 AIOps 則可讓作業團隊以最小的工作量自動回應停機和速度變慢的問題。這些工具結合起來,讓團隊擁有最大的可視性,並深入瞭解問題及其影響。

這種組合對於順暢的作業是不可或缺的,尤其是當您有跨功能的團隊和高度分散的運算環境時。AIOPs 加上可觀察性可增強重要的日常 IT 作業,包括:

  • 精確的除錯:使用來自事件、度量、日誌、軌跡和其他可用來源的資料,快速找出並解決問題。
  • 主動偵測:透過使用視覺和演算法趨勢來識別潛在問題,在問題發生之前就偵測出來。
  • 具成本效益的維護:讓應用程式擁有者和中央 IT 團隊有能力監控整個企業的系統,以深入瞭解軟硬體故障和效能,而無需依賴昂貴的開發人員或 SRE 資源。
  • 提高效率:深入瞭解如何改善系統,並作出相應的變更。
  • 更廣泛涵蓋多個雲原生架構:採用協力廠商工具,以達到跨多個雲原生架構的整體檢視,而非依賴公共雲供應商的效能工具。
  • 基於 GenAI 的 IT 作業加速:透過事件驅動的修復建議和基於 GenAI 的智慧型文件查詢,讓有經驗的操作員和新操作員都能快速瞭解並修復偵測到的問題。
  • 整合式修復:利用強大的 AIOps 平台提供自動化或使用者實施的修復功能,以推動高效率且有效的作業。

AIOps 和可觀察性有著廣泛的應用,從最佳化網路交易到確保 IT 效能符合客戶期望。以下的使用案例突顯了它們的價值:

假設您是一名開發人員,試圖確定系統崩潰的原因。通過監控,您必須確保所有相關系統都已受到監控,從中手動收集數據,然後嘗試將發生的事情拼湊在一起。此過程既困難又耗時,因為您的數據將來自崩潰發生后。

透過 AIOps 與可觀察性,您可以自動存取所有可用來源的資料,包括相關的指標、日誌和軌跡。您也可以存取來自公開和私人文件的 GenAI 修復建議,以及自動修復。最重要的是,您有分析的幫助,可以在系統崩潰之前發現可能指向您的異常問題。


可觀測工具與成本

成本是可觀察性工具的主要缺點。最近的一項調查發現,幾乎所有的受訪者 (98%) 每年至少有幾次遇到超支或意外支出激增的情況,其中 51% 的受訪者至少每個月都會遇到超支或意外支出激增的情況。

這些峰值主要是由於可觀察性工具供應商所收取的擷取成本,這些工具可擷取與應用程式交易相關的大量資料。這些成本有兩種結果:

  1. 使用可觀察性的不完整應用程式集 (只有那些被評為對企業運作至關重要的應用程式)。
  2. 除了 SRE 和開發人員之外,沒有擴展可觀察性工具。

在這兩種情況下,OpenTelemetry 的出現以及OpenText 等廠商所提供的更具成本效益的定價,可將監控擴展至所有 IT 服務,並允許 IT 作業存取這些工具。


可觀察性的最佳做法是什麼?

要在您的組織中將可觀察性的價值發揮到最大,請考慮這些基本的最佳實務:

從明確的目標開始

  • 為您的可觀察性實施定義特定目標。
  • 識別需要詳細監控的關鍵系統和服務。
  • 建立正常系統行為的基準指標。

定義有意義的指標

  • 專注於直接影響業務成果的指標。
  • 執行 USE 方法 (使用率、飽和度、錯誤)。
  • 為特定業務流程建立自訂指標。

設定適當的儀器

  • 盡可能實施自動化儀器。
  • 確保各系統的標籤和標記一致。
  • 平衡資料粒度與儲存及效能成本。

建立有效的儀表板

  • 設計能清楚說明系統健康狀況的儀表板。
  • 包括高層級概觀和詳細的深入檢視功能。
  • 針對不同利害關係人的需求自訂檢視。

OpenText 可觀察性解決方案

OpenText 提供全面的可觀察性解決方案,旨在滿足現代 IT 環境的複雜需求。我們的整合式方法可確保您整個 IT 產業的完整可視性:

雲端可觀察性 OpenText 的雲端可觀察性解決方案可深入洞察跨多個雲端供應商的雲端原生應用程式和基礎架構。這些解決方案可讓組織監控雲端資源利用率、成本和效能,同時確保最佳的服務遞送。團隊可以快速找出並解決雲端環境特有的問題,例如配置錯誤的服務或資源限制。

應用程式可觀察性 我們的應用程式可觀察性功能可提供對應用程式效能、使用者體驗及業務交易的詳細洞察。此解決方案可協助開發與作業團隊瞭解應用程式行為、追蹤使用者旅程,並最佳化應用程式效能。它包括實時監控、程式碼層級診斷和使用者體驗分析等功能。
OpenText Application Observability 有哪些新功能?

基礎結構可觀察性 OpenText 的基礎結構可觀察性解決方案可全面監控和分析您的整個 IT 基礎結構,包括伺服器、儲存設備和虛擬化環境。此解決方案可讓團隊追蹤混合環境中的資源利用率、容量趨勢和基礎結構健康狀況,確保最佳效能和資源分配。
OpenText Infrastructure Observability 有哪些新功能?

網路可觀察性 我們的網路可觀察性解決方案提供端對端網路效能、流量模式及連線問題的可視性。它可以幫助組織維持最佳的網路效能、識別潛在的安全威脅,並確保可靠的服務遞送。該解決方案包括用於網路故障排除、容量規劃和效能最佳化的進階分析。


可觀察性的底線:提高 IT 產業的可視性

可觀察性是了解整個基礎架構整體狀態的重要元素。大量用心良苦的工具湧入,讓您的 IT 產業一團糟,導致您的系統變得前所未有的複雜。

這種複雜性嚴重妨礙系統故障排除和管理。更多的工具會導致更多的問題,特別是當經常使用的工具停止運作時,問題就更難發現和修復。

有效的可觀察性工具可提供主動的修復方法,協助更快發現問題。

相關產品

OpenText AI Operations Management

透過跨雲端的全端 AIOps 建立業務可靠性

OpenText Core Application Observability

使用 OpenTelemetry 經濟高效地監控和管理應用程序

OpenText Core Infrastructure Observability

提升雲端和本地基礎設施的效能

OpenText Network Operations Management

優化不斷發展的網路

OpenText 核心雲端網路可觀測性

縮小雲端和雲外網路之間的可觀測性差距

我們能提供什麼協助?

腳注