Tópicos técnicos

O que é observabilidade nas operações de TI?

Ilustração de itens de TI com foco em um laptop

Visão geral

A observabilidade dos sistemas corporativos é fornecida quando operadores, desenvolvedores e engenheiros de confiabilidade do sistema (SRE) podem compreender e reagir rapidamente às mudanças no desempenho do sistema de TI. Com base em um profundo entendimento das comunicações entre aplicativos e microsserviços, ela permite que engenheiros e administradores encontrem imediatamente falhas e lentidões sem as salas de guerra de alto custo e trabalho intensivo que afetam as grandes organizações. A velocidade que você ganha é especialmente útil quando aplicativos complexos abrangem nuvens públicas, data centers próprios e processadores de terceiros - o que dificulta a identificação da causa raiz da degradação do serviço.

A observabilidade avançada difere do monitoramento tradicional em um aspecto fundamental: A observabilidade avançada não apenas reúne dados métricos predominantes no monitoramento, mas também captura o fluxo e os tempos das transações, associando-os a eventos e registros correlacionados para fornecer percepções acionáveis. Esses insights proporcionam uma compreensão mais abrangente do comportamento do sistema/aplicativo e ajudam a identificar problemas que, de outra forma, seriam difíceis de detectar.

Observabilidade não é um termo novo. Criado em 1960 em conjunto com a teoria de controle, a observabilidade passou a ser usada em outras disciplinas, incluindo TI. Devido à complexidade da nuvem híbrida, "observabilidade da nuvem" também se tornou um termo popular.

Veja como você pode usar a observabilidade orientada pela OpenTelemetry para obter insights modernos.

Observabilidade

Qual é a diferença entre monitoramento e observabilidade?

A observabilidade é frequentemente confundida com o monitoramento, mas os dois são bem diferentes.

O monitoramento refere-se à observação do desempenho de um sistema ao longo do tempo. Normalmente, as ferramentas de monitoramento coletam dados de desempenho de fontes específicas, como arquivos de log ou contadores de desempenho. Por exemplo, o monitoramento pode informar quantos usuários estão no sistema, mas não informa proativamente quando você está atingindo um limite de capacidade. O monitoramento é uma abordagem reativa que exige que você saiba com antecedência o que é importante monitorar. Uma de suas limitações é que ele se concentra na captura de métricas em um ponto específico no tempo.

A observabilidade tem uma função mais ampla do que o monitoramento. As ferramentas de observabilidade reúnem dados de todas as fontes disponíveis, como logs, contadores de desempenho e código de aplicativo. Em seguida, analisam esses dados para obter visibilidade do funcionamento interno de um sistema e entender seu comportamento. Esses dados podem ser usados para detectar problemas antes que eles causem problemas, identificando tendências e fornecendo insights sobre como o sistema pode ser aprimorado.

A observabilidade é um resultado do monitoramento amplo e da análise em nível de transação, assim como a visão é um resultado dos olhos e do processamento visual do cérebro. As soluções de observabilidadeOpenText™ , quando combinadas com a plataformaOpenText AIOps, podem fornecer os insights de observabilidade e os amplos recursos de eventos, gerenciamento de sistemas e correção necessários para manter serviços de TI complexos.


Quais são os tipos de dados importantes para a observabilidade?

Há duas escolas de pensamento para soluções de observabilidade:

  1. MELT. Esse acrônimo identifica os tipos de dados coletados como parte da observabilidade.
    • Métricas: Esse é o monitoramento clássico - medições de atividades ao longo do tempo, desde tempos de resposta de rede de microssegundos até transações sintéticas completas.
    • Eventos: Os eventos gerados pelo sistema que ocorrem durante o período de medição.
    • Registros: Dados não estruturados que fornecem informações sobre as atividades do sistema.
    • Rastreamentos: Uma representação visual registrada de toda a jornada de uma solicitação à medida que ela passa pelos nós de um sistema distribuído, fornecendo um detalhamento de tempo com contexto sobre a conexão entre os serviços.
  2. Sinais dourados. Popularizados pelo Google como parte de seu manual de SRE, os sinais dourados representam uma abordagem mais centrada no desempenho para a solução de problemas.
    • Latência: A quantidade de tempo que seu aplicativo leva para atender a uma solicitação.
    • Tráfego: O número de solicitações que seu sistema recebe.
    • Erros: A taxa de solicitações que falham.
    • Saturação: O status da capacidade em seu serviço.

Observe que há semelhanças significativas nos dados coletados, mas eles são descritos de forma diferente com base no contexto (tipo versus desempenho). Independentemente de você estar usando MELT ou sinais dourados, a chave é se concentrar em resultados anômalos para detectar problemas e identificar onde eles ocorrem. Na próxima seção, intitulada Como o OpenTelemetry ajuda na observabilidade?, você poderá saber mais sobre como o OpenTelemetry usa esses dados para oferecer uma observabilidade extraordinária.


Como o OpenTelemetry ajuda na observabilidade?

O OpenTelemetry é um projeto de código aberto gerenciado pela Cloud Native Computing Foundation. Ele fornece um protocolo de instrumentação independente de fornecedor para coletar dados de telemetria, incluindo métricas, rastreamentos e registros. O protocolo funciona em todas as linguagens de programação e plataformas, permitindo analisar todos os dados em uma única exibição. Essa abordagem padronizada simplifica a instrumentação e, ao mesmo tempo, define e correlaciona os dados de telemetria. A principal vantagem do OpenTelemetry é sua portabilidade, que permite que os desenvolvedores e a TI central selecionem os conjuntos de ferramentas mais adequados para suas funções.


Observabilidade e operações de TI

As operações de TI normalmente monitoram seus data centers para manter o tempo de atividade e o desempenho do serviço. Quando surgem problemas não relacionados a falhas de hardware ou software, o departamento de operações de TI abre tíquetes para que os desenvolvedores pesquisem os problemas subjacentes usando ferramentas de observabilidade. Os desenvolvedores geralmente realizam consultas complexas no Promotheus, criando fluxos de dados para análise e acessando logs para investigar falhas.

Com o advento do OpenTelemetry, as equipes de operações de TI podem simplificar a coleta e a análise de dados com rastreamentos que incluem métricas e logs correlacionados. Os recursos de correlação do protocolo OpenTelemetry eliminam a necessidade de os operadores usarem linguagens de programação complexas, como PromQL, ou realizarem consultas de registro para iniciar e entender os dados de observabilidade.

Em vez disso, eles podem acessar dados correlacionados com a facilidade de apontar e clicar. Embora os operadores não possam sugerir atualizações de código, eles podem identificar gargalos de desempenho e encaminhar tíquetes diretamente para a parte responsável, seja um desenvolvedor interno ou um fornecedor terceirizado que esteja sofrendo lentidão em seu aplicativo.


Quais são os benefícios da observabilidade?

As organizações podem obter total observabilidade da TI por meio desses benefícios principais:

  • Melhoria da qualidade: Quanto mais você observar, mais problemas críticos poderá encontrar, levando a produtos melhores que atendam às expectativas das partes interessadas e dos clientes.
  • Aumento da eficiência: Por meio da observabilidade, as empresas podem depurar rapidamente sistemas e softwares.
  • Redução de custos: Períodos prolongados de depuração custam muito tempo e dinheiro, o que a observabilidade pode reduzir em longo prazo.
  • Tempo de colocação no mercado mais rápido: Com a observabilidade implementada, você pode fornecer serviços de TI, como aplicativos novos/atualizados, dentro do prazo.
  • Monitoramento do desempenho de aplicativos: A observabilidade abrangente permite que as organizações diagnostiquem imediatamente problemas críticos de software e melhorem as métricas de desempenho.
  • Análise de negócios útil: Como a observabilidade é um processo com muitos dados, você pode saber mais sobre os principais indicadores de desempenho (KPIs), como o retorno sobre o investimento (ROI) e seus resultados.
  • Experiência excepcional do usuário: A detecção de problemas antes que eles se tornem problemáticos leva a uma experiência excepcional do usuário, o que pode melhorar a reputação e a lucratividade de uma organização.
  • Monitoramento de infraestrutura, nuvem e Kubernetes: A observabilidade pode ajudar a detectar problemas de software nas equipes de infraestrutura e operações (I&O), nos ambientes Kubernetes e na nuvem. O resultado é uma cobertura aprimorada de todos os componentes que formam um aplicativo bem-sucedido.
  • Análise aprimorada da causa raiz: A combinação de métricas, registros e rastreamentos permite uma análise mais rápida e precisa da causa raiz. As equipes podem correlacionar rapidamente os dados de diferentes sistemas e serviços para identificar a origem dos problemas.
  • Colaboração aprimorada: A observabilidade cria um entendimento compartilhado do comportamento do sistema entre as equipes de desenvolvimento, operações e negócios. Essa base comum melhora a comunicação e acelera a resolução de problemas.
  • Resolução preditiva de problemas: Com dados abrangentes de observabilidade e análises avançadas, as organizações podem identificar possíveis problemas antes que eles afetem os usuários. Essa abordagem proativa reduz o tempo de inatividade e melhora a confiabilidade do serviço.
  • Gerenciamento da escalabilidade: A observabilidade fornece insights cruciais para o gerenciamento da escalabilidade do sistema, ajudando as organizações a otimizar os recursos e planejar o crescimento de forma eficaz.

Quando implementada corretamente, a observabilidade pode ser uma ferramenta poderosa para obter visibilidade completa da TI, o que se traduz em impactos positivos na qualidade, na eficiência, no tempo de comercialização e na lucratividade do desempenho de TI de uma organização.


Como a AIOps trabalha com a observabilidade?

A AIOps aprimora a observabilidade, transformando insights em ação. Por exemplo, enquanto a observabilidade ajuda os desenvolvedores a entender como segmentos de código específicos afetam o comportamento do aplicativo, a AIOps permite que as equipes de operações respondam automaticamente a interrupções e lentidões com o mínimo de esforço. Juntas, essas ferramentas proporcionam às equipes visibilidade máxima e uma compreensão profunda dos problemas e de seus impactos.

Essa combinação é essencial para operações tranquilas, especialmente se você tiver equipes multifuncionais e um ambiente de computação altamente distribuído. As AIOPs e a observabilidade aprimoram as operações diárias essenciais de TI, incluindo:

  • Depuração precisa: Use dados de eventos, métricas, registros, rastreamentos e outras fontes disponíveis para identificar e resolver problemas rapidamente.
  • Detecção proativa: Detecte problemas antes que eles causem problemas, usando tendências visuais e baseadas em algoritmos para identificar possíveis problemas.
  • Manutenção econômica: Ofereça aos proprietários de aplicativos e às equipes centrais de TI a capacidade de monitorar os sistemas em toda a empresa para obter amplos insights sobre falhas e desempenho de software e hardware sem depender de recursos caros de desenvolvedor ou SRE.
  • Maior eficiência: Obtenha insights sobre como você pode melhorar um sistema e faça as alterações necessárias.
  • Cobertura mais ampla de várias arquiteturas nativas da nuvem: Empregue uma ferramenta de terceiros para obter uma visão holística de várias arquiteturas nativas da nuvem em vez de confiar nas ferramentas de desempenho do fornecedor de nuvem pública.
  • Aceleração das operações de TI baseadas em GenAI: Permita que operadores experientes e novos compreendam e corrijam rapidamente os problemas detectados com sugestões de correção orientadas por eventos e consulta inteligente de documentação com base na GenAI.
  • Correção integrada: Ofereça remediação automatizada ou implementada pelo usuário com uma sólida plataforma de AIOps para impulsionar operações eficientes e eficazes.

A AIOps e a observabilidade têm aplicações de amplo alcance - desde a otimização de transações na Web até a garantia de que o desempenho da TI atenda às expectativas dos clientes. Aqui está um caso de uso que destaca seu valor:

Digamos que você seja um desenvolvedor tentando identificar a causa de uma falha no sistema. Com o monitoramento, você teria que se certificar de que todos os sistemas relevantes tivessem sido monitorados, coletar manualmente os dados deles e tentar descobrir o que aconteceu. Esse processo seria difícil e demorado porque seus dados seriam posteriores à ocorrência da falha.

Com a AIOps e a observabilidade, você tem acesso automático aos dados de todas as fontes disponíveis, incluindo métricas, logs e rastreamentos correlacionados. Você também tem acesso às recomendações de correção do GenAI a partir de documentação pública e privada e correção automatizada. O mais importante é que você tem a ajuda da análise para encontrar anomalias que podem indicar o problema antes que ele trave o sistema.


Ferramentas e custos de observabilidade

O custo é uma das principais desvantagens das ferramentas de observabilidade. Uma pesquisa recente constatou que quase todos os entrevistados (98%) tiveram excedentes ou picos inesperados de custos pelo menos algumas vezes por ano, sendo que 51% tiveram excedentes ou picos inesperados de gastos pelo menos uma vez por mês.

Esses picos se devem principalmente aos custos de ingestão cobrados pelos fornecedores de ferramentas de observabilidade que podem extrair grandes quantidades de dados relacionados a transações de aplicativos. Esses custos têm dois resultados:

  1. Um conjunto incompleto de aplicativos que usam a observabilidade (somente aqueles classificados como essenciais para o funcionamento corporativo).
  2. Nenhuma extensão das ferramentas de observabilidade além dos SREs e dos desenvolvedores.

Em ambos os casos, o advento da OpenTelemetry e os preços mais econômicos oferecidos por fornecedores como a OpenText podem estender o monitoramento a todos os serviços de TI e permitir que as operações de TI acessem as ferramentas.


Quais são as práticas recomendadas de observabilidade?

Para maximizar o valor da observabilidade em sua organização, considere estas práticas recomendadas essenciais:

Comece com objetivos claros

  • Defina metas específicas para sua implementação de observabilidade.
  • Identifique os sistemas e serviços essenciais que exigem monitoramento detalhado.
  • Estabelecer métricas de linha de base para o comportamento normal do sistema.

Definir métricas significativas

  • Concentre-se nas métricas que afetam diretamente os resultados comerciais.
  • Implementar o método USE (Utilização, Saturação, Erros).
  • Crie métricas personalizadas para processos específicos do negócio.

Configurar a instrumentação adequada

  • Implemente instrumentação automatizada sempre que possível.
  • Garanta a marcação e a rotulagem consistentes em todos os sistemas.
  • Equilibre a granularidade dos dados com os custos de armazenamento e desempenho.

Criar painéis de controle eficazes

  • Crie painéis que contem uma história clara sobre a integridade do sistema.
  • Inclua visões gerais de alto nível e recursos de detalhamento.
  • Personalize as exibições para atender às necessidades de diferentes partes interessadas.

Soluções de observabilidade OpenText

OpenText oferece soluções abrangentes de observabilidade projetadas para atender às necessidades complexas dos ambientes de TI modernos. Nossa abordagem integrada garante visibilidade completa de todo o seu patrimônio de TI:

Observabilidade da nuvem As soluções de observabilidade da nuvem da OpenText fornecem insights profundos sobre aplicativos e infraestrutura nativos da nuvem em vários provedores de nuvem. Essas soluções permitem que as organizações monitorem a utilização, os custos e o desempenho dos recursos da nuvem, garantindo o fornecimento ideal de serviços. As equipes podem identificar e resolver rapidamente problemas específicos dos ambientes de nuvem, como serviços mal configurados ou restrições de recursos.

Observabilidade de aplicativos Nossos recursos de observabilidade de aplicativos fornecem insights detalhados sobre o desempenho dos aplicativos, a experiência do usuário e as transações comerciais. Essa solução ajuda as equipes de desenvolvimento e operações a entender o comportamento do aplicativo, rastrear as jornadas do usuário e otimizar o desempenho do aplicativo. Ela inclui recursos para monitoramento em tempo real, diagnósticos em nível de código e análise da experiência do usuário.
O que há de novo no OpenText Application Observability?

Observabilidade da infraestrutura A solução de observabilidade da infraestrutura daOpenText fornece monitoramento e análise abrangentes de toda a sua infraestrutura de TI, incluindo servidores, armazenamento e ambientes virtualizados. Essa solução permite que as equipes rastreiem a utilização de recursos, as tendências de capacidade e a integridade da infraestrutura em ambientes híbridos, garantindo desempenho e alocação de recursos ideais.
O que há de novo no OpenText Infrastructure Observability?

Observabilidade da rede Nossas soluções de observabilidade da rede oferecem visibilidade de ponta a ponta do desempenho da rede, dos padrões de tráfego e dos problemas de conectividade. Elas ajudam as organizações a manter o desempenho ideal da rede, identificar possíveis ameaças à segurança e garantir a prestação de serviços confiáveis. A solução inclui análises avançadas para solução de problemas de rede, planejamento de capacidade e otimização do desempenho.


O resultado final da observabilidade: Melhor visibilidade de seu patrimônio de TI

A observabilidade é um elemento importante para entender o estado completo de toda a sua infraestrutura. O influxo de ferramentas que foram implementadas com boas intenções deixou uma bagunça em seu patrimônio de TI, fazendo com que seus sistemas se tornassem mais complexos do que nunca.

Essa complexidade dificulta muito a solução de problemas e o gerenciamento do sistema. Mais ferramentas levam a mais problemas, especialmente quando as ferramentas usadas com frequência param de funcionar, o que torna os problemas ainda mais difíceis de encontrar e corrigir.

Ferramentas eficazes de observabilidade oferecem uma abordagem proativa de correção para ajudar a descobrir problemas mais rapidamente.

Produtos relacionados

OpenText AI Operations Management

Crie confiabilidade nos negócios com AIOps de pilha completa em todas as nuvens

OpenText Core Application Observability

Monitore e gerencie aplicativos de forma econômica com o OpenTelemetry

OpenText Core Infrastructure Observability

Aumente o desempenho de sua infraestrutura na nuvem e no local

OpenText Network Operations Management

Otimize sua rede em evolução

OpenText Observabilidade da rede de nuvem principal

Elimine a lacuna de observabilidade entre as redes na nuvem e fora da nuvem

Notas de rodapé