Tópicos técnicos

O que é aprendizado de máquina?

Ilustração de itens de TI com foco em um ponto de interrogação

Visão geral

O aprendizado de máquina é um subconjunto da inteligência artificial focado na criação de sistemas que podem aprender com dados históricos, identificar padrões e tomar decisões lógicas com pouca ou nenhuma intervenção humana. É um método de análise de dados que automatiza a criação de modelos analíticos por meio do uso de dados que abrangem diversas formas de informações digitais, incluindo números, palavras, cliques e imagens.

Os aplicativos de aprendizado de máquina aprendem com os dados de entrada e melhoram continuamente a precisão dos resultados usando métodos de otimização automatizados. A qualidade de um modelo de aprendizado de máquina depende de dois aspectos principais:

  1. A qualidade dos dados de entrada. Uma frase comum no desenvolvimento de algoritmos de aprendizado de máquina é "garbage in, garbage out". Esse ditado significa que, se você inserir dados de baixa qualidade ou bagunçados, o resultado do seu modelo será amplamente impreciso.
  2. A escolha do modelo em si. No aprendizado de máquina, há uma infinidade de algoritmos que um cientista de dados pode escolher, todos com seus próprios usos específicos. É fundamental escolher o algoritmo correto para cada caso de uso. As redes neurais são um tipo de algoritmo com grande destaque devido à alta precisão e versatilidade que podem oferecer. No entanto, para pequenas quantidades de dados, a escolha de um modelo mais simples geralmente apresenta melhor desempenho.

Quanto melhor for o modelo de aprendizado de máquina, mais precisamente ele poderá encontrar recursos e padrões nos dados. Isso, por sua vez, implica que suas decisões e previsões serão mais precisas.

OpenText ArcSight Inteligência para CrowdStrike

Proteção sem precedentes que combina aprendizado de máquina e segurança de endpoint com caça a ameaças de classe mundial como um serviço.

Saiba mais

Aprendizado de máquina

Por que o aprendizado de máquina é importante?

Por que usar o aprendizado de máquina? A importância do aprendizado de máquina está crescendo devido aos volumes e à variedade cada vez maiores de dados, ao acesso e à acessibilidade do poder computacional e à disponibilidade de Internet de alta velocidade. Esses fatores de transformação digital possibilitam o desenvolvimento rápido e automático de modelos que podem analisar com rapidez e precisão conjuntos de dados extraordinariamente grandes e complexos.

Há uma infinidade de casos de uso aos quais o aprendizado de máquina pode ser aplicado para reduzir custos, mitigar riscos e melhorar a qualidade de vida em geral, incluindo a recomendação de produtos/serviços, a detecção de violações de segurança cibernética e a habilitação de carros autônomos. Com maior acesso a dados e poder de computação, o aprendizado de máquina está se tornando mais onipresente a cada dia e, em breve, será integrado a muitas facetas da vida humana.


Como funciona o aprendizado de máquina?

Há quatro etapas principais que você deve seguir ao criar um modelo de aprendizado de máquina.

  1. Escolha e prepare um conjunto de dados de treinamento

    Os dados de treinamento são informações representativas dos dados que o aplicativo de aprendizado de máquina ingerirá para ajustar os parâmetros do modelo. Às vezes, os dados de treinamento são rotulados, o que significa que foram marcados para indicar classificações ou valores esperados que o modo de aprendizado de máquina deve prever. Outros dados de treinamento podem não ser rotulados, de modo que o modelo terá de extrair recursos e atribuir clusters de forma autônoma.

    Para serem rotulados, os dados devem ser divididos em um subconjunto de treinamento e um subconjunto de teste. O primeiro é usado para treinar o modelo e o segundo para avaliar a eficácia do modelo e encontrar maneiras de melhorá-lo.

  2. Selecione um algoritmo para aplicar ao conjunto de dados de treinamento

    O tipo de algoritmo de aprendizado de máquina que você escolher dependerá principalmente de alguns aspectos:

    • Se o caso de uso é a previsão de um valor ou a classificação que usa dados de treinamento rotulados ou se o caso de uso é o agrupamento ou a redução de dimensionalidade que usa dados de treinamento não rotulados
    • Qual é a quantidade de dados no conjunto de treinamento
    • A natureza do problema que o modelo busca resolver

    Para casos de uso de previsão ou classificação, você normalmente usaria algoritmos de regressão, como regressão de mínimos quadrados comuns ou regressão logística. Com dados não rotulados, é provável que você confie em algoritmos de agrupamento, como k-means ou vizinho mais próximo. Alguns algoritmos, como redes neurais, podem ser configurados para trabalhar com casos de uso de clustering e previsão.

  3. Treinar o algoritmo para criar o modelo

    O treinamento do algoritmo é o processo de ajuste das variáveis e dos parâmetros do modelo para prever com mais precisão os resultados apropriados. O treinamento do algoritmo de aprendizado de máquina geralmente é iterativo e usa uma variedade de métodos de otimização, dependendo do modelo escolhido. Esses métodos de otimização não requerem intervenção humana, o que faz parte do poder do aprendizado de máquina. A máquina aprende com os dados que você fornece a ela, com pouca ou nenhuma orientação específica do usuário.

  4. Use e aprimore o modelo

    A última etapa é alimentar o modelo com novos dados como forma de melhorar sua eficácia e precisão ao longo do tempo. A origem das novas informações depende da natureza do problema a ser resolvido. Por exemplo, um modelo de aprendizado de máquina para carros autônomos receberá informações do mundo real sobre as condições da estrada, objetos e leis de trânsito.


Métodos de aprendizado de máquina

O que é aprendizado de máquina supervisionado

Os algoritmos de aprendizado de máquina supervisionados usam dados rotulados como dados de treinamento, em que as saídas apropriadas para os dados de entrada são conhecidas. O algoritmo de aprendizado de máquina recebe um conjunto de entradas e as saídas corretas correspondentes. O algoritmo compara suas próprias saídas previstas com as saídas corretas para calcular a precisão do modelo e, em seguida, otimiza os parâmetros do modelo para melhorar a precisão.

O aprendizado de máquina supervisionado se baseia em padrões para prever valores em dados não rotulados. Ele é usado com mais frequência na automação, em grandes quantidades de registros de dados ou em casos em que há muitas entradas de dados que não podem ser processadas com eficiência por humanos. Por exemplo, o algoritmo pode detectar transações de cartão de crédito que provavelmente são fraudulentas ou identificar o cliente de seguro que provavelmente registrará um sinistro.

O que é aprendizado de máquina não supervisionado

O aprendizado de máquina não supervisionado é melhor aplicado a dados que não têm respostas estruturadas ou objetivas. Não há pré-determinação do resultado correto para uma determinada entrada. Em vez disso, o algoritmo deve entender a entrada e tomar a decisão apropriada. O objetivo é examinar as informações e identificar a estrutura dentro delas.

O aprendizado de máquina não supervisionado funciona bem com informações transacionais. Por exemplo, o algoritmo pode identificar segmentos de clientes que possuem atributos semelhantes. Os clientes desses segmentos podem, então, ser alvo de campanhas de marketing semelhantes. As técnicas populares usadas no aprendizado não supervisionado incluem mapeamento do vizinho mais próximo, mapas auto-organizáveis, decomposição de valor singular e agrupamento k-means. Os algoritmos são usados posteriormente para segmentar tópicos, identificar outliers e recomendar itens.


Qual é a diferença entre aprendizado de máquina supervisionado e não supervisionado?

Aspecto

Aprendizagem supervisionada

Aprendizado não supervisionado

Processo

As variáveis de entrada e saída são fornecidas para treinar o modelo.

Somente os dados de entrada são fornecidos para treinar o modelo. Nenhum dado de saída é usado.

Dados de entrada

Usa dados rotulados.

Usa dados não rotulados.

Algoritmos suportados

Oferece suporte a algoritmos de regressão, algoritmos baseados em instâncias, algoritmos de classificação, redes neurais e árvores de decisão.

Oferece suporte a algoritmos de agrupamento, algoritmos de associação e redes neurais.

Complexidade

Mais simples.

Mais complexo.

Subjetividade

Objetivo.

Subjetivo.

Número de classes

O número de classes é conhecido.

O número de aulas é desconhecido.

Principal desvantagem

É difícil classificar dados massivos com aprendizado supervisionado.

A escolha do número de clusters pode ser subjetiva.

Objetivo principal

Treine o modelo para prever a saída quando receber novas entradas.

Encontre percepções úteis e padrões ocultos.


O que o aprendizado de máquina pode fazer: Aprendizado de máquina no mundo real

Embora a funcionalidade de aprendizado de máquina já exista há décadas, foi a capacidade mais recente de aplicar e computar automaticamente cálculos matemáticos complexos envolvendo big data que lhe conferiu uma sofisticação sem precedentes. Atualmente, o campo de aplicação do aprendizado de máquina é vasto e vai desde a AIOps empresarial até o varejo on-line. Alguns exemplos do mundo real dos recursos de aprendizado de máquina atualmente incluem o seguinte:

  • Segurança cibernética usando análise comportamental para determinar eventos suspeitos ou anômalos que possam indicar ameaças internas, APTs ou ataques de dia zero.
  • Projetos de carros autônomos, como o Waymo (uma subsidiária da Alphabet Inc.) e o Autopilot da Tesla, que está um passo abaixo dos carros autônomos reais.
  • Assistentes digitais como Siri, Alexa e Google Assistant que pesquisam informações na Web em resposta aos nossos comandos de voz.
  • Recomendações personalizadas ao usuário que são orientadas por algoritmos de aprendizado de máquina em sites e aplicativos como Netflix, Amazon e YouTube.
  • Soluções de detecção de fraudes e resiliência cibernética que agregam dados de vários sistemas, revelam clientes que apresentam comportamento de alto risco e identificam padrões de atividades suspeitas. Essas soluções podem usar o aprendizado de máquina supervisionado e não supervisionado para classificar as transações das organizações financeiras como fraudulentas ou legítimas. É por isso que um consumidor pode receber mensagens de texto de sua empresa de cartão de crédito verificando se uma compra incomum usando as credenciais financeiras do consumidor é legítima. O aprendizado de máquina avançou tanto na área de fraudes que muitas empresas de cartão de crédito anunciam que os consumidores não serão culpados se as transações fraudulentas não forem detectadas pelos algoritmos da organização financeira.
  • O reconhecimento de imagens teve avanços significativos e pode ser usado de forma confiável para reconhecimento facial, leitura de caligrafia em cheques depositados, monitoramento de tráfego e contagem do número de pessoas em uma sala.
  • Filtros de spam que detectam e bloqueiam e-mails indesejados nas caixas de entrada.
  • Serviços públicos que analisam dados de sensores para encontrar maneiras de melhorar a eficiência e reduzir custos.
  • Dispositivos médicos vestíveis que capturam em tempo real dados valiosos para uso na avaliação contínua da saúde do paciente.
  • Aplicativos de táxi que avaliam as condições de tráfego em tempo real e recomendam a rota mais eficiente.
  • A análise de sentimento determina o tom de uma linha de texto. Boas aplicações da análise de sentimento são o Twitter, as avaliações de clientes e os respondentes de pesquisas:
    • Twitter: uma maneira de avaliar as marcas é detectar o tom dos tweets direcionados a uma pessoa ou empresa. Empresas como a Crimson Hexagon e a Nuvi fornecem isso em tempo real.
    • Avaliações de clientes: Você pode detectar o tom das avaliações dos clientes para avaliar o desempenho de sua empresa. Isso é especialmente útil se não houver um sistema de classificação associado a avaliações de clientes em texto livre.
    • Pesquisas: O uso da análise de sentimentos nas respostas de texto livre de uma pesquisa pode lhe dar uma avaliação rápida de como os entrevistados se sentem. A Qualtrics tem isso implementado em suas pesquisas.
  • A análise de segmentação de mercado usa o aprendizado de máquina não supervisionado para agrupar os clientes de acordo com os hábitos de compra para determinar diferentes tipos ou personas de clientes. Isso permite que você conheça melhor seus clientes mais valiosos ou mal atendidos.
  • É fácil pressionar ctrl+F para pesquisar palavras e frases exatas em um documento, mas se você não souber a frase exata que está procurando, pode ser difícil pesquisar documentos. O aprendizado de máquina pode usar técnicas como métodos difusos e modelagem de tópicos para tornar esse processo muito mais fácil, permitindo que você pesquise documentos sem saber a frase exata que está procurando.

O papel do aprendizado de máquina continuará a crescer

À medida que os volumes de dados crescem, a capacidade de computação aumenta, a largura de banda da Internet se expande e os cientistas de dados aprimoram seus conhecimentos, o aprendizado de máquina continuará a impulsionar uma eficiência maior e mais profunda no trabalho e em casa.

Com as ameaças cibernéticas cada vez maiores que as empresas enfrentam atualmente, o aprendizado de máquina é necessário para proteger dados valiosos e manter os hackers fora das redes internas. Nosso principal software de SecOps da UEBA, ArcSight Intelligence, usa o aprendizado de máquina para detectar anomalias que podem indicar ações mal-intencionadas. Ele tem um histórico comprovado de detecção de ameaças internas, ataques de dia zero e até mesmo ataques agressivos de equipes vermelhas.

Notas de rodapé