Temas técnicos

¿Qué es el aprendizaje automático?

Ilustración de elementos informáticos centrados en un signo de interrogación

Visión general

El aprendizaje automático es un subconjunto de la inteligencia artificial centrado en la creación de sistemas que puedan aprender de datos históricos, identificar patrones y tomar decisiones lógicas con poca o ninguna intervención humana. Es un método de análisis de datos que automatiza la construcción de modelos analíticos mediante el uso de datos que abarcan diversas formas de información digital, incluidos números, palabras, clics e imágenes.

Las aplicaciones de aprendizaje automático aprenden de los datos de entrada y mejoran continuamente la precisión de los resultados mediante métodos de optimización automatizados. La calidad de un modelo de aprendizaje automático depende de dos aspectos principales:

  1. La calidad de los datos de entrada. Una frase común en torno al desarrollo de algoritmos de aprendizaje automático es "basura dentro, basura fuera". Esto significa que si se introducen datos de baja calidad o desordenados, el resultado del modelo será en gran medida impreciso.
  2. La elección del modelo en sí. En el aprendizaje automático hay una plétora de algoritmos que un científico de datos puede elegir, todos con sus propios usos específicos. Es vital elegir el algoritmo correcto para cada caso de uso. Las redes neuronales son un tipo de algoritmo muy popular por su gran precisión y versatilidad. Sin embargo, para cantidades reducidas de datos, suele ser mejor elegir un modelo más sencillo.

Cuanto mejor sea el modelo de aprendizaje automático, con mayor precisión podrá encontrar características y patrones en los datos. Eso, a su vez, implica que sus decisiones y predicciones serán más precisas.

OpenText ArcSight Inteligencia para CrowdStrike

Protección sin precedentes que combina el aprendizaje automático y la seguridad de los puntos finales junto con la caza de amenazas de categoría mundial como servicio.

Más información

Aprendizaje automático

¿Por qué es importante el aprendizaje automático?

¿Por qué utilizar el aprendizaje automático? El aprendizaje automático está cobrando cada vez más importancia debido a los volúmenes y la variedad de datos cada vez más enormes, el acceso y la asequibilidad de la potencia de cálculo y la disponibilidad de Internet de alta velocidad. Estos factores de transformación digital permiten desarrollar de forma rápida y automática modelos capaces de analizar con rapidez y precisión conjuntos de datos extraordinariamente grandes y complejos.

Hay multitud de casos de uso a los que puede aplicarse el aprendizaje automático para reducir costes, mitigar riesgos y mejorar la calidad de vida en general, como la recomendación de productos y servicios, la detección de fallos de ciberseguridad y la conducción autónoma de automóviles. Con un mayor acceso a los datos y a la potencia de cálculo, el aprendizaje automático se está haciendo cada día más omnipresente y pronto se integrará en muchas facetas de la vida humana.


¿Cómo funciona el aprendizaje automático?

Para crear un modelo de aprendizaje automático hay que seguir cuatro pasos fundamentales.

  1. Elegir y preparar un conjunto de datos de entrenamiento

    Los datos de entrenamiento son información representativa de los datos que la aplicación de aprendizaje automático ingiere para ajustar los parámetros del modelo. A veces, los datos de entrenamiento están etiquetados, lo que significa que han sido etiquetados para indicar clasificaciones o valores esperados que el modo de aprendizaje automático debe predecir. Otros datos de entrenamiento pueden no estar etiquetados, por lo que el modelo tendrá que extraer características y asignar clusters de forma autónoma.

    Para etiquetarlos, los datos deben dividirse en un subconjunto de entrenamiento y otro de prueba. El primero se utiliza para entrenar el modelo y el segundo para evaluar la eficacia del modelo y encontrar formas de mejorarlo.

  2. Seleccionar un algoritmo para aplicarlo al conjunto de datos de entrenamiento

    El tipo de algoritmo de aprendizaje automático que elija dependerá principalmente de algunos aspectos:

    • Si el caso de uso es la predicción de un valor o la clasificación, que utiliza datos de entrenamiento etiquetados, o si el caso de uso es la agrupación o la reducción dimensional, que utiliza datos de entrenamiento no etiquetados.
    • Cuántos datos hay en el conjunto de entrenamiento
    • La naturaleza del problema que el modelo pretende resolver

    Para casos de predicción o clasificación, se suelen utilizar algoritmos de regresión como la regresión por mínimos cuadrados ordinarios o la regresión logística. Con datos no etiquetados, es probable que utilice algoritmos de agrupación como k-means o el vecino más cercano. Algunos algoritmos, como las redes neuronales, pueden configurarse para trabajar tanto con casos de uso de agrupación como de predicción.

  3. Entrenar el algoritmo para construir el modelo

    El entrenamiento del algoritmo es el proceso de ajuste de las variables y parámetros del modelo para predecir con mayor precisión los resultados adecuados. El entrenamiento del algoritmo de aprendizaje automático suele ser iterativo y utiliza diversos métodos de optimización en función del modelo elegido. Estos métodos de optimización no requieren intervención humana, lo que forma parte de la potencia del aprendizaje automático. La máquina aprende a partir de los datos que se le facilitan sin apenas instrucciones específicas por parte del usuario.

  4. Utilizar y mejorar el modelo

    El último paso consiste en introducir nuevos datos en el modelo para mejorar su eficacia y precisión con el paso del tiempo. La procedencia de la nueva información depende de la naturaleza del problema a resolver. Por ejemplo, un modelo de aprendizaje automático para coches autoconducidos ingiere información del mundo real sobre las condiciones de la carretera, los objetos y las leyes de tráfico.


Métodos de aprendizaje automático

Qué es el aprendizaje automático supervisado

Los algoritmos de aprendizaje automático supervisado utilizan datos etiquetados como datos de entrenamiento en los que se conocen las salidas adecuadas para los datos de entrada. El algoritmo de aprendizaje automático recibe un conjunto de entradas y sus correspondientes salidas correctas. El algoritmo compara sus propias salidas previstas con las salidas correctas para calcular la precisión del modelo y, a continuación, optimiza los parámetros del modelo para mejorar la precisión.

El aprendizaje automático supervisado se basa en patrones para predecir valores en datos no etiquetados. Se utiliza sobre todo en automatización, en grandes cantidades de registros de datos o en casos en los que hay demasiados datos para que los humanos los procesen con eficacia. Por ejemplo, el algoritmo puede detectar transacciones con tarjeta de crédito que probablemente sean fraudulentas o identificar al cliente de seguros que con mayor probabilidad presentará una reclamación.

Qué es el aprendizaje automático no supervisado

El aprendizaje automático no supervisado se aplica mejor a datos que no tienen una respuesta estructurada u objetiva. No existe una predeterminación de la salida correcta para una entrada dada. En su lugar, el algoritmo debe comprender la entrada y tomar la decisión adecuada. El objetivo es examinar la información e identificar estructuras en ella.

El aprendizaje automático no supervisado funciona bien con información transaccional. Por ejemplo, el algoritmo puede identificar segmentos de clientes que poseen atributos similares. Los clientes de estos segmentos pueden ser objeto de campañas de marketing similares. Entre las técnicas más utilizadas en el aprendizaje no supervisado se encuentran el mapeo del vecino más cercano, los mapas autoorganizados, la descomposición del valor singular y la agrupación de k-means. Los algoritmos se utilizan posteriormente para segmentar temas, identificar valores atípicos y recomendar artículos.


¿Cuál es la diferencia entre aprendizaje automático supervisado y no supervisado?

Aspecto

Aprendizaje supervisado

Aprendizaje no supervisado

Proceso

Se proporcionan variables de entrada y salida para entrenar el modelo.

Sólo se proporcionan datos de entrada para entrenar el modelo. No se utilizan datos de salida.

Datos de entrada

Utiliza datos etiquetados.

Utiliza datos no etiquetados.

Algoritmos admitidos

Admite algoritmos de regresión, algoritmos basados en instancias, algoritmos de clasificación, redes neuronales y árboles de decisión.

Admite algoritmos de agrupación, algoritmos de asociación y redes neuronales.

Complejidad

Más sencillo.

Más complejo.

Subjetividad

Objetivo.

Subjetivo.

Número de clases

Se conoce el número de clases.

Se desconoce el número de clases.

Principal inconveniente

Clasificar datos masivos con aprendizaje supervisado es difícil.

La elección del número de grupos puede ser subjetiva.

Objetivo principal

Entrenar el modelo para predecir el resultado cuando se le presentan nuevas entradas.

Encuentre ideas útiles y patrones ocultos.


Qué puede hacer el aprendizaje automático: El aprendizaje automático en el mundo real

Aunque la funcionalidad del aprendizaje automático existe desde hace décadas, es la capacidad más reciente de aplicar y calcular automáticamente cálculos matemáticos complejos con grandes volúmenes de datos lo que le ha dado una sofisticación sin precedentes. En la actualidad, el ámbito de aplicación del aprendizaje automático es muy amplio y abarca desde las operaciones de información empresarial hasta el comercio minorista en línea. Algunos ejemplos reales de las capacidades actuales del aprendizaje automático son los siguientes:

  • Ciberseguridad mediante análisis de comportamiento para determinar eventos sospechosos o anómalos que puedan indicar amenazas internas, APT o ataques de día cero.
  • Proyectos de coches autoconducidos, como Waymo (filial de Alphabet Inc.) y Autopilot de Tesla, que está un paso por debajo de los coches autoconducidos reales.
  • Asistentes digitales como Siri, Alexa y Google Assistant que buscan información en la web en respuesta a nuestras órdenes de voz.
  • Recomendaciones personalizadas para el usuario basadas en algoritmos de aprendizaje automático en sitios web y aplicaciones como Netflix, Amazon y YouTube.
  • Soluciones de detección de fraudes y ciberresiliencia que agregan datos de múltiples sistemas, descubren clientes con comportamientos de alto riesgo e identifican patrones de actividad sospechosa. Estas soluciones pueden utilizar el aprendizaje automático supervisado y no supervisado para clasificar las transacciones de las organizaciones financieras como fraudulentas o legítimas. Esta es la razón por la que un consumidor puede recibir mensajes de texto de la compañía de su tarjeta de crédito verificando si una compra inusual utilizando las credenciales financieras del consumidor es legítima. El aprendizaje automático ha avanzado tanto en el ámbito del fraude que muchas compañías de tarjetas de crédito anuncian que no habrá culpa para los consumidores si los algoritmos de la organización financiera no detectan las transacciones fraudulentas.
  • El reconocimiento de imágenes ha experimentado avances significativos y puede utilizarse de forma fiable para el reconocimiento facial, la lectura de la escritura manuscrita en cheques depositados, la vigilancia del tráfico y el recuento del número de personas presentes en una sala.
  • Filtros de spam que detectan y bloquean el correo no deseado de las bandejas de entrada.
  • Empresas de servicios públicos que analizan los datos de los sensores para encontrar formas de mejorar la eficiencia y reducir costes.
  • Dispositivos médicos vestibles que capturan en tiempo real datos valiosos para su uso en la evaluación continua de la salud del paciente.
  • Aplicaciones de taxi que evalúan las condiciones del tráfico en tiempo real y recomiendan la ruta más eficiente.
  • El análisis de sentimientos determina el tono de una línea de texto. Buenas aplicaciones del análisis de sentimientos son Twitter, las opiniones de los clientes y los encuestados:
    • Twitter: una forma de evaluar las marcas es detectar el tono de los tuits dirigidos a una persona o empresa. Empresas como Crimson Hexagon y Nuvi lo ofrecen en tiempo real.
    • Opiniones de clientes: Puedes detectar el tono de las reseñas de los clientes para evaluar cómo lo está haciendo tu empresa. Esto es especialmente útil si no hay un sistema de clasificación emparejado con las reseñas de texto libre de los clientes.
    • Encuestas: El uso del análisis de sentimientos en las respuestas de texto libre de las encuestas puede proporcionarle una evaluación rápida de cómo se sienten los encuestados. Qualtrics lo tiene implementado en sus encuestas.
  • El análisis de segmentación del mercado utiliza el aprendizaje automático no supervisado para agrupar a los clientes en función de sus hábitos de compra y determinar diferentes tipos o personas de clientes. Esto le permite conocer mejor a sus clientes más valiosos o desatendidos.
  • Es fácil pulsar ctrl+F para buscar palabras y frases exactas en un documento, pero si no se conoce el enunciado exacto que se busca puede resultar difícil buscar documentos. El aprendizaje automático puede utilizar técnicas como los métodos difusos y el modelado temático para facilitar este proceso, ya que permite buscar documentos sin conocer el enunciado exacto que se busca.

El papel del aprendizaje automático seguirá creciendo

A medida que crecen los volúmenes de datos, aumenta la potencia de cálculo, se amplía el ancho de banda de Internet y los científicos de datos mejoran sus conocimientos, el aprendizaje automático seguirá impulsando una eficiencia mayor y más profunda en el trabajo y en casa.

Con las crecientes amenazas cibernéticas a las que se enfrentan las empresas hoy en día, el aprendizaje automático es necesario para proteger los datos valiosos y mantener a los hackers fuera de las redes internas. Nuestro principal software UEBA SecOps, ArcSight Intelligence, utiliza el aprendizaje automático para detectar anomalías que puedan indicar acciones maliciosas. Tiene un historial probado de detección de amenazas internas, ataques de día cero e incluso ataques agresivos de equipos rojos.

Notas a pie de página