Temas técnicos

¿Qué es el análisis de archivos?

Ilustración de elementos informáticos centrados en un signo de interrogación

Visión general

El análisis de archivos ayuda a las organizaciones a abordar sus crecientes volúmenes de datos mediante el mapeo de las ubicaciones de sus datos y la identificación de quién tiene acceso a qué datos (incluidos los recursos compartidos de archivos, bases de datos de correo electrónico, sincronización y uso compartido de archivos empresariales, gestión de registros, gestión de contenidos empresariales, Microsoft SharePoint y archivos de datos).

Las soluciones de análisis de archivos analizan, indexan, buscan, rastrean e informan sobre los metadatos y el contenido de los archivos. Esto permite a las organizaciones ver y organizar metadatos detallados e información contextual, mejorar la supervisión de PII y el gobierno de la información, y gestionar los datos no estructurados de forma más eficiente.

Las soluciones de análisis de archivos también protegen y aseguran los datos no estructurados. Las organizaciones pueden tomar mejores decisiones sobre el análisis de contenidos, al tiempo que mitigan el riesgo y reducen los costes asociados a los datos. Estas soluciones ayudan a garantizar la seguridad de los datos, la gestión del ciclo de vida, la gobernanza del acceso a los datos, el mapeo y la clasificación, al tiempo que permiten obtener perspectivas y análisis de datos clave que impulsan y protegen el negocio. Estas capacidades clave ayudan a las organizaciones a abordar los casos de uso de la transformación digital para la mitigación de riesgos, la gobernanza y el cumplimiento, la eficiencia y la optimización, y el conocimiento de los datos.

Análisis de expedientes

¿Por qué analizar los expedientes?

Las organizaciones están sometidas a una presión cada vez mayor para transformar su negocio. Tanto si ese viaje comienza con la aceleración de los esfuerzos para pasar a la nube, dar soporte a los trabajadores remotos o prepararse para la privacidad de los datos, las soluciones de análisis de archivos pueden ayudar a optimizar los datos y las aplicaciones e identificar, proteger y clasificar los datos de forma inteligente. Las soluciones de análisis de archivos también pueden proporcionar información sobre los datos para garantizar el cumplimiento y permitir migraciones de datos más inteligentes.

Las soluciones de análisis de archivos pueden ampliarse para satisfacer las necesidades de las cargas de trabajo modernas de hoy en día e identificar las áreas en las que los datos pueden optimizarse y eliminarse de forma justificada, reduciendo costes, mejorando la eficiencia y garantizando el cumplimiento de las normativas. Los proyectos que implantan el análisis de archivos requieren velocidad para seguir el ritmo de un entorno empresarial en constante cambio. La velocidad, la escala y la rápida rentabilización son esenciales para maximizar el valor de estas soluciones.

Las soluciones de análisis de archivos proporcionan acceso a las fuentes más comunes de datos no estructurados (en las instalaciones o en la nube) para evaluar el riesgo, identificar los datos confidenciales y de alto valor, y proporcionar acciones que protejan, aseguren y gobiernen los datos a lo largo de su ciclo de vida.

¿Cómo ayuda el análisis de archivos a la eficiencia y optimización de los datos?

La eficiencia y optimización de los datos no estructurados empieza por comprender qué datos tiene y dónde están almacenados. Mediante el mapeo de datos, puede utilizar el análisis de archivos para identificar dónde se encuentran todos sus datos e identificar los "datos oscuros" que están fuera de lugar, huérfanos, duplicados, obsoletos o triviales. Los proyectos que aprovechan el análisis de archivos proporcionan un retorno de la inversión más rápido al eliminar u optimizar activamente los datos que no aportan ningún valor a la organización.

¿Cómo ayuda el análisis de expedientes a mitigar los riesgos?

Las soluciones de análisis de archivos ayudan a mitigar el riesgo de los datos optimizando, protegiendo y asegurando los datos encontrados durante la fase de análisis de contenido. Esto incluye:

  • Detección, gestión y procesamiento de PII, PCI, PHI e IP.
  • Gestión del flujo de información.
  • Tratamiento de datos sensibles.
  • Proporciona protección de identidades, informes de metadatos, derechos de acceso de identidades, protección de acceso centrada en datos, controles de políticas y registros de auditoría.

Una vez completada la optimización de datos, los datos que no tienen valor para la empresa dejan de consumir espacio de almacenamiento. Sólo permanecen los datos de gran valor y utilizados activamente por la empresa.

Comprender el acceso y los permisos es esencial. Las soluciones de análisis de archivos que proporcionan herramientas de corrección ayudan a garantizar que se aplican los controles adecuados a los datos mientras están en uso activo. Algunas soluciones incluyen protecciones adicionales, como la capacidad de cifrar los datos en el punto final para garantizar un uso adecuado. Y, por último, las soluciones de análisis de archivos correctamente desplegadas pueden impedir que los usuarios muevan o eliminen datos sin comprender su finalidad empresarial. Las soluciones de análisis de archivos que despliegan un modelo de "gestión in situ" minimizan el riesgo de interrupción para los usuarios empresariales.

¿Cómo ayuda el análisis de archivos a la gobernanza y el cumplimiento?

La implantación de una solución de análisis de archivos puede ayudar a garantizar que los datos correctos estén disponibles para el usuario adecuado en el momento adecuado. Ayuda a las organizaciones a cumplir sus objetivos normativos, legales e internos de gobernanza y conformidad:

  • Gestión de metadatos, retenciones legales, cuarentena y localización.
  • Optimización de los volúmenes de datos.
  • Regulación de los permisos apropiados.
  • Concesión de acceso basado en funciones.
  • Identificación de activos de alto valor.
  • Aplicación de políticas de ciclo de vida de los datos.

¿Cómo ayuda el análisis de archivos al cumplimiento de la normativa sobre protección de datos personales y privacidad?

Las organizaciones se encuentran en una carrera por encontrar, proteger y asegurar los datos personales (incluidos los datos de consumidores, ciudadanos y empleados). Esta tendencia mundial -que incluye GDPR (UE), CCPA (California), KVKK (Turquía), PIPEDA (Canadá) y POPIA (Sudáfrica)- ha atraído una nueva atención hacia las soluciones de análisis de archivos. Al aprovechar las capacidades de análisis de contenido y las técnicas de detección, las soluciones de análisis de archivos son ideales para garantizar el cumplimiento y ayudar a responder a las solicitudes de los consumidores o a las solicitudes de acceso de los interesados.

La preparación para la privacidad de los datos es un ejemplo de dónde brillan las soluciones de análisis de archivos. También destaca la necesidad de un proceso en el que los archivos PII puedan identificarse, indexarse y recuperarse fácilmente.

El proceso de principio a fin debería parecerse a esto:

  1. Encontrar repositorios e identificar archivos.
  2. Extrae todos los metadatos y el contenido del archivo.
  3. Analizar el contenido del archivo y los metadatos en busca de entidades específicas o clasificar el archivo basándose en el contenido conceptual.
  4. Proteja los datos aplicando reglas de negocio basadas en los resultados del análisis para garantizar niveles de acceso adecuados y la gestión de datos sensibles (por ejemplo, cifrado). También puede aplicar una categoría o clasificación para ayudar a gestionar el ciclo de vida de los activos.

¿Qué es la clasificación o categorización de ficheros?

Las soluciones de análisis de archivos utilizan métodos de clasificación simples basados en etiquetas de metadatos, palabras clave o listas de términos. Algunas soluciones aprovechan la clasificación conceptual del contenido del archivo y combinan estos métodos con documentos, imágenes o entidades de datos encontrados para mejorar la precisión de la categorización. Otras soluciones van un paso más allá con el aprendizaje automático y el aprendizaje guiado mediante documentos de muestra, que permiten definir las clasificaciones que se van a utilizar.

Por ejemplo, un documento de Recursos Humanos con información sobre salud o seguros puede utilizar una política de clasificación de datos basada en datos de muestra. Para otros elementos, como la edad y la ubicación, puede aplicar una puntuación de riesgo y permisos adicionales para definir mejor la política.

¿Cómo contribuye el análisis de archivos a la gobernanza y la conservación de los datos?

Las soluciones de análisis de archivos ofrecen funciones para ayudar a las organizaciones a actuar automáticamente sobre los datos, así como un rico conjunto de herramientas para ayudar a gobernar y preservar los datos. Las soluciones suelen incluir las siguientes opciones, impulsadas por la gobernanza de los datos corporativos:

  • Elimine los datos. Si no es necesario conservar el archivo, elimínalo. ¿Es demasiado antiguo? ¿Es un duplicado? ¿Aporta algún valor a la empresa? ¿Ha solicitado el consumidor que se destruyan sus datos? Las soluciones de análisis de ficheros mantienen una pista de auditoría tanto de lo que hizo como de por qué lo hizo.
  • Asegura los datos. Si necesita conservar los datos, asegúrelos. Algunas soluciones de análisis de archivos pueden cambiar los controles de acceso o cifrar los datos. Otra opción es trasladarlos a una ubicación segura, como una herramienta de gestión de archivos, para su conservación a largo plazo.
  • Redactar los datos. Puede que necesite conservar parte de los datos, pero no la IIP. Algunas soluciones de análisis de archivos permiten la redacción para crear una copia limpia del archivo original sin el contenido PII. A continuación, el archivo original se elimina o se protege como se ha descrito anteriormente.

¿Qué es la gestión in situ?

La gestión in situ es un concepto clave de la gestión y gobernanza del ciclo de vida de los datos. Se trata de "cómo" los metadatos (incluida la ubicación, los permisos y el contenido) son analizados por la solución de análisis de archivos donde residen. El objeto real no se mueve, copia o almacena en otra ubicación o área de preservación durante el análisis.

Comprender las gramáticas de las entidades

Para describir las entidades que se intenta identificar se utilizan dos tipos básicos de gramáticas de descubrimiento de datos (conjuntos de reglas): curadas y generadas por el usuario.

Las gramáticas incluyen:

  • IIP: Información personal identificable, que puede diferir de una región a otra (incluido el formato, que puede causar falsos positivos).
  • PHI: Información sanitaria personal, típicamente asociada a la industria sanitaria norteamericana.
  • PCI: Información personal sobre tarjetas de crédito.
  • PSI: Información personal de seguridad, para las claves de acceso a los detalles de la cuenta.

Busque gramáticas curadas y optimizadas, que no puedan ser modificadas por el usuario. Estas gramáticas utilizan el contexto y los puntos de referencia para obtener resultados más precisos y proporcionan una "puntuación de confianza" para ayudarle a filtrar los falsos positivos. El contexto y los puntos de referencia pueden ser frases, palabras sueltas o caracteres individuales.

El contexto es clave. Las soluciones de análisis de archivos que utilizan la proximidad a la entidad candidata y la fuerza del contexto (basado en técnicas de procesamiento del lenguaje natural) contribuyen a las puntuaciones de confianza. Puede obtener puntuaciones más granulares aprovechando listas completas de entidades, países o regiones específicos.

Ajuste y flexibilidad. Si ninguna de estas gramáticas cubre su caso de uso específico, puede utilizar una solución de análisis de archivos que permita crear gramáticas personalizadas. Estas gramáticas suelen definirse utilizando RegX descriptivos de formato o listas simples.

¿Qué son los falsos positivos?

Por definición, un "falso positivo" es un resultado de prueba que indica incorrectamente la presencia de una condición o atributo particular1. En el caso de las soluciones de análisis de archivos, un falso positivo indica una coincidencia de patrón, gramática o palabra clave que se identifica incorrectamente durante el análisis de contenido. Las soluciones de análisis de archivos que se limitan a utilizar la concordancia de patrones o palabras clave suelen tener índices de falsos positivos más elevados que las que cuentan con capacidades de análisis de contenidos contextualmente conscientes.

Documentos escaneados y grabaciones de audio

Las soluciones de análisis de archivos pueden analizar documentos basados en texto para detectar riesgos, pero la IIP también puede residir en otras formas de datos. Cada vez es más común realizar análisis de archivos en documentos escaneados, conversaciones grabadas y grabaciones de videoconferencias. Algunas soluciones de análisis de archivos pueden procesar estos archivos antes de aplicar técnicas de descubrimiento de IIP.

Los documentos en papel escaneados y almacenados como imágenes (dentro de un archivo PDF, por ejemplo) deben procesarse con reconocimiento óptico de caracteres (OCR) para extraer el texto e, idealmente, la información estructural asociada. Muchas organizaciones guardan documentos de identidad escaneados, como los permisos de conducir o los pasaportes de los empleados.

Las soluciones de análisis de archivos que admiten el análisis de grabaciones de audio o vídeo requieren el procesamiento por parte de un motor de conversión de voz a texto que pueda crear una transcripción escrita para su análisis.

Ventajas del análisis contextual de contenidos basado en IA:

  • Aumenta la precisión y la detección de datos sensibles y de gran valor.
  • Reduce los falsos positivos.
  • Aumenta la eficiencia mediante la categorización entrenada por IA y reduce la intervención manual necesaria para clasificar los datos.

Ventajas de los modelos de "gestión in situ":

  • Los datos son fáciles de encontrar y están donde los usuarios finales esperan que estén.
  • Reduce la amenaza de pérdida de datos, pérdida de productividad e interrupción del usuario final.
  • Aumenta el ahorro de costes y la velocidad al eliminar la necesidad de transferir datos a través de la red o a la nube para analizarlos.

Diferencia entre soluciones locales y SaaS para el análisis de archivos

¿Qué es una solución SaaS de análisis de archivos?

El análisis de archivos puede ofrecerse mediante software como servicio (SaaS), en el que el cliente consume los servicios prestados por un proveedor de seguridad de aplicaciones por una cuota mensual o anual. Este enfoque no requiere la adquisición de hardware ni las tradicionales licencias perpetuas. Depende parcial o totalmente del proveedor de SaaS (o de un proveedor de servicios gestionados en algunos casos) para proporcionar acceso a la aplicación con el fin de realizar análisis de contenido, búsquedas, acciones de gobierno y análisis. SaaS proporciona una forma sencilla de iniciarse en el análisis de contenidos y ofrece una gran escalabilidad, velocidad y rápida rentabilización. En función de la ubicación del entorno de alojamiento de SaaS, es posible que haya que sopesar los problemas de residencia y soberanía de los datos frente a las ventajas comerciales de SaaS.

¿Qué es una solución local de análisis de archivos?

Las soluciones de análisis de archivos también pueden funcionar in situ y ser operadas y mantenidas por equipos internos. Este enfoque requiere que las organizaciones proporcionen la infraestructura y el personal y adquieran y gestionen soluciones de seguridad de aplicaciones. Las soluciones locales garantizan a las empresas que los datos de sus aplicaciones no se comparten con terceros y no salen de sus instalaciones. Normalmente, las soluciones locales se venden mediante una licencia perpetua. Más recientemente, se han utilizado licencias de suscripción para ofrecer más flexibilidad en la forma de consumir y facturar el software.

OpenText proporciona herramientas de análisis de archivos

Voltage File Analysis Suite de OpenText™ La solución SaaS de análisis de archivos permite a las organizaciones reducir de forma rápida y eficaz el riesgo de la información; garantizar la privacidad de los datos; y analizar, optimizar y proteger el acceso de los empleados a los datos críticos que impulsan y protegen la empresa. Nuestra solución garantiza la gestión del ciclo de vida de los datos y la gobernanza del acceso a los mismos, al tiempo que mitiga el riesgo asociado a la gestión de datos sensibles. File Analysis también proporciona gobierno de identidad y acceso, visibilidad completa de los datos, reducción de los costes de almacenamiento, análisis procesables que mejoran la eficiencia y la calidad de los datos. Además, apoya el cumplimiento de la privacidad de los datos al tiempo que aborda la gobernanza de los activos de alto valor (por ejemplo, contratos, propiedad intelectual, patentes, etc.), y los datos sensibles (por ejemplo, PI / PII, PCI, PHI, etc.).

OpenText™ File Reporter realiza inventarios de los sistemas de archivos de red y proporciona la información detallada sobre el almacenamiento de archivos que necesita para optimizar y proteger su red en aras de la eficacia y el cumplimiento de las normativas. Le permite identificar los riesgos de acceso al descubrir y analizar los archivos y los permisos asociados para los datos almacenados en toda la empresa. Diseñado para la generación de informes de sistemas de archivos empresariales, File Reporter recopila datos de los millones de archivos y carpetas dispersos entre los distintos dispositivos de almacenamiento en red que componen su red. Las opciones flexibles de generación de informes, filtrado y consulta presentan los resultados exactos que necesita para demostrar el cumplimiento o tomar medidas correctivas.

OpenText™ File Dynamics ofrece amplios servicios para hacer frente a los crecientes requisitos de la gestión de datos de red. Las políticas basadas en la identidad automatizan tareas que tradicionalmente se realizan de forma manual, lo que se traduce en un ahorro de costes y en la garantía de que las tareas se realizan correctamente. Las políticas basadas en objetivos ofrecen protección frente a accesos no autorizados, así como migración y limpieza de datos. File Dynamics también protege contra la corrupción de datos y el tiempo de inactividad a través de copias de seguridad de almacenamiento near-line de objetivos de alto valor, lo que permite una rápida recuperación de los archivos y sus permisos asociados. File Dynamics ofrece las restricciones de acceso basadas en roles, remediación, mitigación de riesgos y gestión proactiva necesarias para el cumplimiento de las normativas de gestión de datos.

OpenText™ ControlPoint es una solución de análisis de archivos que aprovecha la inteligencia artificial de IDOL para el análisis de datos no estructurados. Permite a las organizaciones identificar y clasificar automáticamente los datos confidenciales (por ejemplo, PII, PCI, PHI); limpiar los datos heredados; y descubrir los riesgos ocultos en los datos oscuros que se encuentran sin gestionar en repositorios de correo electrónico, archivos compartidos, sitios de SharePoint y repositorios en la nube (como Office365, Google Drive y Dropbox). ControlPoint también permite a las organizaciones ahorrar en costes de almacenamiento al reducir los datos redundantes, obsoletos y triviales. Esto proporciona un mejor acceso a la información valiosa y refuerza la preservación de los datos mediante la aplicación de políticas que ayudan en la gestión del ciclo de vida de los datos, el cumplimiento normativo y la seguridad de los datos.

Análisis de expedientes

Empiece hoy mismo.

Solicitar una demostración

Notas a pie de página