技术主题

什么是文件分析?

以问号为重点的信息技术项目图示

概述

文件分析通过映射数据位置和确定谁可以访问哪些数据(包括文件共享、电子邮件数据库、企业文件同步和共享、记录管理、企业内容管理、Microsoft SharePoint 和数据存档),帮助企业应对日益增长的数据量。

文件分析解决方案可对文件元数据和内容进行分析、索引、搜索、跟踪和报告。这使企业能够查看和组织详细的元数据和上下文信息,改进 PII 监督和信息管理,并更有效地管理非结构化数据。

文件分析解决方案还能保护非结构化数据并确保其安全。企业可以就内容分析做出更好的决策,同时降低与数据相关的风险和成本。这些解决方案有助于确保数据安全、生命周期管理、数据访问治理、映射和分类,同时实现关键数据洞察和分析,以推动和保护业务。这些关键功能可帮助企业解决数字化转型用例中的风险缓解、治理与合规、效率与优化以及数据洞察等问题。

文件分析

为什么要进行文件分析?

企业面临着越来越大的业务转型压力。无论是从加快向云计算迁移、支持远程员工还是为数据隐私做准备开始,文件分析解决方案都能帮助优化数据和应用程序,并智能地识别、保护和分类数据。文件分析解决方案还能深入洞察数据,确保合规性并实现更智能的数据迁移。

文件分析解决方案可以进行扩展,以满足当今现代化工作负载的需求,并确定可以优化和删除数据的区域,从而降低成本、提高效率并确保合规性。部署文件分析的项目需要快速跟上不断变化的业务环境。要从这些解决方案中获得最大价值,速度、规模和快速实现价值至关重要。

文件分析解决方案可访问最常见的非结构化数据源(内部部署或云端),以评估风险、识别敏感数据和高价值数据,并在数据的生命周期内提供保护、安全和管理措施。

文件分析如何帮助提高数据效率和优化?

非结构化数据的数据效率和优化始于了解您拥有哪些数据以及这些数据存储在何处。通过数据映射,您可以使用文件分析来确定所有数据的位置,并识别错位、无用、重复、过时或琐碎的 "暗数据"。利用文件分析的项目通过主动删除或优化对组织没有价值的数据,可以更快地获得投资回报。

文件分析如何帮助降低风险?

文件分析解决方案通过优化、保护和保障在内容分析阶段发现的数据,协助降低数据风险。这包括

  • 检测、管理和处理 PII、PCI、PHI 和 IP。
  • 管理信息流。
  • 处理敏感数据。
  • 提供身份保护、元数据报告、身份访问权限、以数据为中心的访问保护、策略控制和审计跟踪。

数据优化完成后,任何没有业务价值的数据都不再占用数据存储空间。只有那些极具价值并被企业积极使用的数据才会保留下来。

了解访问权限至关重要。提供补救工具的文件分析解决方案有助于确保在数据处于使用状态时对其实施适当的控制。有些解决方案还包括额外的保护措施,如在端点加密数据以确保正确使用。最后,适当部署的文件分析解决方案可以防止用户在不了解其业务目的的情况下移动或删除数据。部署了 "就地管理 "模式的文件分析解决方案可最大限度地降低业务用户受到干扰的风险。

文件分析如何帮助管理和合规?

部署文件分析解决方案有助于确保正确的用户在正确的时间获得正确的数据。它通过以下方式帮助企业实现监管、法律和内部治理及合规目标:

  • 提供元数据管理、法律保留、隔离和发现功能。
  • 优化数据量。
  • 管理适当的权限。
  • 授予基于角色的访问权限。
  • 确定高价值资产。
  • 应用数据生命周期策略。

文件分析对 PII 数据和数据隐私合规有何帮助?

各组织都在竞相查找、保护和保障个人数据(包括消费者、公民和员工数据)的安全。这一全球趋势--包括 GDPR(欧盟)、CCPA(加利福尼亚)、KVKK(土耳其)、PIPEDA(加拿大)和 POPIA(南非)--为文件分析解决方案带来了新的关注点。通过利用内容分析功能和检测技术,文件分析解决方案是确保合规性和协助响应消费者请求或数据主体访问请求的理想选择。

数据隐私防备是文件分析解决方案大显身手的一个例子。它还强调了需要一个可以轻松识别、索引和检索 PII 文件的流程。

端到端流程应该是这样的:

  1. 查找存储库并识别文件
  2. 提取文件中的所有元数据和内容。
  3. 分析文件内容和元数据,查找特定实体,或根据概念内容对文件进行分类。
  4. 根据分析结果应用业务规则,确保适当的访问级别和敏感数据的处理(如加密),从而保障数据安全。您还可以应用类别或分类,帮助管理资产的生命周期。

什么是文件分类?

文件分析解决方案使用基于元数据标签、关键词或术语列表的简单分类方法。有些解决方案利用文件内容的概念分类,并将这些方法与找到的文档、图像或数据实体相结合,以提高分类的准确性。其他解决方案则更进一步,使用样本文件进行机器学习和指导学习,从而使您能够定义要使用的分类。

例如,包含健康或保险信息的人力资源文档可以使用基于样本数据的数据分类策略。对于年龄和位置等其他元素,可以应用风险评分和附加权限来进一步定义策略。

文件分析如何提供数据治理和数据保护?

文件分析解决方案提供帮助企业自动对数据采取行动的功能,以及帮助管理和保存数据的丰富工具集。在企业数据管理的推动下,这些解决方案通常包括以下选项:

  • 删除数据。如果没有必要保留文件,就删除它。是否太旧?是否重复?是否对企业有任何价值?消费者是否要求销毁其数据?文件分析解决方案可对您的操作和操作原因进行审计跟踪。
  • 确保数据安全。如果需要保留数据,那就确保数据安全。一些文件分析解决方案可以更改访问控制或加密数据。另一种方法是将数据转移到一个安全的位置,如记录管理工具,以便长期保存。
  • 重新编辑数据。您可能需要保留部分数据,但不包括 PII。某些文件分析解决方案支持编辑,以创建不含 PII 内容的原始文件的干净副本。然后按照上述方法删除或保护原始文件。

什么是 "就地管理"?

就地管理是数据生命周期管理和治理的一个关键概念。它是文件分析解决方案分析元数据(包括位置、权限和内容)的 "方式"。在分析过程中,实际对象不会被移动、复制或存储到其他位置或保存区域。

了解实体语法

有两种基本类型的数据发现语法(规则集)用于描述您试图识别的实体:策划的和用户生成的。

语法包括

  • PII:可识别个人身份的信息,不同地区的信息可能不同(包括格式,这可能导致误报)。
  • 个人健康信息(PHI):个人健康信息,通常与北美卫生行业有关。
  • PCI:个人信用卡信息。
  • PSI:个人安全信息,用于账户详情访问密钥。

寻找用户无法修改的经过策划和优化的语法。这些语法使用上下文和地标来获得更准确的结果,并提供 "置信度分数 "来帮助您过滤误报。上下文和地标可以是短语、单词或单个字符。

上下文是关键。文件分析解决方案利用与候选实体的接近程度和上下文的强度(基于自然语言处理技术)来提高置信度分数。您可以利用特定实体、国家或地区的综合列表来获得更精细的分数。

调整和灵活性。如果这些语法都不能满足你的特定使用情况,你可以使用允许创建自定义语法的文件分析解决方案。这些语法通常通过使用格式描述 RegX 或简单列表来定义。

什么是误报?

根据定义,"假阳性 "是指测试结果错误地显示存在特定条件或属性1。就文件分析解决方案而言,假阳性表示在内容分析过程中错误地识别了模式、语法或关键字匹配。单纯使用模式或关键字匹配的文件分析解决方案的误报率通常高于具有上下文内容分析功能的解决方案。

扫描文件和录音

文件分析解决方案可以对基于文本的文件进行风险分析,但 PII 也可以存在于其他形式的数据中。对扫描文档、对话录音和视频会议录音进行文件分析正变得越来越普遍。某些文件分析解决方案可以在应用 PII 发现技术之前处理这些文件。

以图像形式存储的扫描纸质文档(例如 PDF 文件)应使用光学字符识别 (OCR) 进行处理,以提取文本,最好还能提取相关的结构信息。许多组织都会保存扫描的身份证件记录,如员工的驾照或护照。

支持分析音频或视频录像的文件分析解决方案需要通过语音转文本引擎进行处理,以创建书面誊本进行分析。

人工智能驱动的内容分析的优势:

  • 提高敏感数据和高价值数据的准确性和检测能力。
  • 减少误报。
  • 通过人工智能训练的分类提高效率,减少数据分类所需的人工干预。

就地管理 "模式的优势:

  • 数据易于查找,并位于最终用户所期望的位置。
  • 降低数据丢失、生产力损失和终端用户中断的威胁。
  • 无需通过网络或云端传输数据进行分析,从而节省成本,提高速度。

内部部署和 SaaS 解决方案在文件分析方面的区别

什么是文件分析 SaaS 解决方案?

文件分析可以通过软件即服务(SaaS)的方式提供,客户只需支付月费或年费,即可享受应用安全提供商提供的服务。这种方法不需要采购硬件或传统的永久许可。它部分或完全依赖 SaaS 供应商(或某些情况下的托管服务提供商)提供对应用程序的访问,以便进行内容分析、搜索、管理操作和分析。SaaS 提供了一种开始进行内容分析的简便方法,并具有可扩展性高、速度快和快速实现价值的特点。根据 SaaS 托管环境的位置,可能需要权衡数据驻留和数据主权问题与 SaaS 的商业利益。

什么是内部部署文件分析解决方案?

文件分析解决方案也可以在内部运行,由内部团队操作和维护。这种方法要求企业提供基础设施和人员,并购置和管理应用程序安全解决方案。内部部署可确保企业不与第三方共享应用数据,也不会离开企业。通常,内部部署解决方案是通过永久许可证销售的。最近,订阅许可的使用为软件的消费和计费方式提供了更大的灵活性。

OpenText 提供文件分析工具

Voltage File Analysis Suite byOpenText™ SaaS 文件分析解决方案使企业能够快速高效地降低信息风险;确保数据隐私;分析、优化和保护员工对关键数据的访问,从而推动和保护业务发展。我们的解决方案可确保数据生命周期管理和数据访问治理,同时降低与敏感数据管理相关的风险。文件分析还提供身份和访问管理、完整的数据可视性、降低存储成本、提高效率的可操作分析以及数据质量。此外,它还支持数据隐私合规性,同时解决高价值资产(如合同、知识产权、专利等)和敏感数据(如 PI/PII、PCI、PHI 等)的治理问题。

OpenText™ File Reporter可清查网络文件系统,并提供优化和保护网络安全所需的详细文件存储情报,以提高效率和合规性。它能让你在发现和分析文件时识别访问风险,并分析整个企业中存储的数据的相关权限。File Reporter 专为企业文件系统报告而设计,可收集散布在构成网络的各种网络存储设备中的数百万个文件和文件夹的数据。然后,灵活的报告、过滤和查询选项将为您提供所需的准确结果,以证明合规性或采取纠正措施。

OpenText™ File Dynamics提供广泛的服务,以满足不断扩大的网络数据管理要求。身份驱动策略可将传统上由人工完成的任务自动化,从而节约成本并确保任务的正确执行。目标驱动策略提供保护,防止未经授权的访问,以及数据迁移和清理。File Dynamics 还可通过对高价值目标进行近线存储备份来防止数据损坏和停机,从而快速恢复文件及其相关权限。File Dynamics 提供基于角色的访问限制、补救、风险缓解和主动管理,以符合数据管理规定。

OpenText™ ControlPoint是一款文件分析解决方案,利用IDOL 人工智能进行非结构化数据分析。它使企业能够识别敏感数据(如 PII、PCI、PHI)并自动对其进行分类;清理遗留数据;发现隐藏在电子邮件存储库、文件共享、SharePoint 站点和云存储库(如 Office365、Google Drive 和 Dropbox)中无人管理的暗数据中的风险。ControlPoint 还能通过减少冗余、过时和琐碎的数据,帮助企业节约存储成本。这样就能更好地访问有价值的信息,并通过应用有助于数据生命周期管理、法规遵从性和数据安全性的策略来实施数据保护。

文件分析

立即开始

申请演示

我们能提供什么帮助?

脚注