• 首页 > 数据存储频道 > 数据库频道 > 软件架构

    Data Fabric 定义、架构和最佳实践

    2022年09月16日 16:06:33   来源:谈数据

      Data Fabric 支持统一的数据管理架构,使企业可以从可扩展和融合的数据能力中获益。

      Data Fabric被定义为一种新兴的方法,使用基于网络的架构而不是点对点连接来处理数据。这实现了从数据源层面到分析、洞察力生成、协调和应用的一体化数据层(结构)。本文详细解释了Data Fabric、其关键组件和最佳实践。

      01 什么是Data Fabric?

      Data Fabric 是一种使用基于网络的架构而不是点对点连接来处理数据的新兴方法。这支持从数据源级别到分析、洞察力生成、编排和应用程序的集成数据层(结构)。 它在底层数据组件上放置了一层抽象,以使业务用户可以使用信息和洞察力,而无需重复或强制性的数据科学工作。

      随着企业数据需求的发展,公司正在努力接受其复杂性、异构性以及它存在于分散在企业环境中的多个应用程序和环境中的事实。据 Statista 称,到 2024 年,全球数据生成和消费量将超过 149 泽字节,其中非结构化数据将占其中的 80% 左右。

      Data Fabric 被视为这个问题的答案。它改进了数据仓库和数据湖的旧概念,引入了一种架构,可以在整个企业中实现统一的数据利用。出于这个原因,Gartner 将 Data Fabric 确定为 2019 年十大最具影响力的数据和分析技术之一,并指出到 2022 年,公司将被迫重新设计其基础架构以支持定制的 Data Fabric 设计。

      02 Data Fabric 的应用

      让我们探索 Data Fabric 的关键功能和企业应用程序,以了解它是如何工作的。

      Data Fabric支持非结构化数据,包括物联网:企业正在迅速将其边界扩展到本地服务器和固定工作站之外。从自带设备 (BYOD) 和 WFH 到现场加固型手持设备和物联网 (IoT),联网设备的范围正在不断扩大。数据结构连接所有这些端点,处理通过传感器收集的非结构化数据,并以最低的后端复杂性提供洞察力。

      Data Fabric 大规模处理信息:企业数据量不断增长,能够有效移动数据的组织将获得竞争优势。数据驱动的洞察力和决策可以推动新的商机、改善客户体验并实现更高效的工作方式。Data Fabric 使自动摄取和利用原本闲置的数据成为可能。

      Data Fabric 与混合托管环境兼容:Data Fabric 的关键特征之一是它与环境、平台和工具无关。它可以实现与技术堆栈中几乎每个组件的双向集成,以创建交织或类似织物的架构。这非常适合多云或混合云企业,其中数据计划需要在所有云中统一且一致地运行。该解决方案从分布在环境中的多个来源摄取数据,以创建一个整合的“结构”以生成洞察力。

      Data Fabric 以更快的速度产生洞察力:这些解决方案甚至可以轻松处理最复杂的数据集,从而加快洞察力。由于其架构,有预先构建的分析模型和认知算法来大规模和快速地处理数据。例如,NASA 能够与名为 Stardog 的数据结构供应商合作,将获得洞察的时间缩短 90%。

      与传统仓储模型相比,Data Fabric 需要更少的 IT 干预:Data Fabric 的一个重要特征是它依赖于一组预构建和预配置的组件来从原始数据到经过处理和可操作的信息。这些系统通常托管在云上,并由经验丰富的服务提供商管理。这意味着在实施和维护数据生产计划时不需要 IT 参与。

      技术用户和非技术用户都使用Data Fabric:Data Fabric的体系结构使其适用于广泛的用户界面。您可以构建可以被业务主管快速理解和利用的时尚仪表板。Data Fabric还带有复杂的工具,可以让数据科学家深入挖掘和深入数据探索。它适用于各种数据素养水平。

      实施Data Fabric的主要目的是巩固数据治理和数据安全,无论它位于企业的哪个位置。您还可以将解决方案与新的数据源、分析模型、用户界面和自动化脚本集成以改进数据使用。Data Fabric 技术的最新进展意味着您甚至可以使用图形模型处理元数据,以与业务用户相关,而不仅仅是被动资产。其架构允许企业通过扩展添加新功能、叠加安全覆盖以及执行其他关键功能,而无需缩减核心数据库。

      03 Data Fabric 的关键架构组件

      Data Fabric 是一个打包的解决方案,它利用七个关键组件从数据中提取见解并在整个企业中一致地交付它们。这些关键架构组件包括:

      Data Fabric 的关键架构组件

      1、采集的数据源

      数据源是系统生成的信息,将由Data Fabric 处理、存储和使用。这些资源可能存在于企业内部,例如您的企业资源规划 (ERP) 软件、客户关系管理 (CRM) 软件或人力资源信息系统 (HRIS)。您可以连接到非结构化数据源,例如支持 PDF 和屏幕截图的文档提交系统,以及物联网传感器。Data Fabric 还可以从提供公共可用数据(如社交媒体)的外部系统中提取数据。最后,企业可以购买第三方数据库来丰富内部已有的信息。

      2、用于处理的分析和知识图谱

      Data Fabric 采集的许多数据都是半结构化或非结构化形式,包括来自各种来源的元数据。分析和知识图谱系统会将所有数据类型一致地转换为连贯的格式,以便可以在没有任何瓶颈的情况下对其进行处理。具体来说,用户需要能够查看和理解企业中各种数据源之间的关系。这就是为什么在您继续生成洞察之前,处理分析是数据结构的关键架构组件。

      3、洞察生成的高级算法

      对于此组件,您可以利用 AI/ML 算法进行持续数据监控和实时洞察生成。AI/ML 的使用显着缩短了处理时间,并帮助您更快地产生洞察力。数据必须与劳动力优化或特定位置的业务决策等运营用例保持一致,以显示最相关的洞察力。此外,出于安全和合规目的,必须记录所有活动。

      4、用于与交付接口连接的 API 和 SDK

      这可能是Data Fabric 中最重要的组成部分,这使它有别于传统的数据湖或仓库。Data Fabric 在其架构主干中内置了集成就绪功能,并且可以与任何前端用户 UI 连接,以便在最需要的地方提供洞察力。为此,它使用应用程序编程接口 (API) 和软件开发工具包 (SDK) 以及预构建的连接器。理想情况下,它应该有两个集成模块 - IT 专业人员可以用来设置复杂集成的自己动手 (DIY) 功能,以及让业务用户开始从 Data Fabric 中获益的开箱即用功能。自助式商业智能 (BI) 工具。

      5、数据消费层

      数据消费层是指在前端实现数据消费的面向用户的界面。您可以通过多种方式调整这一层,以从您的 Data Fabric 投资中获得最大回报。例如,业务应用程序中的嵌入式分析可以帮助用户在其工作流程的上下文中访问信息。虚拟助手和聊天机器人可以帮助进行自然数据探索。而且,实时仪表板可以让运营经理实时了解关键企业事件。Data Fabric 的优势在于它同样轻松地支持所有这些要求。

      6、数据传输层

      传输层帮助数据在结构中移动。强大的数据传输层不仅能够在系统之间无中断地移动数据,而且还能够通过端到端加密实施严格的安全性。该层还可以设计为保留重复数据删除,以便在移动过程中不会创建新副本。它还应该保持由Data Fabric 的不同组件强制执行的压缩效率,以便数据再水化不会在运动中发生,从而导致无意的低效率或安全风险。

      7、托管环境

      虽然该组件在技术上是数据结构架构的外部,但它会影响其核心组件。您可以选择在本地或云端托管 Data Fabric。在后者的情况下,它可能能够从基于云的数据管理工具(如 Snowflake 和容器)中获益。本地数据结构应该与您的非云 IT 工具集成,无论是 Oracle 本地、SAP 还是其他任何工具。如果您与合适的供应商合作,Data Fabric 也非常适合多云和混合云环境。

      虽然我们生活在一个数据驱动的时代,但组织在日常任务上花费了不成比例的时间,而在增值上却没有足够的时间。Gartner 2020 年一项题为“平衡创新与控制的数据管理斗争”的调查发现,数据团队只能将 22% 的时间用于创新。剩余的精力用于维护生产计划、培训用户和其他非增值任务。Data Fabric 使用上述七个组件来纠正这种平衡,并通过消除数据管理中的后端瓶颈来释放您的顶尖人才。

      04 Data Fabric 8 大最佳应用实践

      全球数据结构市场将从 2020 年的 11 亿美元增长 3 倍以上,到 2026 年达到 37 亿美元(根据全球行业分析师的说法)——这表明该领域的需求强劲。如果您希望实施数据结构架构以优化企业数据的使用方式,请记住以下最佳实践。

      数据编织的最佳实践

      1、采用 DataOps 流程模型

      虽然数据结构和数据操作不是相同的概念,但数据操作可以证明是一个重要的推动者。根据 DataOps 流程模型,数据流程、工具和应用洞察的用户之间存在密切的联系。

      用户可以持续依赖数据,有意义地利用可用工具,并应用洞察力来优化运营。该模型与数据结构的架构具有共生关系。如果没有 DataOps 流程模型和 DataOps 思维模式,用户将难以充分利用数据结构。

      2、主动避免建立另一个数据湖

      构建数据结构时的一个常见缺陷是它可能最终变成另一个数据湖。如果您拥有所有架构组件——数据源、分析、BI 算法、数据传输和数据消费——但没有 API 和 SDK,那么结果就不是真正的数据结构。

      数据结构是指架构设计,而不是单一技术。组件之间的互操作性和集成准备是该设计的定义特征。这就是为什么企业需要特别关注集成层、无缝数据传输以及自动洞察交付到新连接的前端接口的原因。

      3、了解您的合规性和监管要求

      数据结构架构可以帮助改善安全性、治理和法规遵从性,因为数据在其中运行的整体环境。由于数据不会分散在不同的系统中,因此威胁向量更小,敏感数据暴露的风险也更小。

      但是,在实施数据结构之前,请务必仔细了解围绕您的数据的合规性和法规要求。这是因为不同的数据类型可能属于不同的监管管辖区,并有不同的法律管辖。您可以通过强制执行数据转换以在必要时遵守法律的自动化合规策略来解决这个问题。

      4、部署基于图形的分析以查找相关性

      图分析是关系数据库的一种更智能的替代方案,它有助于使用知识图来可视化元数据和数据关系。它使用语义上下文丰富数据,以了解信息的含义,而不仅仅是文本字符串。

      由图分析提供支持的知识图是数据结构的理想选择——数据结构架构的主要目的是实现对不同数据源的整体使用而不会重复。知识图可以通过调查数据源之间的关系来提供业务和运营洞察力。与关系数据库方法相比,它更擅长集成不同的数据,并且挖掘出的见解也与业务用户更相关。

      5、为公民开发者建立数据市场

      通常,Data Fabric 架构将生成见解并将其直接传递给业务应用程序,或创建分段数据存储库以供 IT 或您的数据团队进行分析。还有另一种方法可以利用数据结构的潜力——通过一个使公民开发人员访问民主化的数据市场。

      对数据分析有一定了解并具有多年业务分析专业知识的业务用户可以从这个市场编织数据,为新兴用例创建新模型。除了实施特定于用例的 BI 之外,企业还可以授权公民开发人员以新的灵活方式利用数据结构。

      6、利用开源技术

      在构建数据结构时,开源可以改变游戏规则。根据其定义,数据结构意味着可扩展和集成就绪,这意味着开源工具最适合其架构。

      开源组件还可以减少您对单一供应商的依赖,因为数据结构可能涉及巨额投资,即使您稍后选择更换供应商,您也希望保留投资。请务必查看一个新推出的 Open Data Fabric 项目,该项目使用大数据和区块链来启用分散的流数据处理管道。

      7、启用本机代码生成

      本机代码生成是一项重要功能,可让您的 Data Fabric 解决方案自动生成可用于集成的代码。即使数据结构处理传入的信息,它也可能能够以各种语言(如 Spark、SQL 和 Java)本地生成优化代码。

      然后,IT 专业人员可以利用此代码集成可能尚不存在 API 和 SDK 的新系统。这种做法将帮助您加快数字化转型并轻松添加新的数据系统,而无需担心过度的集成工作或投资。请记住,本机代码生成必须与预构建的连接器协同工作,以使数据结构易于使用。

      8、使数据结构适应边缘计算

      边缘数据结构(也称为边缘到云数据结构)专为支持物联网实施而构建。它将与数据相关的关键任务从集中式应用程序转移到一个单独的边缘层,该边缘层是分布式的,但与数据结构紧密相连。通过使数据结构适应边缘计算,企业可以从其物联网设备中获得更多价值。

      例如,智能工厂可以使用边缘数据结构(无需通信)与集中式云自动计算货物集装箱的重量,并自动启动拣货流程。它以传统的集中式数据湖模型无法实现的方式加速决策并实现自动化操作。

      05 关键点总结

      随着我们数据使用量的增长,数据孤岛必须越来越多地被打破,以便为互联企业让路。数据结构的实施是这一旅程的重大飞跃——事实上,这是自 1970 年代关系数据库发明以来最具革命性的突破之一。这是因为 Data Fabric 不仅仅是一种技术或产品。它指的是数据和业务行为紧密交织的架构设计、结构化流程和思维方式转变。以下是企业必须记住的三个关键要点:

      Data Fabric 可以显着减少花费在日常、非增值数据管理任务上的时间——但它可能需要大量的初始投资。

      一个数据结构有七个关键的架构组件,API 和 SDK 层最需要注意,以避免被限制在数据湖的范围内。

      根据定义,数据结构是无限可扩展的,这意味着您需要随着企业的发展更新和升级架构。

      数据结构可以成为使每个流程、应用程序和业务决策都由数据驱动的秘密成分。记住我们讨论的十个最佳实践并选择合适的供应商以确保在前进的道路上取得成功。

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    [编号: ]
    分享到微信

    即时

    新闻

    腾讯前三季研发投入454.75亿元 前沿科技加速落地服务

    11月16日,腾讯控股(HK.00700)发布2022年Q3财报,腾讯实现营业收入1400.93亿元,非国际会计准则净利润(Non-IFRS)322.54亿元,同比恢复增长,多个主营业务板块收入亦呈现环比企稳迹象。

    研究

    IDC发布中国数字政府IT安全软硬件市场份额报告

    IDC《中国数字政府IT安全硬件市场份额,2021》报告显示,中国数字政府IT安全硬件市场的规模达到64.9亿元人民币,同比增长31.5%。