iPaaS PK 写代码

iPaaS PK 写代码

Scroll Down

引言

当今各个企业都大力投资新的基于云的流程、平台和环境,以获取可扩展性、弹性、敏捷性和成本效益等优势。与此同时,企业还认识到数据是成功实现数字化转型的基础,必须在事前做好充足准备。
这些趋势使得企业的IT部门需要帮助企业,特别是在对分析进行现代化改造的过程中,达到云就绪或云优先状态。

IT部门面临的选择

以一家金融服务公司为例,该公司希望将其众多本地数据仓库和数据湖整合并,作为正在开展的客户体验计划的一部分。第一个业务计划的对象是在线对不同类别的产品表现出兴趣但从未购买过产品的客户。不过,有些数字信号(例如,网络点击流、社交、交易等)也可能有助于该公司影响或更好地与客户互动,以增加客户份额。
IT部门必须将本地数据库和文件中的所有数据或客户关系管理(CRM)数据和企业资源计划(ERP)数据迁移到云,并准备好为各种高阶分析和人工智能(AI)项目提供支持。在云中快速定制自主开发的集成解决方案作为原型来解决第一个业务用例是很多人认为最快的成功之路,也是许多IT团队落入的陷阱。但是,包含多个项目和工作流的业务计划并不会以一个一次性的项目结束,而且该解决方案无法扩展以应对当今复杂的数据管理挑战。
社交、机器传感器和日志文件、非结构化文本、第三方数据等新的数据类型使企业开始采用新的技术,例如借助类似ApacheSpark等开源数据去处理和存储在AmazonWebServices、MicrosoftAzure或GoogleCloudPlatform等云环境里的数据许多企业必须管理复杂的多云环境,这对拥有两个或更多云环境的企业来说很常见。IT部门在实际工作中可能无法集成本地系统和云应用程序来有效、高效地使用数据。
许多 IT 部门都需要应对若干新挑战来满足以下新的需求:

  • IT 部门如何将孤立的数据提供给决策制定者?
  • IT 管理者是否应该依赖内部开发人员来创建自定义数据集成?
  • IT 领导者是否应考虑数据集成工具?

多云和混合环境中的数据管理挑战

IT企业开始逐渐支持云和分析或AI计划,以期让他们的技术开发人员能设计、开发和部署解决方案。但是,如果他们转向手动编码的方法,则很快就会面临数据挑战。在许多情况下,这与本地数据仓库和数据湖曾面临的困难一样:

  • 多样且孤立的数据:大多数企业都有诸多不同的数据类型,这些数据以诸多不同的存储格式存在
    于本地或云上诸多不同的系统中。数据常常分散在各个孤立的数据仓库、数据湖、云应用程序或第三方资源中。但是,有越来越多的数据源自网络和机器日志文件,以及社交媒体等在线交易系统和交互中。例如在零售环境中,数据分散在多个不同的系统中。这些系统包括含有店内交易数据的销售点(POS)系统,含有客户数据的CRM系统和主数据管理(MDM)系统,以及存储社交和网络点击流数据的云数据湖等。
  • 缺少数据治理和数据质量:多样且孤立的数据导致数据质量和数据治理的程度通常也各不相同。相关政策(如有)也很少能够一致地执行。数据被倾倒到数据湖中,从而产生了难以搜索、理解、管理和保护数据的沼泽,而结果只有少数数据科学家能够访问。更糟糕的是,数以百计的业务分析师和其他数据用户要依赖进入云数据仓库的劣质数据来做出决策、预测分析和AI。
  • 太多不断变化的新兴技术:数据的增加带来了新的供应商、技术和开源项目,而这些造成了IT环境的改变。由于同时存在传统的、新的和不断发展的存储、计算、数据库、应用程序、分析以及更新的AI和机器学习技术,开发人员可能难以跟上快速变化的环境,因而无法标准化或实施某种方法。

为何部分企业仍在考虑采用手动编码

部分企业之所以选择手动编码是因为他们相信这比获得数据集成工具更简单,学习曲线短。此外,开发人员可能觉得集成工具限制了他们对给定用例的创造力。在大多数情况下,这些对智能自 动化解决方案的反对意见都是缺乏远见的。不过,手动编码可能适合入门成本低的快速概念验证 (POC)。

[作者: 吴雄伟]

IT 手动编码的四大弊端

手动编码的数据集成作为一种快速、便宜的数据管道构建方式,最初可能会吸引 IT 部门,但是必须考虑几个重大弊端。

手动编码成本高昂

一段时间后,手动编码在生产中的部署、操作和维护成本很高昂。手动编码从开发到部署全程需要调整和优化。手动编码的价格会随着时间的推移而上涨,并占用大部分的 IT 部门操作和维护预算。此外,随着出现更多数据源、更多目标、更多高阶数据转换或简单的事件排程导致复杂度提升,随之自主开发的解决方案的价格也会上涨。进行到第三次或第四次迭代时,IT 部门会意识到其 成本正急剧增加,使解决方案变得不再经济适用。但这时已经晚了,没有人会愿意向做出重大投资 的管理层说明在手动编码上花费的数百万美元已经打水漂,必须转而投资供应商超出基础数据摄 取和集成功能的数据管理解决方案。

手动编码是会过时的

随着新技术和新兴技术的迅速发展,开发人员必须在技术发生变化、升级甚至底层处理引擎发生 变化时重新设计和重新编码。不久前我们还在使用 Hadoop,现在就已转向 Spark,未来还会有 Spark 的其他版本或更出色的技术。手动编码的数据集成在建成运行之时就已经过时了,而且手动编码的解决方案无法解决当今多云环境中的问题。大多数企业最终会拥有跨部门或项目类型的多个云,或者在兼并后得到多个云。

手动编码缺乏自动化特性

手动编码无法扩展以适应数据驱动的企业,且无法满足企业需求。由于对数据集成管道的要求太多,IT团队无法一一满足。扩展生产数据集成任务交付规模的唯一方法是实现自动化,而这需要AI和机器学习的介入。
手动编码意味着开发、测试、部署和源代码管理流程几乎都是手动完成的。文档化不仅费时费力,还往往无法跟上步伐。采用手动编码时,您必须使用不同的工具来调试不同的环境并做出安排和监控,并希望它能够从失败的任务中正常恢复。此外,手动编码的数据集成流程涉及的转换也会受到限制。例如,数据工程师处理数据质量问题时需要通过手动给流程编码来实现编码的标准化或需要清理特定地区的地址。

手动编码缺乏企业广度

传统数据集成手动编码人员花了很多年才意识到数据质量和数据治理对确保业务使用可信数据 的重要性和必要性。如今,随着数据驱动型公司的出现以及 AI 和机器学习的兴起,这一点变得更 加重要。手动编码无法在企业范围内实现数据集成、数据质量和元数据管理。

业务手动编码的三大弊端

手动编码的局限性不限于 IT 部门,它最终会影响到业务成果。手动编码会对以下三个关键方面产 生负面的业务影响:

成本上升

手动编码和脚本编写的人工成本非常高昂,而且高技能人才也非常有限。这些成本会随着时间而上升。虽然能够快速便宜地交付小规模的单个项目,但这些成本节约无法扩展到企业层面。手动编码没有可重用性这一概念——有时数据工程师会编写已经存在的脚本却完全意识不到。各项功能也是不可重复用于未来操作的。例如,现代化数据集成技术包括多延时数据摄取、复杂ETL(提取、转换、加载)/ELT(提取、加载、转换)转换、流数据、清理数据和解析数据。借助自定义手动编码的解决方案,这些技术很难开发并且不可重复用于更新的数据或项目。因此,IT企业需要花费巨资对开发人员进行再培训,但在未来的用处却很有限。
高昂的开发成本带来了高昂的维护成本。如果需要更改编码,则数据工程师需要确定更改导致的影响、重写编码、再次测试并再次部署编码和BI报告等任何受影响的工件。如果数据处理过程中出错,会导致手动编码的解决方案难以调试。这样的结果是,在不断变化的环境中,开发人员会完全被编码束缚。

风险更高

底层基础设施的频繁升级需要复杂的协调加持。采用手动编码后,您就无法再随着创新的速度发 展。每当数据环境发生变化时(例如,Oracle 升级、从本地 Teradata 数据仓库切换到 Amazon Redshift,或者从 SAP 迁移到 Salesforce CRM),开发人员必须停止手上的工作,转而维护编码。
当高技能人才有限时,这些相关性就提升了整体风险。根据所需的技能,企业可花费巨额资金来寻 找和培训适当的人才来支持自主开发的解决方案。许多地区很难找到精通最新技术的高技能手动 编码开发人员,因此人才竞争非常激烈。
例如,某全球制药公司的高技能开发人员创建了利用 Sqoop(Apache Hadoop 的开源组件)将数 据导入公司数据湖的摄取框架。该流程完全依赖人工维护和操作摄取框架。开发人员继续处理下 一流程,没有留人来维护或操作现有框架。由于其他人都不了解或无法维护该编码,导致无法将任 何新数据导入数据湖。该公司意识到这一错误后,转而采用企业数据集成解决方案。

价值实现时间更长

如果企业依赖少数开发人员来开发、实施和维护自主开发的定制解决方案,则存在出现延迟的风险。在某些情况下,这些相关性会严重影响价值实现时间并导致错失良机。
某大型能源公司采用了Hadoop环境,但没有获得预期的价值回报。原因是其开发主管搜索了六个月,仍未能找到高技能人才来构建所需的Spark任务。该公司决定投资企业数据集成工具来获取更多价值并帮助其开发主管处理积压的请求。
缺乏数据治理、数据质量和端到端数据可见性会降低企业可用于任何数字化转型计划的可信数据。只要缺乏可信数据或数据治理,就会延缓业务进展、降低用户普及率,进而延迟实现任何预期的业务价值。

智能自动化的四个元素

随着企业在云中整合其本地数据仓库和数据湖或对其进行现代化改造,或在云中建立新的数据仓库和数据湖,避开手动编码的陷阱变得空前重要。尤其在当今,随着以云端敏捷性和可扩展性承 诺实现最佳数据仓库和数据湖兴起,企业必须利用元数据驱动的智能和自动化特性 来构建高效的数据管道。
虽然许多 IT 部门仅关注数据集成,但是更加广泛的解决方案是满足当今企业中整个数据管理生 命周期需求的必要手段。以下是数据管理的几个关键要素。

数据集成

对管理云数据仓库、云数据湖而言,拥有最佳的智能自动化数据集成解决方案至关 重要。以下功能可支持您快速高效地构建数据管道,为您的云数据仓库、云数据湖和馈送数据:
• 无编码集成功能,提供模板和 AI 驱动的最佳转换建议
• 大规模摄取文件、数据库、变更数据和流数据
• 下推优化数据库、云数据仓库和平台即服务 (PaaS)
• 无服务器和弹性扩展
• 云端基于 Spark 的处理
• 广泛、原生的连接性
• 流处理
• AI 和机器学习增强功能,以处理架构漂移和复杂的文件解析
• 支持数据和机器学习操作(DataOps 和 MLOps)

[作者: 吴雄伟]

数据质量

在当今的云数据湖环境中,仅配备一流数据集成功能是不够的,您还需要最佳的数据质量。智能自动化的数据质量功能可确保数据纯净、标准、可信且企业内数据一致。为此,您需要以下功能:
• 与数据治理集成的数据剖析
• 数据质量规则和自动规则生成
• 用于管理值列表的数据字典
• 清理、标准化、解析、验证和消除重复记录/整合流程 • 与数据集成解决方案集成
• 数据质量分析
• 云端基于 Spark 的处理

元数据管理

通用的企业元数据基础支持您在整个环境中实现智能、自动、端到端的可见性和沿袭。涵盖不同 数据类型和数据源的广泛的元数据连接性可确保您能够查看和访问锁定在多种类事务性应用程 序、数据存储和系统、SaaS 应用程序和专有遗留系统中的数据。通用的企业元数据基础支持以智 能、自动化的方式实现:
• 数据发现
• 端到端沿袭
• 资产标记和数据审编
• 了解技术元数据、业务元数据、运营元数据和使用元数据
• 涵盖本地和云数据库(数据仓库和数据湖)、应用程序、ETL、BI 工具和其他内容的连接性

在 AI 和机器学习的基础上构建的云原生功能

第四个元素是其他三个元素的基础。为应对企业数据的快速增长,数据集成、数据质量和元数据 管理功能应构建在 AI 和机器学习的基础之上。企业寻求的云原生解决方案应支持多云环境、以 API 为驱动力、以微服务为基础,并能提供以下功能:
• AI/ML 推动的自动化,例如最佳转换建议、数据管道相似性、操作提醒和自动调整
• 集装箱化
• 无服务器架构
• 极简安装和设置
• 自动升级
• 基于使用情况定价
• 具有可信认证
• 集成的全栈高可用性和高级安全性(即平台、网络、基础设施)

ClickPaas CID解决方案