ETL – ETL工具介绍 – 编程知识网

上篇文章我们介绍了ETL的概念和ETL的整个过程。那么今天我们给大家介绍一下ETL的常用工具：DataX、Datastage、Informatica、Kettle、DataPipeline。

ETL – ETL工具介绍-编程知识网

为什么要使用ETL工具？

实际生产环境中我们的数据源可能是不同的数据库或者文件，这时候需要我们先把文件整理成统一的格式再做处理这样的过程要用代码实现显然有些麻烦。

但数据来自不同的物理机，如果我们用SQL语句去处理的话，就显得特别吃力，开销也会很大。

使用存储过程处理海量数据会占用大量数据库资源，导致数据资源不足，影响数据库性能。

对于这些问题，我们可以通过使用ETL工具去解决。

部分工具支持多种异构数据的连接。

图形化的界面，操作十分方便简单。

处理hi阿来那个海量数据快，流程清晰。

ETL – ETL工具介绍-编程知识网

ETL工具介绍

阿里开源软件：DataX

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

Kettle开源软件：水壶（中文名）

Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，扩展性好，数据抽取高效稳定。主从结构，没有高可用。不支持数据的实时同步，也不支持断点续传。

IBM公司商业软件：Datastage

最专业的商业ETL工具，价格较贵，但是大数据量下处理速度也能保持较快的处理速度和稳定性。实时监控做的也很好，可以看到数据抽取的情况，运行到哪一步，很直观。售后技术支持强大。

商业软件：Informatica

专业的ETL工具，价格上比Datastage便宜一点，需要服务器和客户端的安装，处理速度上和Datastage相当。分布式部署，支持实时，但是效率不高。技术支持主要在美国，所以国内用的较少。

国内：DataPipeline

国内收费工具，相比DataX，DataPipeline有可视化的过程监控，提供多样化的图标，辅助运维，故障问题实时预警。而DataX需要依赖工具日志定位故障问题。支持实时性，DataX则是定时的。支持断点续传，DataX则不支持。架构上也是分布式的，支持水平扩展。

相比那些收费的ETL工具，我们的开源软件也有自己的优势：学习资料多、扩展性好、不收费。所以，实际生产环境下，需要我们根据实际项目选择适合的合适的工具。

ETL – ETL工具介绍

显示iPad已停用怎么办

怎么给网站添加qq客服（怎么给网站添加qq客服）

赞助商推荐

最新文章

搭 1.5T 发动机，2024 款别克昂科威 Plus 25T SUV 新增车型现身工信部

红魔 10 Pro+ 手机安兔兔跑分超 311 万：骁龙 8 至尊版、搭 24GB+1TB 内存组合

索尼 PlayStation 5 主机 2024 年 Q3 销量 380 万台，同比降幅超两成

摩托罗拉 Razr 50s Ultra 小折叠手机渲染：15W 无线、44W 有线充电

微博通报 9 起员工舞弊案件，10 人因涉嫌犯罪被移送司法机关处理

『设计模式』80年代的人们就已经领悟了设计模式– 发布者/订阅者模式（包括发布者/订阅者模式和观察者模式的区别）

非关系型数据库-NoSQL(Redis)

前端面试之计算机基础篇

消息称大众安徽新车延后：放弃 MEB，全部切换小鹏架构

消息称台积电美国工厂 12 月举办开幕大典

标签

点击排行

oppo问答系统技术路线

pikachu通关教程~~~~

怎么打印网页内容(如何打印网页选中的内容图片)

ddos防御多少钱(ddos攻击100t)

加大虚拟内存会怎么样(虚拟内存设置太大有什么坏处吗苹果)