DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
请参考:
- Linux
- JDK(1.6以上,推荐1.6)
- Python(推荐Python2.6.X)
- Apache Maven 3.x (Compile DataX)
请点击:Quick Start
目前DataX支持的数据源有:
Reader实现了从数据存储系统批量抽取数据,并转换为DataX标准数据交换协议,DataX任意Reader能与DataX任意Writer实现无缝对接,达到任意异构数据互通之目的。
RDBMS 关系型数据库
- �MysqlReader: 使用JDBC批量抽取Mysql数据集。
- OracleReader: 使用JDBC批量抽取Oracle数据集。
- SqlServerReader: 使用JDBC批量抽取SqlServer数据集
- PostgresqlReader: 使用JDBC批量抽取PostgreSQL数据集
- DrdsReader: 针对公有云上DRDS的批量数据抽取工具。
数仓数据存储
- ODPSReader: 使用ODPS Tunnel SDK批量抽取ODPS数据。
NoSQL数据存储
- OTSReader: 针对公有云上OTS的批量数据抽取工具。
- HBaseReader: 针对 HBase 0.94版本的在线数据抽取工具
- MongoDBReader:MongoDBReader
无结构化数据存储
- TxtFileReader: 读取(递归/过滤)本地文件。
- FtpReader: 读取(递归/过滤)远程ftp文件。
- HdfsReader: 针对Hdfs文件系统中textfile和orcfile文件批量数据抽取工具。
- OssReader: 针对公有云OSS产品的批量数据抽取工具。
- StreamReader
Writer实现了从DataX标准数据交换协议,翻译为具体的数据存储类型并写入目的数据存储。DataX任意Writer能与DataX任意Reader实现无缝对接,达到任意异构数据互通之目的。
RDBMS 关系型数据库
- MysqlWriter: 使用JDBC(Insert,Replace方式)写入Mysql数据库
- OracleWriter: 使用JDBC(Insert方式)写入Oracle数据库
- PostgresqlWriter: 使用JDBC(Insert方式)写入PostgreSQL数据库
- SqlServerWriter: 使用JDBC(Insert方式)写入sqlserver数据库
- DrdsWriter: 使用JDBC(Replace方式)写入Drds数据库
数仓数据存储
- ODPSWriter: 使用ODPS Tunnel SDK向ODPS写入数据。
- ADSWriter: 使用ODPS中转将数据导入ADS。
NoSQL数据存储
- OTSWriter: 使用OTS SDK向OTS Public模型的表中导入数据。
- OCSWriter
- MongoDBWriter:MongoDBWriter
无结构化数据存储
- TxtFileWriter: 提供写入本地文件功能。
- OssWriter: 使用OSS SDK写入OSS数据。
- HdfsWriter: 提供向Hdfs文件系统中写入textfile文件和orcfile文件功能。
- StreamWriter
请及时提出issue给我们。请前往:DataxIssue