data-pipeline-tools/
├── data_pipeline_tools/ # 主包目录,存放核心代码
│ ├── __init__.py # 包初始化文件
│ ├── connectors/ # 数据源连接器(例如:Hive、数据库连接)
│ │ ├── __init__.py
│ │ ├── hive_connector.py # Hive 数据库连接器
│ │ ├── mysql_connector.py # MySQL 数据库连接器(如果以后扩展支持)
│ │ └── ... # 其他数据源连接器
│ ├── exporters/ # 数据导出相关模块
│ │ ├── __init__.py
│ │ ├── excel_exporter.py # Excel 导出
│ │ ├── csv_exporter.py # CSV 导出
│ │ ├── txt_exporter.py # TXT 导出
│ │ └── ... # 其他格式的导出
│ ├── parsers/ # 数据解析相关模块
│ │ ├── __init__.py
│ │ ├── excel_parser.py # Excel 解析
│ │ ├── csv_parser.py # CSV 解析
│ │ ├── json_parser.py # JSON 解析(如果需要)
│ │ └── ... # 其他解析功能
│ ├── processors/ # 数据处理模块(数据清洗、转换等)
│ │ ├── __init__.py
│ │ ├── data_cleaner.py # 数据清洗
│ │ ├── data_transformer.py # 数据转换
│ │ └── ... # 其他数据处理功能
│ └── utils/ # 辅助工具函数
│ ├── __init__.py
│ ├── logger.py # 日志工具
│ ├── file_utils.py # 文件处理工具
│ └── ... # 其他工具函数
├── input/ # 存放需要处理的输入文件(CSV、Excel、TXT等)
├── output/ # 存放输出的文件(导出的 Excel、CSV 等)
├── tests/ # 单元测试目录
│ ├── __init__.py
│ ├── test_connectors.py # 测试数据库连接
│ ├── test_exporters.py # 测试数据导出
│ ├── test_parsers.py # 测试数据解析
│ ├── test_processors.py # 测试数据处理
│ └── test_utils.py # 测试工具函数
├── examples/ # 示例代码目录
│ ├── example_hive_to_excel.py # 从 Hive 导出数据的示例
│ ├── example_mysql_to_csv.py # 从 MySQL 导出数据的示例
│ └── ... # 其他示例
├── requirements.txt # 项目依赖文件(列出所有 Python 包)
├── README.md # 项目说明文件
├── setup.py # 安装脚本(如果需要发布到 PyPI)
└── LICENSE # 项目许可证
-
Notifications
You must be signed in to change notification settings - Fork 0
License
bujiuzhi/data-toolkit
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published