Skip to content
/ dpkb Public
forked from huangfox/dpkb

大数据相关内容汇总,包括分布式存储引擎、分布式计算引擎、数仓建设等。关键词:Hadoop、HBase、ES、Kudu、Hive、Presto、Spark、Flink、Kylin、ClickHouse

Notifications You must be signed in to change notification settings

wuchunfu/dpkb

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

71 Commits
 
 
 
 

Repository files navigation

DPKB

大数据相关知识库,主要包括:

  • 数据存储层、数据库(HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等)
  • 数据处理层、OLAP引擎(Spark、Flink、Presto、Trino等)
  • 数据湖(IceBerg、Hudi、Delta等)
  • 大数据开发、应用(主要包括ETL、调度、数仓、数据应用等,例如Seatunnel、Dolphinscheduler等)
  • 数据治理(元数据管理、数据模型、数据标准、数据质量、数据安全等)

持续更新中(2023-04)

一、数据存储层、数据库(HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等)

HDFS

Hive

1)官网、社区、博客

2)专栏

3)大厂实践

HBase

1)官网、社区、博客

2)专栏

3)大厂实践

4)其他

Kudu

1)官网、社区、博客

2)专栏

3)大厂实践

4)其他

Doris

1)官网、社区、博客

2)专栏

3)案例实践

StarRocks

1)官网、社区、博客

2) 专栏

ClickHouse

1)官网、社区、博客

2)专栏

3)大厂实践

4)其他

二、数据处理层、OLAP引擎(Spark、Flink、Presto、Trino等)

Spark

1)官网、社区、博客

2)专栏

3)大厂实践

Flink

1)官网、社区、博客

2)专栏

教程

3)大厂实践

Presto、Trino

1)官网、社区、博客

2)专栏

3)大厂实践

三、数据湖(IceBerg、Hudi、Delta等)

Iceberg

1)官网、社区、博客

2)应用

Hudi

1)官网、社区、博客

2)应用

Delta

四、大数据开发、应用(主要包括ETL、调度、数仓、数据应用等,例如Seatunnel、Dolphinscheduler等)

Seatunnel

DolphinScheduler

大数据架构

数仓相关

报表平台

五、数据治理(元数据管理、数据模型、数据标准、数据质量、数据安全等)

数据治理

元数据管理

数据标准

数据安全

六、资源汇总

大厂技术博客

大数据相关网站

相关开源项目

相关论文

About

大数据相关内容汇总,包括分布式存储引擎、分布式计算引擎、数仓建设等。关键词:Hadoop、HBase、ES、Kudu、Hive、Presto、Spark、Flink、Kylin、ClickHouse

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published