大数据相关知识库,主要包括:
- 数据存储层、数据库(HDFS、Hive、HBase、Kudu、Doris、StarRocks、ClickHouse、TiDB等)
- 数据处理层、OLAP引擎(Spark、Flink、Presto、Trino等)
- 数据湖(IceBerg、Hudi、Delta等)
- 大数据开发、应用(主要包括ETL、调度、数仓、数据应用等,例如Seatunnel、Dolphinscheduler等)
- 数据治理(元数据管理、数据模型、数据标准、数据质量、数据安全等)
持续更新中(2024-12)
- HiveCube 在有赞的实践 2019-11
- Hive Metastore Federation 在滴滴的实践 2019-03
- HBase Bulkload 实践探讨 2019-12
- Apache Kudu 在网易的实践 2021-08
- Apache Kudu 在网易实时数仓的实践 2020-02
- Kudu架构介绍及其在小米的应用实践 2017-06
- Apache Doris在美团外卖数仓中的应用实践 2020-04
- Apache Doris 在韵达物流领域的应用实践 2021-07
- Apache Doris 在蜀海供应链的实践 2021-07
- 京东物流基于 Doris 的亿级数据自助探索应用 2021-07
- Doris on ES在快手商业化的最佳实践 2021-08
- 基于Doris的有道精品课数据中台建设实践 2020-12
- 美团外卖实时数仓建设实践 2020-10
- Doris在作业帮实时数仓中的应用&实践 2020-09
- 基于Apache Doris的小米增长分析平台实践 2020-08
- Apache Doris在京东双十一大促中的实践 2020-03
- Apache Doris 在百度商业大规模微服务全链路监控的实践 2020-02
- ClickHouse 在有赞的实践之路 2021-01
- SparkSQL 在有赞的实践 2019-01
- SparkSQL 在有赞大数据的实践(二) 2020-01
- Flink 官网
- Flink Confluence
- Flink Blog
- Ververica Blog
- Ververica 中文
- Flink 知识图谱
- Jark's Blog - WuChong - 云邪
- PrestoDB 官网
- Trino 官网 原PrestoSql
- Google Presto Group
- Presto 知乎专栏
- 若飞-技术博客
- Presto 在车好多的实践 2020-12
- Presto 在滴滴的探索与实践 2020-10
- Presto 在有赞的实践之路 2020-04
- PrestoCon 2020:云原生数据湖分析DLA的Presto实践 2020-03
- 携程 Presto 技术演进之路 2018-08
- Presto 实现原理和美团的使用实践 2014-06
- Presto 高性能引擎在美图的实践 2021-09
- 一文看懂:什么是数据库、数据湖、数据仓库、湖仓一体、智能湖仓? 2021-08
- 数据湖 Iceberg | 实时数据仓库的发展、架构和趋势 2021-03
- 数据湖 Iceberg | Apache Iceberg 快速入门 2021-03
- 数据湖 Iceberg | 如何正确使用 Iceberg 2021-04
- 数据湖 Iceberg | 在网易云音乐的实践 2021-04
- SQL on Hadoop 在快手大数据平台的实践与优化 2019-06
- 携程机票大数据架构最佳实践 2017-08
- 火山引擎DataLeap一站式数据治理解决方案及平台架构 2023-10
- 有赞数据仓库实践之路 2020-03
- OneData 建设探索之路:SaaS 收银运营数仓建设 2019-10
- 面向AI技术的工程架构实践 | 贝壳一站式大数据开发平台实践 2020-11
- 有赞 BI 平台实现原理 2021-01
- 美团配送数据治理实践 2020-03
- 全链路数据治理在网易严选的实践 2020-10
- 数据资产、数据治理 - 有赞 2019-11
- 美团酒旅起源数据治理平台的建设与实践 2018-12
- 滴滴数据仓库指标体系建设实践 2020-08
- 有赞指标库实践 2020-03
- 浅谈有赞大数据安全体系 2021-01
- 字节跳动构建Data Catalog数据目录系统的实践 2022-04
- 有赞数据仓库元数据系统实践 2018-08
- 饿了么元数据管理实践之路 2018-07
- 数据治理方案技术调研 Atlas VS Datahub VS Amundsen 2020-11
- 数据资产治理-元数据采集那点事 - 有赞 2020-12
- 来看看字节跳动内部的数据血缘用例与设计 2022-02
- 携程数据血缘构建及应用 2021-09
- Datahub A Metadata Platform for the Modern Data Stack
- 机器学习平台建设指南 2021-04
- 一站式机器学习平台建设实践 2020-02
- 汽车之家机器学习平台的架构与实践 2020-07
- 微博推荐算法实践与机器学习平台演进 2021-05
- 爱奇艺机器学习平台的建设实践 2020-11
- 爱奇艺一站式机器学习平台Deepthought的建设与初探 2020-06
- 一站式机器学习平台在 vivo AI 的实践 2020-02
- 再见,Yarn!滴滴机器学习平台架构演进 2019-03
- 网易严选机器学习平台建设实践 2022
- Sunfish-有赞智能平台实践 2020-06
- 同程-利用已有的大数据技术,如何构建机器学习平台 2017-11