Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ods有的公司说几乎不处理,有的说这一层要做第一次数据清洗,大家怎么看? #7

Open
dantezhao opened this issue Mar 2, 2018 · 4 comments
Labels
BigData 大数据相关 QUESTION 问题

Comments

@dantezhao
Copy link
Owner

No description provided.

@dantezhao
Copy link
Owner Author

回答一:我感觉基本的监控要做,然后字段类型,命名统一可以做,ip转地址也可以做。复杂的 不太容易做,数据源的接入不一定都可控。

@dantezhao
Copy link
Owner Author

回答二:看数据的规整性吧。有的公司业务方数据很规整。ODS层只用做简单的砍字段即可,有的业务数据不规整比如埋点类的那么不做清洗就肯定不行了。有公司是从业务库直接到ODS,那么需要做备份, 有的是从业务库到汇总库再到ODS。那么汇总库就可以看作是备份了。

@dantezhao
Copy link
Owner Author

dantezhao commented Mar 2, 2018

回答三:
: 我们现在ods比较轻 dwd比较重 数据预处理,脱敏等 在dwd做明细处理
: 那你们分几个层啊
: ods dwd dwv dm app,当然也是看需求的
: 哦哦,明白啦,那就是ods数据抽取过来不做任何处理,dwd做全部处理,下面是宽表了

@rorovic
Copy link

rorovic commented Mar 5, 2018

个人觉得ODS层的数据还是需要清洗并存入到数据仓库比较合适。如果不清洗,是ETL任务的计算资源和计算时间的浪费。除非是有特殊需要,规定要原汁原味的“原始数据”。

@RebieKong RebieKong added QUESTION 问题 BigData 大数据相关 labels Mar 9, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
BigData 大数据相关 QUESTION 问题
Projects
None yet
Development

No branches or pull requests

3 participants