Skip to content

Latest commit

 

History

History
37 lines (26 loc) · 1.84 KB

README.md

File metadata and controls

37 lines (26 loc) · 1.84 KB

🔎 Análise de dados: Comércio eletrônico brasileiro 💳

Este é um projeto de análise do conjunto de dados públicos de comércio eletrônico brasileiro disponibilizados pelo site Olist via plataforma Kaggle, são registros de vendas, valores, geolocalização, cadastros, entre outros que abrangem todo um processo venda de um produto por via on-line, são dados reais, entretanto, conforme informado pelos publicadores do dataset, os dados foram anonimizados, sendo que, por exemplo, os nomes das empresas foram subistituídos pelas grandes casas da série Game of Thrones.

📃 Demanda da análise

  • Replicar os datasets para um banco de dados SQL
  • Executar a exploração dos dados via SQL
  • Aplicar ETL nas tabelas via PySpark
  • Exportar dados para construção de uma apresentação

❓ Indagações a serem respondidas pela análise exploratória dos dados

  1. Qual o total(quantidade) de vendas divididas por estado?
  2. Qual o total(valor) de vendas e fretes divididos por estado?
  3. Qual o total(quantidade) e distribuição(%) de vendas por hora?
  4. Qual a média(valor) de vendas por hora?
  5. Qual o ticket médio nos anos de 2016, 2017 e 2018?
  6. Qual a distribuição(%) da pontuação do pedidos?
  7. Quais as 10 cidades com as maiores volumes(quantidade) de vendas?
  8. Quais as 10 cidades com os maiores volumes(valores) de vendas e fretes?
  9. Qual a quantidade de produtos cadastrados por categoria?
  10. Qual a quantidade e distribuição(%) das categorias nos pedidos?
  11. Qual a quantidade de vendas por vendedor?

💻 Tecnologias

  • PostgreSQL
  • PySpark

💳 Créditos

🔖 Licença

Licença MIT (MIT). Por favor leia o arquivo da licença para mais informações.