Skip to content

lorenzosc/lorenzo_correa_DDF_DATAENG_102023

Repository files navigation

PROCESSO SELETIVO DA DADOSFERA PARA ENGENHARIA DE DADOS

ITEM 1

Vídeo

ITEM 2

O dataset foi baixado e transformado no formato adequado utilizando os códigos jsonl_to_csv.py e posteriormente o divide_csv.py devido ao tamanho acima do limitado para upload no site. Como eram muitos dados, as análises foram feitas apenas em cima de produtos que estavam na primeira divisão, e, dessa forma, apenas a primeira divisão foi catalogada na Dadosfera. Os dados podem ser encontrados em:

Dataset

Foto do Dataset

ITEM 3

A extração de features dos produtos foram feitas através da utilização da API do chatGPT, biblioteca openai do python. O código openai_usage.py realiza extrações de forma assincrona, mas se limita em fazer no máximo 3 requisições por vez para não exceder o máximo de tokens por minuto que a API aceita. A mensagem utilizada como prompt para o chatGPT ser vista aqui.

As features foram registradas em um arquivo json, e depois transformadas em CSV para upload novamente na Dadosfera com uso do código products_json_to_csv.py.

Dataset

Foto do Dataset

ITEM 4

Utilizando do módulo de visualização, foram feitas perguntas em SQL para o banco de dados e os gráficos gerados foram colocados em um dashboard. Como as categorias de produtos foram geradas automaticamente, aquelas categorias onde só foi encontrado 1 produto foram ignoradas na segunda query, dando outra possibilidade de insight sobre os produtos.

SQL Query

SQL Query 2

Dashboard

Todos as categorias Sem as categorias de apenas 1 produto

ITEM 5

Data app

O Data app foi criado para facilitar a verificação da quantidade de produtos por categoria, material ou número de features conforme foi caracterizado no ITEM 3 pelo chatGPT.

ITEM BONUS

O código openai_image.py foi utilizado com diferentes prompts na tentativa de criar imagens com a AI generativa da openAI. Entretanto, nenhuma delas se provou adequada para o uso, e as que foram consideradas melhores podem ser encontradas na pasta images.

About

Processo seletivo para dadosfera

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages