PROCESSO SELETIVO DA DADOSFERA PARA ENGENHARIA DE DADOS

ITEM 1

ITEM 2

O dataset foi baixado e transformado no formato adequado utilizando os códigos jsonl_to_csv.py e posteriormente o divide_csv.py devido ao tamanho acima do limitado para upload no site. Como eram muitos dados, as análises foram feitas apenas em cima de produtos que estavam na primeira divisão, e, dessa forma, apenas a primeira divisão foi catalogada na Dadosfera. Os dados podem ser encontrados em:

Dataset

ITEM 3

A extração de features dos produtos foram feitas através da utilização da API do chatGPT, biblioteca openai do python. O código openai_usage.py realiza extrações de forma assincrona, mas se limita em fazer no máximo 3 requisições por vez para não exceder o máximo de tokens por minuto que a API aceita. A mensagem utilizada como prompt para o chatGPT ser vista aqui.

As features foram registradas em um arquivo json, e depois transformadas em CSV para upload novamente na Dadosfera com uso do código products_json_to_csv.py.

Dataset

ITEM 4

Utilizando do módulo de visualização, foram feitas perguntas em SQL para o banco de dados e os gráficos gerados foram colocados em um dashboard. Como as categorias de produtos foram geradas automaticamente, aquelas categorias onde só foi encontrado 1 produto foram ignoradas na segunda query, dando outra possibilidade de insight sobre os produtos.

SQL Query

SQL Query 2

Dashboard

ITEM 5

Data app

O Data app foi criado para facilitar a verificação da quantidade de produtos por categoria, material ou número de features conforme foi caracterizado no ITEM 3 pelo chatGPT.

ITEM BONUS

O código openai_image.py foi utilizado com diferentes prompts na tentativa de criar imagens com a AI generativa da openAI. Entretanto, nenhuma delas se provou adequada para o uso, e as que foram consideradas melhores podem ser encontradas na pasta images.

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
images		images
.gitignore		.gitignore
Product categories without uniques-02_11_2023, 18_35_23.png		Product categories without uniques-02_11_2023, 18_35_23.png
Product categories-02_11_2023, 18_35_20.png		Product categories-02_11_2023, 18_35_20.png
app.py		app.py
divide_csv.py		divide_csv.py
features_dataset.png		features_dataset.png
jsonl_to_csv.py		jsonl_to_csv.py
openai_image.py		openai_image.py
openai_usage.py		openai_usage.py
products_json_to_csv.py		products_json_to_csv.py
raw_dataset.png		raw_dataset.png
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PROCESSO SELETIVO DA DADOSFERA PARA ENGENHARIA DE DADOS

ITEM 1

ITEM 2

ITEM 3

ITEM 4

ITEM 5

ITEM BONUS

About

Releases

Packages

Languages

lorenzosc/lorenzo_correa_DDF_DATAENG_102023

Folders and files

Latest commit

History

Repository files navigation

PROCESSO SELETIVO DA DADOSFERA PARA ENGENHARIA DE DADOS

ITEM 1

ITEM 2

ITEM 3

ITEM 4

ITEM 5

ITEM BONUS

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages