O dataset foi baixado e transformado no formato adequado utilizando os códigos jsonl_to_csv.py e posteriormente o divide_csv.py devido ao tamanho acima do limitado para upload no site. Como eram muitos dados, as análises foram feitas apenas em cima de produtos que estavam na primeira divisão, e, dessa forma, apenas a primeira divisão foi catalogada na Dadosfera. Os dados podem ser encontrados em:
A extração de features dos produtos foram feitas através da utilização da API do chatGPT, biblioteca openai do python. O código openai_usage.py realiza extrações de forma assincrona, mas se limita em fazer no máximo 3 requisições por vez para não exceder o máximo de tokens por minuto que a API aceita. A mensagem utilizada como prompt para o chatGPT ser vista aqui.
As features foram registradas em um arquivo json, e depois transformadas em CSV para upload novamente na Dadosfera com uso do código products_json_to_csv.py.
Utilizando do módulo de visualização, foram feitas perguntas em SQL para o banco de dados e os gráficos gerados foram colocados em um dashboard. Como as categorias de produtos foram geradas automaticamente, aquelas categorias onde só foi encontrado 1 produto foram ignoradas na segunda query, dando outra possibilidade de insight sobre os produtos.
O Data app foi criado para facilitar a verificação da quantidade de produtos por categoria, material ou número de features conforme foi caracterizado no ITEM 3 pelo chatGPT.
O código openai_image.py foi utilizado com diferentes prompts na tentativa de criar imagens com a AI generativa da openAI. Entretanto, nenhuma delas se provou adequada para o uso, e as que foram consideradas melhores podem ser encontradas na pasta images.