Skip to content

andrelimao/ScraperEcommerce

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Este projeto é um web scraper que lê um arquivo JSON contendo links, acessa esses links usando BeautifulSoup ou Selenium, e exporta o conteúdo da página em formatos PDF e XLS. Requisitos

Antes de começar, certifique-se de ter os seguintes itens instalados:

Python 3.x
pip (gerenciador de pacotes do Python)

Instalação

Clone o repositório ou faça o download do código.

bash

git clone https://github.com/seuusuario/seu-repositorio.git cd seu-repositorio

Instale as dependências.

Antes de executar o programa, é necessário instalar os pacotes necessários. Execute o seguinte comando para instalar os requisitos:

bash

pip install -r requirements.txt

O arquivo requirements.txt inclui dependências como:
    beautifulsoup4
    selenium
    pandas (para exportação em XLS)
    reportlab (para geração de PDFs)
    requests (para acesso a páginas)
    openpyxl (para trabalhar com arquivos Excel)

Executando o Programa

Após instalar as dependências, você pode rodar o programa passando o arquivo JSON como argumento.

Prepare o arquivo JSON contendo os links que deseja acessar. O arquivo deve ter o seguinte formato:

json

{ "links": [ "https://exemplo.com", "https://outroexemplo.com" ] }

Execute o programa:

bash

python scraper.py caminho_para_o_arquivo.json

O programa irá:
    Ler os links do arquivo JSON.
    Acessar as páginas usando BeautifulSoup ou Selenium (dependendo da estrutura do site).
    Exportar o conteúdo de cada página para um arquivo PDF e XLS.

Parâmetros opcionais

Você pode especificar qual método usar para acessar as páginas (beautifulsoup ou selenium). Por padrão, o programa tentará usar BeautifulSoup e, caso necessário, recorrerá ao Selenium.

bash

python scraper.py caminho_para_o_arquivo.json --method selenium

Notas

O Selenium requer o download do WebDriver adequado para o navegador que você vai usar (como Chrome ou Firefox). Por favor, consulte a documentação do Selenium para configurar o WebDriver no seu ambiente.
O programa irá salvar os arquivos PDF e XLS em uma pasta chamada output/, que será criada automaticamente se não existir.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages