GitHub - andrelimao/ScraperEcommerce at e2e241cc594cdae7a603442a9903609a438665ca

Name	Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md	README.md
links.json	links.json
requirements.txt	requirements.txt
scrapercommerce.py	scrapercommerce.py

Name

Last commit message

Last commit date

Este projeto é um web scraper que lê um arquivo JSON contendo links, acessa esses links usando BeautifulSoup ou Selenium, e exporta o conteúdo da página em formatos PDF e XLS. Requisitos

Antes de começar, certifique-se de ter os seguintes itens instalados:

Python 3.x
pip (gerenciador de pacotes do Python)

Instalação

Clone o repositório ou faça o download do código.

bash

git clone https://github.com/seuusuario/seu-repositorio.git cd seu-repositorio

Instale as dependências.

Antes de executar o programa, é necessário instalar os pacotes necessários. Execute o seguinte comando para instalar os requisitos:

bash

pip install -r requirements.txt

O arquivo requirements.txt inclui dependências como:
    beautifulsoup4
    selenium
    pandas (para exportação em XLS)
    reportlab (para geração de PDFs)
    requests (para acesso a páginas)
    openpyxl (para trabalhar com arquivos Excel)

Executando o Programa

Após instalar as dependências, você pode rodar o programa passando o arquivo JSON como argumento.

Prepare o arquivo JSON contendo os links que deseja acessar. O arquivo deve ter o seguinte formato:

json

{ "links": [ "https://exemplo.com", "https://outroexemplo.com" ] }

Execute o programa:

bash

python scraper.py caminho_para_o_arquivo.json

O programa irá:
    Ler os links do arquivo JSON.
    Acessar as páginas usando BeautifulSoup ou Selenium (dependendo da estrutura do site).
    Exportar o conteúdo de cada página para um arquivo PDF e XLS.

Parâmetros opcionais

Você pode especificar qual método usar para acessar as páginas (beautifulsoup ou selenium). Por padrão, o programa tentará usar BeautifulSoup e, caso necessário, recorrerá ao Selenium.

bash

python scraper.py caminho_para_o_arquivo.json --method selenium

Notas

O Selenium requer o download do WebDriver adequado para o navegador que você vai usar (como Chrome ou Firefox). Por favor, consulte a documentação do Selenium para configurar o WebDriver no seu ambiente.
O programa irá salvar os arquivos PDF e XLS em uma pasta chamada output/, que será criada automaticamente se não existir.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

andrelimao/ScraperEcommerce

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages