WEBCRAWLER

Implementação:

O WebCrawler desenvolvido recebe uma url e a profundidade a ser acessada.
Com isso, no primeiro momento ele entra na url passada e encontra todos os links presentes no HTML, cria o diretório na máquina do cliente e salva a página html principal e suas imagens.
Após, distribui entre as threads os links encontrados através de um Pool de threads. Uma verificação se o link já foi baixada é feita, a partir de então, cada thread baixa recursivamente a url passada assim como na primeira etapa. Isto é feita até a profundidade definida.
Foi utilizada um timeout no socket para não travar demais o programa.


*Obs: as imagens não estão sendo baixadas de fato para não demorar muito a execução, entretanto é possível realizar esta função apenas descomentado-a no código fonte.

Na segunda etapa do trabalho, foi implementada a possibilidade de fazer conexão com sites HTTPS, usando SSL. Para isso, utilizamos as classes SSLsocket e SSLSocketFactory.
Utilizando essas classes, o webcrawler realiza em tempo de execução qual das conexões usar com base no url.

Execução:

Para executar:
	-make
	-./executeme profundidade url

Testes Realizados:

Foram realizados testes com  os seguintes links:

	- https://ccl.northwestern.edu/netlogo/
	- https://www.pcwebshop.co.uk/   PS: Auto Assinado
	- http://portal.ufpel.edu.br/
	- http://avainstitucional.ufpel.edu.br/
	- http://www.globo.com
	- http://www.clicrbs.com.br/rs/

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Downloader.java		Downloader.java
Link.java		Link.java
Makefile		Makefile
README.md		README.md
SSLSocketFactoryProm.java		SSLSocketFactoryProm.java
WebCrawler.java		WebCrawler.java
executeme		executeme
mainWebCrawler.java		mainWebCrawler.java
testeme		testeme

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WEBCRAWLER

Implementação:

Execução:

Testes Realizados:

About

Releases

Packages

Languages

rsilveira65/webcrawler

Folders and files

Latest commit

History

Repository files navigation

WEBCRAWLER

Implementação:

Execução:

Testes Realizados:

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages