Skip to content

hizhuzhan/webSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

34 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

webSpider

2017.4.17更新:

SpiderTest
简单的爬下一个网页(www.baidu.com)
目录:src/test/SpiderTest.java

SpiderTest2
爬下Baidu首页的Logo(www.baidu.com/img/bd_logo1.png)
目录:src/test/SpiderTest2.java


2017.4.25更新:

jdmobilephone: 爬取网址(https://list.jd.com/list.html?cat=9987,653,655&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0&ms=5#J_main)
将此所有页的手机的介绍和网址保存到SQL Server
共包括3个类

jdmobilephone.GetFromUrl提供4个方法
Class1:GetFromUrl
以Get方式获取网页代码
Parameter:要爬取的网页网址(url)
Return:网页代码
Class2:RegexString
正则表达式匹配单一数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的一个数据
Class3:RegexStringsSingle
正则表达式匹配多个不重复的数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的set
Class4:RegexStringsRepeat
正则表达式匹配多个可重复数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的List

jdmobilephone.SaveUseJDBC:提供一个方法
Class1:changeInformation
对数据库进行连接,并对数据库进行增删改
Parameter:SQL语句(sql)
NoReturn

jdmobilephone.Main;调用上列方法对数据进行解析


2017.4.27更新:

jdmobilephone.Main:更新自动爬取页数


2017.4.28更新:

jdmobilephone.Method:获取手机的其他信息
更新字段: 价格:Price; 品牌:Brand; 型号:Version; 上市年份:PublishYear; 上市月份:PublishMonth; 操作系统:System; 频幕尺寸:ScreenSize; 电池容量:BatteryCapacity; 手机ID:WebId
价格在手机端网址上抓取(http://item.m.jd.com/product/phoneId.html)
phoneId为WebId


2017.5.11更新:

修复BUG:部分手机信息爬取不到与获取不到网页
主要修改正则表达式与获取手机价格网址


About

持续更新的WEB SOPIDER

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages