webSpider

2017.4.17更新：

SpiderTest
简单的爬下一个网页(www.baidu.com)
目录：src/test/SpiderTest.java

SpiderTest2
爬下Baidu首页的Logo(www.baidu.com/img/bd_logo1.png)
目录：src/test/SpiderTest2.java

2017.4.25更新：

jdmobilephone: 爬取网址(https://list.jd.com/list.html?cat=9987,653,655&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0&ms=5#J_main)
将此所有页的手机的介绍和网址保存到SQL Server
共包括3个类

jdmobilephone.GetFromUrl提供4个方法
Class1：GetFromUrl
以Get方式获取网页代码
Parameter：要爬取的网页网址(url)
Return：网页代码
Class2：RegexString
正则表达式匹配单一数据
Parameter：目标数据; 正则表达式
Return：返回匹配到的一个数据
Class3：RegexStringsSingle
正则表达式匹配多个不重复的数据
Parameter：目标数据; 正则表达式
Return：返回匹配到的set
Class4：RegexStringsRepeat
正则表达式匹配多个可重复数据
Parameter：目标数据; 正则表达式
Return：返回匹配到的List

jdmobilephone.SaveUseJDBC：提供一个方法
Class1：changeInformation
对数据库进行连接，并对数据库进行增删改
Parameter：SQL语句(sql)
NoReturn

jdmobilephone.Main；调用上列方法对数据进行解析

2017.4.27更新：

jdmobilephone.Main：更新自动爬取页数

2017.4.28更新：

jdmobilephone.Method：获取手机的其他信息
更新字段：价格：Price；品牌：Brand；型号：Version；上市年份：PublishYear；上市月份：PublishMonth；操作系统：System；频幕尺寸：ScreenSize；电池容量：BatteryCapacity；手机ID：WebId
价格在手机端网址上抓取(http://item.m.jd.com/product/phoneId.html)
phoneId为WebId

2017.5.11更新：

修复BUG：部分手机信息爬取不到与获取不到网页
主要修改正则表达式与获取手机价格网址

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
.settings		.settings
bin/com		bin/com
src/com		src/com
webSpider		webSpider
.classpath		.classpath
.project		.project
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

webSpider

2017.4.17更新：

2017.4.25更新：

2017.4.27更新：

2017.4.28更新：

2017.5.11更新：

About

Releases

Packages

Languages

hizhuzhan/webSpider

Folders and files

Latest commit

History

Repository files navigation

webSpider

2017.4.17更新：

2017.4.25更新：

2017.4.27更新：

2017.4.28更新：

2017.5.11更新：

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages