SpiderTest
简单的爬下一个网页(www.baidu.com)
目录:src/test/SpiderTest.java
SpiderTest2
爬下Baidu首页的Logo(www.baidu.com/img/bd_logo1.png)
目录:src/test/SpiderTest2.java
jdmobilephone:
爬取网址(https://list.jd.com/list.html?cat=9987,653,655&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0&ms=5#J_main)
将此所有页的手机的介绍和网址保存到SQL Server
共包括3个类
jdmobilephone.GetFromUrl提供4个方法
Class1:GetFromUrl
以Get方式获取网页代码
Parameter:要爬取的网页网址(url)
Return:网页代码
Class2:RegexString
正则表达式匹配单一数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的一个数据
Class3:RegexStringsSingle
正则表达式匹配多个不重复的数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的set
Class4:RegexStringsRepeat
正则表达式匹配多个可重复数据
Parameter:目标数据; 正则表达式
Return:返回匹配到的List
jdmobilephone.SaveUseJDBC:提供一个方法
Class1:changeInformation
对数据库进行连接,并对数据库进行增删改
Parameter:SQL语句(sql)
NoReturn
jdmobilephone.Main;调用上列方法对数据进行解析
jdmobilephone.Main:更新自动爬取页数
jdmobilephone.Method:获取手机的其他信息
更新字段:
价格:Price;
品牌:Brand;
型号:Version;
上市年份:PublishYear;
上市月份:PublishMonth;
操作系统:System;
频幕尺寸:ScreenSize;
电池容量:BatteryCapacity;
手机ID:WebId
价格在手机端网址上抓取(http://item.m.jd.com/product/phoneId.html)
phoneId为WebId
修复BUG:部分手机信息爬取不到与获取不到网页
主要修改正则表达式与获取手机价格网址