GitHub

页面解析和数据提取

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

非结构化数据：先有数据，再有结构，
结构化数据：先有结构、再有数据
不同类型的数据，我们需要采用不同的方式来处理。

非结构化的数据处理 {#非结构化的数据处理}

文本、电话号码、邮箱地址 {#文本、电话号码、邮箱地址}

正则表达式

HTML 文件 {#html-文件}

正则表达式
XPath
CSS选择器

结构化的数据处理 {#结构化的数据处理}

JSON 文件 {#json-文件}

JSON Path
转化成Python类型进行操作（json类）

XML 文件 {#xml-文件}

转化成Python类型（xmltodict）
XPath
CSS选择器
正则表达式

2.Beautiful Soup 4.2.0 文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

Name		Name	Last commit message	Last commit date
Latest commit History 255 Commits
11yan-zheng-ma-shi-bie		11yan-zheng-ma-shi-bie
12ren-shi-scrapy		12ren-shi-scrapy
13scrapyshi-li		13scrapyshi-li
14scrapy-redis		14scrapy-redis
1xian-cheng-he-xie-cheng		1xian-cheng-he-xie-cheng
2xie-cheng		2xie-cheng
2xpath		2xpath
3ren-shi-pa-chong		3ren-shi-pa-chong
5pa-chong		5pa-chong
9ci-yun		9ci-yun
assets		assets
.gitignore		.gitignore
01duo-xie-cheng-pa-qu-zhao-pin-wang.md		01duo-xie-cheng-pa-qu-zhao-pin-wang.md
01getemaildeep.md		01getemaildeep.md
01selenimji-chu.md		01selenimji-chu.md
01zhi-lian-zhao-pin.md		01zhi-lian-zhao-pin.md
02duo-xian-cheng-pa-qu-zhao-pin-wang.md		02duo-xian-cheng-pa-qu-zhao-pin-wang.md
02getemailvast.md		02getemailvast.md
02gu-piao-ji-jin.md		02gu-piao-ji-jin.md
02seleniummo-ni-zi-dong-ce-ping.md		02seleniummo-ni-zi-dong-ce-ping.md
03duo-jin-cheng-pa-qu-xie-cheng-wang.md		03duo-jin-cheng-pa-qu-xie-cheng-wang.md
03seleniummo-ni-qq-deng-lu.md		03seleniummo-ni-qq-deng-lu.md
03teng-xun-gang-wei.md		03teng-xun-gang-wei.md
03vastctrl.md		03vastctrl.md
04getemailvastthreading.md		04getemailvastthreading.md
04seleniummo-ni-12306-gou-piao.md		04seleniummo-ni-12306-gou-piao.md
04teng-xun-gang-wei-lie-biao.md		04teng-xun-gang-wei-lie-biao.md
05dequedemo.md		05dequedemo.md
05ke-wai-fen-xiang-tu-ling-ji-qi-ren.md		05ke-wai-fen-xiang-tu-ling-ji-qi-ren.md
06getstock.md		06getstock.md
07getstockhistory.md		07getstockhistory.md
08getstockfunds.md		08getstockfunds.md
10duo-xie-cheng-xian-cheng-jin-cheng-pa-qu.md		10duo-xie-cheng-xian-cheng-jin-cheng-pa-qu.md
11yan-zheng-ma-shi-bie.md		11yan-zheng-ma-shi-bie.md
12ren-shi-scrapy.md		12ren-shi-scrapy.md
13scrapyshi-li.md		13scrapyshi-li.md
14scrapy-redis.md		14scrapy-redis.md
15pa-chong-lian-xi.md		15pa-chong-lian-xi.md
15scrapybu-shu.md		15scrapybu-shu.md
1pei-zhi-an-zhuang.md		1pei-zhi-an-zhuang.md
1xian-cheng-he-xie-cheng.md		1xian-cheng-he-xie-cheng.md
2ru-men-an-li.md		2ru-men-an-li.md
2xie-cheng.md		2xie-cheng.md
2xpath.md		2xpath.md
3ren-shi-pa-chong.md		3ren-shi-pa-chong.md
3scrapy-shell.md		3scrapy-shell.md
4scrapy-pipelines.md		4scrapy-pipelines.md
5pa-chong.md		5pa-chong.md
5spider.md		5spider.md
7requestresponse.md		7requestresponse.md
8downloader-middlewares.md		8downloader-middlewares.md
8selenium.md		8selenium.md
9ci-yun.md		9ci-yun.md
9setting.md		9setting.md
README.md		README.md
SUMMARY.md		SUMMARY.md
chapter1.md		chapter1.md
crawlspider.md		crawlspider.md
pa-chong.md		pa-chong.md
spiderutil.md		spiderutil.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

页面解析和数据提取

非结构化的数据处理 {#非结构化的数据处理}

文本、电话号码、邮箱地址 {#文本、电话号码、邮箱地址}

HTML 文件 {#html-文件}

结构化的数据处理 {#结构化的数据处理}

JSON 文件 {#json-文件}

XML 文件 {#xml-文件}

2.Beautiful Soup 4.2.0 文档

About

Releases

Packages

FateGitHub/PythonDocument

Folders and files

Latest commit

History

Repository files navigation

页面解析和数据提取

非结构化的数据处理 {#非结构化的数据处理}

文本、电话号码、邮箱地址 {#文本、电话号码、邮箱地址}

HTML 文件 {#html-文件}

结构化的数据处理 {#结构化的数据处理}

JSON 文件 {#json-文件}

XML 文件 {#xml-文件}

2.Beautiful Soup 4.2.0 文档

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages