Skip to content

Commit

Permalink
Merge pull request zhouyanasd#1 from zhouyanasd/master
Browse files Browse the repository at this point in the history
update
  • Loading branch information
yeungsk authored Apr 8, 2020
2 parents c3e3aa6 + 29ec2b7 commit 2694c07
Show file tree
Hide file tree
Showing 16 changed files with 2,815 additions and 1,421 deletions.
33 changes: 20 additions & 13 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,26 +5,33 @@
本书的特点是简单易上手,每一章节都有相应的jupyter文件,可以直接放在带有jupyter notebook的python环境中运行。

## 书籍目录
预备章:[Jupyter简介](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E6%95%99%E7%A8%8B_00%E5%A7%8B%E4%BA%8EJupyter%20Notebooks%EF%BC%9A%E4%B8%80%E4%BB%BD%E5%85%A8%E9%9D%A2%E7%9A%84%E5%88%9D%E5%AD%A6%E8%80%85%E5%AE%9E%E7%94%A8%E6%8C%87%E5%8D%97.md)
预备章:[Jupyter简介](articles/Pandas%E6%95%99%E7%A8%8B_00%E5%A7%8B%E4%BA%8EJupyter%20Notebooks%EF%BC%9A%E4%B8%80%E4%BB%BD%E5%85%A8%E9%9D%A2%E7%9A%84%E5%88%9D%E5%AD%A6%E8%80%85%E5%AE%9E%E7%94%A8%E6%8C%87%E5%8D%97.md)

第一章:[数据分析入门](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E6%95%99%E7%A8%8B_01%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%85%A5%E9%97%A8.md)
[(code)](https://github.com/zhouyanasd/or-pandas/blob/master/code/pandas%E6%95%99%E7%A8%8B_01%E5%85%A5%E9%97%A8.ipynb)
第一章:[数据分析入门](articles/Pandas%E6%95%99%E7%A8%8B_01%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%85%A5%E9%97%A8.md)
[(code)](code/pandas%E6%95%99%E7%A8%8B_01%E5%85%A5%E9%97%A8.ipynb)

第二章:[数据导入与导出](https://github.com/zhouyanasd/or-pandas/blob/master/articles/pandas%E6%95%99%E7%A8%8B_02%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E5%AF%BC%E5%87%BA.md)
[(code)](https://github.com/zhouyanasd/or-pandas/tree/master/code/pandas%E6%95%99%E7%A8%8B_02%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E5%AF%BC%E5%87%BA)
第二章:[数据导入与导出](articles/pandas%E6%95%99%E7%A8%8B_02%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E5%AF%BC%E5%87%BA.md)
[(code)](code/pandas%E6%95%99%E7%A8%8B_02%E6%95%B0%E6%8D%AE%E5%AF%BC%E5%85%A5%E4%B8%8E%E5%AF%BC%E5%87%BA)

第三章:[数据分组与聚合](https://github.com/zhouyanasd/or-pandas/blob/master/articles/pandas%E6%95%99%E7%A8%8B_03%E5%88%86%E7%BB%84%E5%92%8C%E8%81%9A%E5%90%88.md)
[(code)](https://github.com/zhouyanasd/or-pandas/blob/master/code/pandas%E6%95%99%E7%A8%8B_03%E5%88%86%E7%BB%84%E4%B8%8E%E8%81%9A%E5%90%88.ipynb)
第三章:[数据分组与聚合](articles/pandas%E6%95%99%E7%A8%8B_03%E5%88%86%E7%BB%84%E5%92%8C%E8%81%9A%E5%90%88.md)
[(code)](code/pandas%E6%95%99%E7%A8%8B_03%E5%88%86%E7%BB%84%E4%B8%8E%E8%81%9A%E5%90%88.ipynb)

第四章:[数据的索引、汇总和缺失处理](https://github.com/zhouyanasd/or-pandas/blob/master/articles/pandas%E6%95%99%E7%A8%8B_04%E7%B4%A2%E5%BC%95%E3%80%81%E6%B1%87%E6%80%BB%E5%92%8C%E5%A4%84%E7%90%86%E7%BC%BA%E5%A4%B1%E6%95%B0%E6%8D%AE.md)
[(code)](https://github.com/zhouyanasd/or-pandas/blob/master/code/pandas%E6%95%99%E7%A8%8B_04%E7%B4%A2%E5%BC%95%E3%80%81%E6%B1%87%E6%80%BB%E5%92%8C%E5%A4%84%E7%90%86%E7%BC%BA%E5%A4%B1%E6%95%B0%E6%8D%AE.ipynb)
第四章:[数据的索引、汇总和缺失处理](articles/pandas%E6%95%99%E7%A8%8B_04%E7%B4%A2%E5%BC%95%E3%80%81%E6%B1%87%E6%80%BB%E5%92%8C%E5%A4%84%E7%90%86%E7%BC%BA%E5%A4%B1%E6%95%B0%E6%8D%AE.md)
[(code)](code/pandas%E6%95%99%E7%A8%8B_04%E7%B4%A2%E5%BC%95%E3%80%81%E6%B1%87%E6%80%BB%E5%92%8C%E5%A4%84%E7%90%86%E7%BC%BA%E5%A4%B1%E6%95%B0%E6%8D%AE.ipynb)

第五章:[从 Pandas 小白到 Pandas 能手](articles/Pandas%E6%95%99%E7%A8%8B_05%E4%BB%8EPandas%E5%B0%8F%E7%99%BD%E5%88%B0Pandas%E8%83%BD%E6%89%8B.md)[(code)](code/Pandas%E6%95%99%E7%A8%8B_05%E4%BB%8E%20Pandas%20%E5%B0%8F%E7%99%BD%E5%88%B0%20Pandas%20%E8%83%BD%E6%89%8B)

---

分析实例一:[豆瓣电影分析--华语篇](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E5%AE%9E%E4%BE%8B_01%E7%94%A8%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E2%80%94%E5%8D%8E%E8%AF%AD%E7%AF%87.md)[(code)](https://github.com/zhouyanasd/or-pandas/tree/master/code/Pandas%E5%AE%9E%E4%BE%8B_01%E7%94%A8%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E2%80%94%E5%8D%8E%E8%AF%AD%E7%AF%87)
分析实例一:[豆瓣电影分析--华语篇](articles/Pandas%E5%AE%9E%E4%BE%8B_01%E7%94%A8%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E2%80%94%E5%8D%8E%E8%AF%AD%E7%AF%87.md)[(code)](code/Pandas%E5%AE%9E%E4%BE%8B_01%E7%94%A8%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E2%80%94%E5%8D%8E%E8%AF%AD%E7%AF%87)

分析实例二:[豆瓣电影分析--全球篇](articles/Pandas%E5%AE%9E%E4%BE%8B_02%E7%94%A8%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E7%99%BE%E5%B9%B4%E5%8F%91%E5%B1%95%E5%8E%86%E7%A8%8B.md)[(code)](code/Pandas%E5%AE%9E%E4%BE%8B_02%E7%94%A8%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E7%99%BE%E5%B9%B4%E5%8F%91%E5%B1%95%E5%8E%86%E7%A8%8B)

分析实例三:[NBA 投篮数据分析](articles/Pandas%E5%AE%9E%E4%BE%8B_03%E7%86%8A%E7%8C%AB%E7%88%B1%E4%B8%8A%E7%AF%AE%E7%90%83%EF%BC%8CPandas%20%E9%80%A0%E7%A6%8F%E4%B8%96%E7%95%8C.md)[(code)](code/Pandas%E5%AE%9E%E4%BE%8B_03%E7%86%8A%E7%8C%AB%E7%88%B1%E4%B8%8A%E7%AF%AE%E7%90%83%EF%BC%8CPandas%20%E9%80%A0%E7%A6%8F%E4%B8%96%E7%95%8C)

分析实例二:[豆瓣电影分析--全球篇](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E5%AE%9E%E4%BE%8B_02%20%E7%94%A8%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E7%99%BE%E5%B9%B4%E5%8F%91%E5%B1%95%E5%8E%86%E7%A8%8B.md)[(code)](https://github.com/zhouyanasd/or-pandas/tree/master/code/Pandas%E5%AE%9E%E4%BE%8B_02%20%E7%94%A8%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%B8%A6%E4%BD%A0%E4%BA%86%E8%A7%A3%E7%94%B5%E5%BD%B1%E8%A1%8C%E4%B8%9A%E7%99%BE%E5%B9%B4%E5%8F%91%E5%B1%95%E5%8E%86%E7%A8%8B)
分析实例四:[运筹学薪资分析](/articles/Pandas%E5%AE%9E%E4%BE%8B_04%E6%89%8B%E6%8A%8A%E6%89%8B%E7%94%A8Python%E6%95%99%E4%BD%A0%E5%88%86%E6%9E%90%E8%BF%90%E7%AD%B9%E5%AD%A6%E8%96%AA%E8%B5%84%E7%8A%B6%E5%86%B5.md)[(code)](code/Pandas%E5%AE%9E%E4%BE%8B_04%E6%89%8B%E6%8A%8A%E6%89%8B%E7%94%A8Python%E6%95%99%E4%BD%A0%E5%88%86%E6%9E%90%E8%BF%90%E7%AD%B9%E5%AD%A6%E8%96%AA%E8%B5%84%E7%8A%B6%E5%86%B5)

分析实例三:[pandas分析篮球数据](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E5%AE%9E%E4%BE%8B_03%E7%86%8A%E7%8C%AB%E7%88%B1%E4%B8%8A%E7%AF%AE%E7%90%83%EF%BC%8CPandas%20%E9%80%A0%E7%A6%8F%E4%B8%96%E7%95%8C.md)[(code)](https://github.com/zhouyanasd/or-pandas/tree/master/code/Pandas%E5%AE%9E%E4%BE%8B_03%E7%86%8A%E7%8C%AB%E7%88%B1%E4%B8%8A%E7%AF%AE%E7%90%83%EF%BC%8CPandas%20%E9%80%A0%E7%A6%8F%E4%B8%96%E7%95%8C)
*注:本电子书中的预备章为转载文章,其余均为【运筹OR帷幄】原创文章。转载文章已经表明出处,且所有文章均在公众号中发布并获得授权*

分析实例四:[运筹学薪资分析](https://github.com/zhouyanasd/or-pandas/blob/master/articles/Pandas%E5%AE%9E%E4%BE%8B_04%E6%89%8B%E6%8A%8A%E6%89%8B%E7%94%A8Python%E6%95%99%E4%BD%A0%E5%88%86%E6%9E%90%E8%BF%90%E7%AD%B9%E5%AD%A6%E8%96%AA%E8%B5%84%E7%8A%B6%E5%86%B5.md)[(code)](https://github.com/zhouyanasd/or-pandas/tree/master/code/Pandas%E5%AE%9E%E4%BE%8B_04%E6%89%8B%E6%8A%8A%E6%89%8B%E7%94%A8Python%E6%95%99%E4%BD%A0%E5%88%86%E6%9E%90%E8%BF%90%E7%AD%B9%E5%AD%A6%E8%96%AA%E8%B5%84%E7%8A%B6%E5%86%B5)
**特别感谢参与本书编辑的同学:**
[yeungsk](https://github.com/yeungsk), [tiny-boat](https://github.com/tiny-boat), [xingyu321](https://github.com/xingyu321), [qiu-pinggaizi](https://github.com/qiu-pinggaizi)
Original file line number Diff line number Diff line change
@@ -1,11 +1,11 @@
![图片](https://images-cdn.shimo.im/fonvIZrJd7ELPNUJ/封面.jpg!thumbnail)


1. 前言
# 1 前言

随着生活的水平提高,人们开始了对精神生活的追求,电影已经成为我们生活中必不可少的一项娱乐活动。近年来,中国电影产业发展迅速,华语电影数量和票房也频频突破新高。而一个行业的发展,不仅需要数量,还要质量。那华语电影近些年整体的质量如何呢?本文通过对豆瓣华语电影数据进行爬虫和分析,带大家了解华语电影这些年来的产量质量趋势、影片类型分布,以及哪些导演或演员是好片或烂片专业户。

1. 数据获取
# 2 数据获取

在分析豆瓣网页结构后,使用python的Scrapy框架爬取了豆瓣华语电影,即中国大陆、香港、台湾地区总共33133部,并将数据存储在本地的MongoDB数据库中。对于每部电影,收集以下12个字段:

Expand All @@ -26,7 +26,7 @@

![图片](https://images-cdn.shimo.im/aaoN3tydqC8UwpP7/数据描述.png!thumbnail)

2. 数据清洗
# 3 数据清洗

在进入分析之前,需要对获取的数据进行清洗和处理。首先,使用pymongo模块将数据库中的数据导入,接着使用pandas库进行处理。

Expand All @@ -42,7 +42,7 @@
## 3.4 数据筛选
在爬取的电影中,可以看到有些电影的影片类型是综艺节目、脱口秀、晚会等,另外有些电影有上映日期但未上映的。因此,对这部分数据进行剔除,只保留豆瓣电影筛选页面显示的22个分类以及已经上映的电影数据。

3. 数据分析
# 4 数据分析

数据清洗处理完毕,接下来对数据进行分析。下文的画图工具,采用plotly库,它可以使用简单的代码实现较复杂的功能。

Expand Down Expand Up @@ -112,7 +112,7 @@

**结论:华语电影主要以****剧情、喜剧、动作、爱情这几种影片类型为主,其中西部、奇幻、同性关注度最高,而西部、传记、歌舞这三类质量最高。评分与关注人数的关系,评分较低的关注人数也较少;而评分很高的电影中存在一些暂未被很多人发现的好电影。**

## **4.3 导演和演员分析**
## 4.3 导演和演员分析
这一部分,我们来看一下哪个导演、演员属于好片或者烂片的专业户。这里好片的定义为评分大于等于8.5分,烂片为评分小于6分的电影。另外,此部分分析只针对执导或主演5部以上电影的导演和演员。

![图片](https://images-cdn.shimo.im/lfnAvg2KQVQwJQV3/好片占比排名前10的导演.png!thumbnail)
Expand All @@ -135,8 +135,7 @@

**结论:在好片占比前10的导演中,可以看到这些导演都实至名归,且被大家较为熟知;而在演员中,我们熟知的演员均不在好片占比前10的榜单上,有些演员人气很高但参演的好片寥寥无几,有些演员演技可以但挑片眼光不佳。**

1.
后记
# 后记

数据集中其实还有更深入或者其他可以分析的地方,但因篇幅有限,只能先挑一部分。大家看完后,如果还有什么想要了解的,可以在底下回复,小编会在下一篇进行分析哦。

Expand All @@ -150,22 +149,6 @@

责任编辑:杨士锦

板块介绍:数据分析板块致力于传播如何正确、高效的分析数据的知识与技巧,涵盖从数据的获取、清洗、整理、分析建模、结论、到可视化全套流程。我们带领大家抽丝剥茧,探寻数据背后的真相!

板块招聘信息:

副主编招聘要求:

在读或已毕业的数据相关方向博士

机器学习,数据科学,爬虫等方面有一定造诣

有工作热情,每周可以抽出2-3小时时间


原创

关键词回复设置:

【华语电影福利】

Expand Down
Loading

0 comments on commit 2694c07

Please sign in to comment.