Name		Name	Last commit message	Last commit date
Latest commit History 109 Commits
Linux命令及Shell脚本学习笔记		Linux命令及Shell脚本学习笔记
Linux系统下开发环境搭建		Linux系统下开发环境搭建
assets		assets
eBook		eBook
大数据		大数据
算法和数据结构		算法和数据结构
.gitattributes		.gitattributes
Git使用教程：最详细、最傻瓜、最浅显、真正手把手教.md		Git使用教程：最详细、最傻瓜、最浅显、真正手把手教.md
LICENSE		LICENSE
README.md		README.md
README.md.20190124222838.bak		README.md.20190124222838.bak
toc.py		toc.py

Repository files navigation

Coding Now
- 初衷
- GitHub及Git使用
- Linux系统下开发环境搭建
- Linux命令及Shell脚本学习笔记
- 爬虫篇（Python）
- 数据分析篇
- 机器学习及深度学习篇
- 大数据篇
  - 大数据开发环境安装配置
  - Hadoop系列
    - 涉及MapReduce、Hdfs、Hive、等hadoop生态圈组件
  - Spark系列
  - Flink系列
  - 实战项目
    - 推荐系统
  - 大数据相关面试
- 算法篇
- 数据库和分布式篇
- GitHub上一些技术书籍、翻译书籍、面试题库推荐
- eBook和视频资源
- 常用网站收纳
- 工具

Coding Now

初衷

一是平时看的一些自己认为不错的文章总是很难整理，所以打算开一个项目管理这些，也可以分享给大家；二是记录自己平时所学的一些笔记，一些经历，以供将来翻阅；三是想系统地进阶学习一番，记录这个项目也是想激励自己；四是分享一些平时看的电子书啊、视频等等

GitHub及Git使用

如何选择开源许可证？ from 阮一峰的网络日志

原文链接：https://paulmillr.com/posts/simple-description-of-popular-software-licenses/

Git使用教程：最详细、最傻瓜、最浅显、真正手把手教！from 龙恩0707 www.cnblogs.com/tugenhua0707
GitHub如何快速给README.md添加目录
- ghtoc Github地址（pyhon）见toc.py，（python2.7，使用方法·：python toc.py MDFile，会生成一个.bak备份文件）【推荐这个可以用，也不用装其他工具】
- gh-md-toc Github地址

Linux系统下开发环境搭建

Win10下安装双系统Deepin 15.8.md
Deepin15.8下搭建Python开发环境.md
- 含有如何在Deepin Linux下安装pip、pip3
- 安装pycharm、jupyter notebook
- 虚拟环境使用等
Deepin下搭建Hadoop、Spark等大数据开发环境.md
- 含有如何在Deepin Linux下安装java、scala、VMware虚拟机、eclipse
- 如何搭建centos集群
- 搭建hadoop、hive、
- 搭建Spark
- 待续
Deepin下如何科-学(地)上-网.md
Deepin常用快捷键及其他便利操作.md
Deepin使用体验、资源及问题归纳贴.md
Deepin自定义右键新建文件模版.md
Deepin设置开机自启动脚本问题.md
AppImage打包方式、相关应用、相关Linux游戏站推荐
【Deepin】最新XMind for Linux 破解版安装

Linux命令及Shell脚本学习笔记

爬虫篇（Python）

爬虫这一块我也没多少可以说的，距离我上次写爬虫程序都有一年多了。谈谈感想吧，别听什么培训机构诳你什么爬虫工程师有前途啥的，当然学好学精爬虫也能拿到高薪，但这一行也有不少人了，精通的自然不用说。而且现在有很多像八爪鱼、火车头这些可以定制的爬虫软件，还有一些自学习的爬虫框架。所以我觉得爬虫这一块只要稍微学下，了解下即可

我建议如果是python的话，了解urllib（http请求），requests（http请求），lxml（文本解析），Scrapy（爬虫框架），多线程爬虫就可以了

原来也在csdn上写过一些scrapy的文章，当然学习一门语言官方文档才是最重要的（scrapy也有中文的）

数据分析篇

Data Science - Quora
How to learn data analysis with Python - Quora
之前写过的这篇文章，见：Python数据分析学习文章归纳
数据分析如何入门学习How do I learn data analysis with Python?

虽然是英文的，不过看一遍很大收获（可以用百度翻译看一下）

Numpy使用
- 快速入门Numpy
- Stack Overflow Numpy问题汇集
- 书籍推荐NumPy Cookbook -第二版 by Ivan Idris（用中文版）
- 8.3 更新，自己的笔记，凑合看下吧，有些我觉得没太重要的就没记上去（也包括Matplotlib的那一部分）
- 待续
Pandas使用
- 入门级神作，没错就是10 Minutes to pandas
- 进阶级神作，没错就是Stack Overflow Pandas问题汇集——>强烈推荐
Pandas is a Python library for Panel Data manipulation and analysis, e.g. multidimensional time series and cross-sectional data sets commonly found in statistics, experimental science results, econometrics, or finance. IMPORTANT: When asking a question with this tag, please tag your questions: [python]; [pandas]; [dataframe]/[series]; (optional) [groupby]/[merge]/etc., depending on your specific requirements.
- Pandas神书Pandas Cookbook
- Pandas数据结构之Series：
  - 【pandas】[1] Series 入门(创建和增删改查)
  - Pandas中兼并数组和字典功能的Series
Series也就是Numpy的一维数组，很多方法是通用的。以上两篇足以掌握。

关键是DateFrame使用
- pandas分块处理大文件
- drop函数使用————>强烈推荐
- Pandas GroupBy对象——>强力推荐，系统的讲了groupby对象创建及一系列函数使用
- Pandas合并与重塑
  - PANDAS 数据合并与重塑（concat篇）
  - PANDAS 数据合并与重塑（join/merge篇）
- isin()函数用于构建布尔对象，便于删选dateframe的行， pandas中isin()函数及其逆函数使用
- 建议用loc和iloc选择行
  - loc以行索引和列索引key来选择元素
  - iloc以行列所在的整数索引来选择元素，不过都从0开始
- 待续
matplotlib使用（建议还是学下seaborn）
- 自己的笔记，凑合看下吧，有些我觉得没太重要的就没记上去（也包括Matplotlib的那一部分）
- 推荐B站上的一个up主的视频，莫烦·Matplotlib中文视频教程——基于python3，看完差不多就OK了
Scipy

因为还不怎么用，所以以后再说吧。。。
- Scipy Doc
杂文汇集
- Python读取文件以及读取大文件
- gensim之Word2vec使用
心得：多动手，别只看

机器学习及深度学习篇

机器学习网站及教程

GitHub上相关项目推荐

homemade-machine-learning (在家学习机器学习)，现在6.9K星，确实不错，不过全英文的

数据分析竞赛

哪里可以参加比赛？【我常去的就这几个】
- 进行中百度点石
- 竞赛信息-DC竞赛
- 大数据挑战赛 - Kesci.com
- Kaggle: Your Home for Data Science
- 还有阿里天池大赛，但参加了几次，自我感觉还是段位不够啊，太难了
赛事代码学习资源
竞赛相关系列文章

大数据篇

大数据开发环境安装配置

以下出自我在csdn上的一些文章，https://blog.csdn.net/lzw2016/

Hadoop系列

Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架，提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构
- 认识HDFS
- 转载自 Matt's Blog 原作者：王蒙
  - HDFS 架构学习总结.pdf -->放这里了
  - YARN 架构学习总结.pdf
- 唯品会 HDFS 性能挑战和优化实践
- 使用Java API对HDFS进行系列操作
- 掌握MapReduce编程
  - 01MapReduce编程初步及源码分析.md
  - 02【MapReduce详解及源码解析（一）】——分片输入、Mapper及Map端Shuffle过程
  - 03 MapReduce-Demo——这是我另外一个项目，从多个设计模式实战 MapReduce 编程实例
  仅供参考：
  - 原生态在hadoop上运行java程序 ——引自@zhao_xiao_long
- 推荐几个博客分类博主LanceToBigData：Hadoop ，小小默’s Blog，分类很乱但是内容确实不错
Apache Hive: 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析
- 博文
  - Hive 性能优化
Apache Pig: 是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算【不准备学，计划Hive代替Pig】
Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群
- HBase入门————《HBase不睡觉》
- 《HBase实战》见下方ebook
- 博文
Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中
Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。【不打算学，计划利用SparkMLLib代替】
Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务
Apache Flume: 是一个分布的、可靠的、高可用的海量日志聚合的系统，可用于日志数据收集，日志数据处理，日志数据传输
等等，当然不可能全学的
视频资源见下方

Spark系列

Flink系列

阿里强推的flink，取而代之二次开发的流计算和批处理引擎blink，spark的强势竞争对手

实战项目

大数据相关面试

算法篇

网课
- 《算法第四版》-Coursera网课
算法课程Coursera网上主推的是Robert Sedgewick的算法课【红宝书的作者，普林斯顿计算机系创始人】
- 《算法第四版》在线资源
- 还有一门是Coursera上的斯坦福大学的算法课，我感觉偏理论，难度不如上面的那门
推荐一门面试课，我感觉还是可以的，极客时间的【数据结构与算法之美】
在线刷题：LeetCode练手

LeetCode现在有中文版的了，力扣中国
每周基于Java、C++的LeetCode刷题记录
- 文档记录：LeetCode刷题心得.md
- 代码驱动：【待补充】
GitHub项目推荐
- LeetCodeAnimation 用动画的形式呈现解LeetCode题目的思路

数据库和分布式篇

数据库主要面向MySQL。pdf中附有转载自相关博客的引用链接，脑图是自己总结的，参考《深入浅出mysql》及相关博客。

脑图归纳
- MySQL掌握.km 在线打开
  - 涉及InnoDB、MyISAM特点和区别
  - 各大索引分类、区别、优化、使用
  - 行锁、表锁
- sql相关脑图我就不放了，最好还是自己总结下
博文【相关PDF收录于此】
- 数据库两大神器【索引和锁】.pdf
- 20个数据库常见面试题讲解 - 搜云库技术团队.pdf
- 深入理解Mysql——锁、事务与并发控制
- MySQL中的行级锁,表级锁,页级锁
- 『浅入深出』MySQL 中事务的实现.pdf————【讲的确实不错】
- 分布式系统一致性（ACID、CAP、BASE、二段提交、三段提交、TCC、幂等性）原理详解 .pdf
- 理解分布式事务 -贝聊科技.pdf
- 分布式锁实现（基于redis-mysql）.pdf
  
  分布式锁可基于数据库、zookeeper、缓存(像redis、tair)实现 http://www.hollischuang.com/archives/1716
推荐博客
- 何登成的技术博客————MySQL相关的大佬

GitHub上一些技术书籍、翻译书籍、面试题库推荐

《Python最佳实践指南！》

为什么推荐这份实践指南？这份指南与官方文档有什么不同吗？这份指南包含了作者非常强烈地主观感受，不单单是Python的安装、配置或者每个框架的使用，作者通过个人实践，对自己比较看好的框架标注了强烈推荐，对一些需要注意的地方也进行了标注，基本相当于作者的实践心得，阅读过程中会感受到与作者的思想碰撞。

（Github开源地址：http://pythonguidecn.readthedocs.io/zh/latest/）

《国内一线互联网公司内部面试题库》

该开源项目在Github上已有6000多Star，主要是来自国内一线互联网公司的面试题集锦，涉及Java和Android两大方向，涉及的公司有百度、小米、美团、58、猎豹、360、新浪、搜狐等。据说，掌握这些知识点可以大大增加前两轮技术面试的通过概率。

（Github开源地址：https://github.com/JackyAndroid/AndroidInterview-Q-A/blob/master/README-CN.md）

《Java学习+面试指南》 https://github.com/Snailclimb/JavaGuide 【Java学习+面试指南】一份涵盖大部分Java程序员所需要掌握的核心知识。

  推荐使用 https://snailclimb.top/JavaGuide/ 在线阅读(访问速度慢的话，请使用 https://snailclimb.gitee.io/javaguide )，在线阅读内容本仓库同步一致。这种方式阅读的优势在于：有侧边栏阅读体验更好，Gitee pages 的访问速度相对来说也比较快。

我面试时看的就是这个，自己也归纳了面试过程中遇到的笔试、面试题和看到的文章

  (Github开源地址：https://github.com/Snailclimb/JavaGuide）

[email protected]:Snailclimb/JavaGuide.git

《技术面试必备基础知识》 https://cyc2018.github.io/CS-Notes

本项目包含了技术面试必备的基础知识，浅显易懂，你不需要花很长的时间去阅读和理解成堆的技术书籍就可以快速掌握这些知识，从而节省宝贵的面试复习时间。你也可以订阅 [面试进阶专栏]，包含了学习指导和面试技巧，让你更轻松拿到满意的 Offer。

(Github开源地址：https://github.com/CyC2018/CS-Notes )

[email protected]:CyC2018/CS-Notes.git

《神经网络与深度学习》相关代码 Python 实现

该开源项目是对《神经网络与深度学习》一书中相关Python代码的实现。建议先弄明白书中所讲的神经网络、反向传播等概念，再结合代码实现，会有更深的理解。

（Github开源地址：https://github.com/mnielsen/neural-networks-and-deep-learning）

百度前端研发团队的文档与源码编写风格

该项目存放了百度前端研发研发部门的代码编写规范及统一文档，主要涉及JavaScript、CSS、HTML编码规范以及Markdown编写规范等。

（Github开源地址：https://github.com/fex-team/styleguide）

《自上而下的学习路线: 软件工程师的机器学习》

该项目的作者是一名自学成才的移动端软件开发者，后又转型成为一名机器学习工程师，他在Github上公布了自己整个实践过程中的学习方法、参考资料以及知识竞赛等。内容非常全面且丰富，涉及的参考书籍就多达十几本，还有一些博客资源。如果你正在思考如何转型成为一名机器学习工程师，这个开源项目或许是最适合你的。

（中文版本：https://github.com/ZuzooVn/machine-learning-for-software-engineers/blob/master/README-zh-CN.md）

《Shell 编程范例》

本项目贡献者是一名重度的开源项目贡献者。他认为，这本书与传统Shell书籍非常不同，没有用大量的篇幅去介绍Shell语法，而是直接以面向“对象”的方式开始介绍大量Shell操作，从实践入手，涵盖了数值、逻辑值、字符串、文件、进程等方方面面。

（Github开源地址：https://github.com/tinyclub/open-shell-book）

《Docker — 从入门到实践》

Docker现在变得越来越流行，无论是开发者、运维人员还是其他信息技术人员都很有必要对Docker知识有所了解。本书更适合具备Linux基础的Docker初学者，前六章为基础内容，可以帮助初学者梳理Docker的基本概念和操作。六章之后，逐渐介绍了一些高级操作，包括高级应用场景和实操案例。这对初学者和老司机都非常有帮助，同时本书也对安全或技术实现等话题进行了说明，强烈推荐。

（Github开源地址：https://github.com/yeasy/docker_practice）

Alibaba开源的Java诊断工具

当你遇到以下类似问题而束手无策时，Arthas可以帮助你解决：

- 这个类从哪个 jar 包加载的？为什么会报各种类相关的 Exception？
- 我改的代码为什么没有执行到？难道是我没 commit？分支搞错了？
- 遇到问题无法在线上 debug，难道只能通过加日志再重新发布吗？
- 线上遇到某个用户的数据处理有问题，但线上同样无法 debug，线下无法重现！
- 是否有一个全局视角来查看系统的运行状况？
- 有什么办法可以监控到JVM的实时运行状态？

Arthas支持JDK 6+，支持Linux/Mac/Windows，采用命令行交互模式，同时提供丰富的 Tab 自动补全功能，进一步方便进行问题的定位和诊断 (Github 开源地址：https://github.com/alibaba/arthas/)

在线教程： - 基础：https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-basics - 进阶：https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-advanced 待续

eBook和视频资源

只推荐我看过的，且个人觉得不错的

Python

视频资源点这里--->eBook/Python

Python3数据分析与挖掘（某课网）
python分布式爬虫打造搜索引擎【完整版某课网】
Python升级3.6 强力Django+Xadmin打造在线教育平台

电子书推荐，下面给了几个可以下载电子书的网站，都能找得到的

入门
- 《Python基本教程》，貌似出第三版了
- 《Python核心编程》
- 《Python CookBook》
爬虫
- 《Python网络数据采集》
- 也有人推荐崔庆才的书，我只看过他的博客觉得挺不错的，书想比也可以吧
- 我更推荐看博客，爬虫这一块更新太快了，书跟不上步伐
数据分析
- 《用Python进行数据分析》足以
机器学习和深度学习
- 《机器学习实战》
- 我看的更多的是官方文档和博客，反正不推荐看国人写的书（好多都是骗钱的，我原来看过一本封面画了个鹦鹉的，叫什么一步一步什么走向机器学习之类的，就是把sklearn文档翻译了一遍加了几个案例，烂）

Java系列

Hadoop系列资源

Hadoop大数据视频教程：真实电商数据仓库全流程开发详解(共46讲)视频教程下载：https://pan.baidu.com/s/1bpMzOyr 提取密码：m3yt
基于Hadoop，Spark大数据技术的推荐系统算法实战教程：https://pan.baidu.com/s/1dFnP9K1 提取密码：djyk
Hadoop、Hive、Hbase、Mahout源码解析及项目实战：https://pan.baidu.com/s/1nZuakR3DUJYJBiH0NaA1ZA 提取码: 2uyg

Spark系列资源

视频资源点这里--->eBook/Spark系列

学习 Scala 进击大数据 Spark 生态圈：https://pan.baidu.com/s/1Ld35QE4xfsOQ9o6qFwxL0A 密码：detm
Spark 2.0从入门到精通245讲【墙推】
基于大数据技术之电视收视率企业项目实战（hadoop+Spark）: https://pan.baidu.com/s/1-M_I0Woi-Wq9mKhjEorGfA 提取码: v3j7
- 我个人比较推荐这个，这个是从hadoop生态逐渐过渡到Spark生态的学习
01-基于Spark2.x新闻网大数据实时分析可视化系统项目
02-Spark离线和实时电影推荐系统直播回放(视频+文档+代码）
03-Spark项目实战：爱奇艺用户行为实时分析系统
04-Spark企业级实战项目：道路交通实时流量监控预测系统
05-Spark企业级实战项目：知名手机厂商用户行为实时分析系统
06-Spark大型项目实战：电商用户行为分析大数据平台
2018年最新Spark机器学习课程：智能客户系统项目实战视频教程：https://pan.baidu.com/s/12SrMtvLBlVJGOlOt5NQFjw 提取密码：uu9v ——【这个是Spark on Mesos框架的】
Spark 2.0大型项目实战：移动电商app交互式数据分析平台：https://pan.baidu.com/s/1o8EAk2Y 提取密码：gcsq
Spark MLlib 机器学习算法与源码解析：https://pan.baidu.com/s/1pLptvMN 提取密码：ncek
Spark面试宝典链接: https://pan.baidu.com/s/143GneWVcH4tmrK1gdwuc5w 提取码: 95b2

以上来源于大数据学习资源群的分享

HBase系列资源

eBook/HBase系列

《HBase实战》
《HBase不睡觉》

业内大数据技术ebook分享

见这里

增加用户画像相关资料
18年京东大数据白皮书
DataFun社区技术年货分享
今日头条推荐系统架构设计

算法系列

牛客网算法
《算法第四版》

数据库

《SQL 基础教程》（日）
《深入浅出MySQL》

计算机网络

《计算机网络自顶向下方法》
《TCP/IP卷》

基础书籍

常用网站收纳

谷歌机器学习速成课程
云+社区
Stack Overflow搜索栏，程序猿都该去的网站（当然还有GayHub）
Coursera，没事可以听听网课
All IT eBooks - Free IT eBooks Download——电子书下载【English】
LiveBook——最新IT电子书在线阅读【English】
门户 Linux公社论坛
Java各大开发者网站
- Java知音-一个专注于技术分享的网站
- 并发编程网——有很多不错的Java文章及外文翻译文章
- Learn Java information, news, and how-to advice | JavaWorld
- DZone Open Source
- Java Platform SE 8帮助文档
Python各大开发者网站

工具

搜索

Chrome插件

Chrome Extension Downloader——可以通过此网站来下载因为某些原因无法在线安装 Chrome 插件

现在最新版chrome不支持直接离线安装插件了，但还是有办法的，见：Linux（Deepin）下解决最新版Chrome无法离线安装插件问题

离线安装谷歌插件方法： 1、打开谷歌浏览器输入：chrome://extensions/ 2、勾选开发者模式 3、把下载的后缀为crx的文件拖进来即可

插件推荐
- OneTab：合并页面，用了就知道
- Adblock Plus：去广告
- LastPass：密码管理
- 新浪微博图床
- Imagus：放大页面中的图片
- Json View：方便查看 Json 结构的插件
- GitNote：一款基于git的笔记插件
- github插件
  - OctTree：以树形结构展示github项目
  - GitZip：下载github项目中单个文件
- Listen 1插件：汇集网易云、虾米、qq音乐、酷我等音乐，github上搜索

License

Gy1900/Coding-Now

Folders and files

Latest commit

History

Repository files navigation

目录

Coding Now

初衷

GitHub及Git使用

Linux系统下开发环境搭建

Linux命令及Shell脚本学习笔记

爬虫篇（Python）

数据分析篇

数据分析如何入门学习How do I learn data analysis with Python?

Numpy使用

Pandas使用

matplotlib使用（建议还是学下seaborn）

Scipy

杂文汇集

心得：多动手，别只看

机器学习及深度学习篇

机器学习网站及教程

GitHub上相关项目推荐

数据分析竞赛

大数据篇

大数据开发环境安装配置

Hadoop系列

Spark系列

Flink系列

实战项目

推荐系统

大数据相关面试

算法篇

数据库和分布式篇

GitHub上一些技术书籍、翻译书籍、面试题库推荐

eBook和视频资源

Python

Java系列

Hadoop系列资源

Spark系列资源

HBase系列资源

业内大数据技术ebook分享

算法系列

数据库

计算机网络

基础书籍

常用网站收纳

Java各大开发者网站

Python各大开发者网站

工具

搜索

翻译

文档编辑

制图、图床

Chrome插件

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages