- Coding Now
一是平时看的一些自己认为不错的文章总是很难整理,所以打算开一个项目管理这些,也可以分享给大家;二是记录自己平时所学的一些笔记,一些经历,以供将来翻阅;三是想系统地进阶学习一番,记录这个项目也是想激励自己;四是分享一些平时看的电子书啊、视频等等
原文链接:https://paulmillr.com/posts/simple-description-of-popular-software-licenses/
-
Git使用教程:最详细、最傻瓜、最浅显、真正手把手教!from 龙恩0707 www.cnblogs.com/tugenhua0707
-
GitHub如何快速给README.md添加目录
- ghtoc Github地址(pyhon) 见toc.py,(python2.7,使用方法·:
python toc.py MDFile
,会生成一个.bak备份文件)【推荐这个可以用,也不用装其他工具】 - gh-md-toc Github地址
- ghtoc Github地址(pyhon) 见toc.py,(python2.7,使用方法·:
-
- 含有如何在Deepin Linux下安装pip、pip3
- 安装pycharm、jupyter notebook
- 虚拟环境使用等
-
Deepin下搭建Hadoop、Spark等大数据开发环境.md
- 含有如何在Deepin Linux下安装java、scala、VMware虚拟机、eclipse
- 如何搭建centos集群
- 搭建hadoop、hive、
- 搭建Spark
- 待续
-
附一份linux学习课程的课件:PDF
-
vi/vim使用 【了解些简单使用即可,现在不都是用编辑器的多嘛】
爬虫这一块我也没多少可以说的,距离我上次写爬虫程序都有一年多了。谈谈感想吧,别听什么培训机构诳你什么爬虫工程师有前途啥的,当然学好学精爬虫也能拿到高薪,但这一行也有不少人了,精通的自然不用说。而且现在有很多像八爪鱼、火车头这些可以定制的爬虫软件,还有一些自学习的爬虫框架。所以我觉得爬虫这一块只要稍微学下,了解下即可
我建议如果是python的话,了解urllib(http请求),requests(http请求),lxml(文本解析),Scrapy(爬虫框架),多线程爬虫就可以了
原来也在csdn上写过一些scrapy的文章,当然学习一门语言官方文档才是最重要的(scrapy也有中文的)
- Scrapy入门学习初步总览
- 解决Windows下pip install scrapy 出错 及 pycharm使用安利
- scrapy入门学习初步探索之数据保存
- 爬取通过ajax动态加载的页面(实时监控华尔街见闻资讯与快讯)
- Python爬虫:人人影视追剧脚本
- 爬取大西洋月刊每日新闻
- (补充)爬取大西洋月刊并 使用彩云小译翻译 API 脚本
-
之前写过的这篇文章,见:Python数据分析学习文章归纳
虽然是英文的,不过看一遍很大收获(可以用百度翻译看一下)
- 快速入门Numpy
- Stack Overflow Numpy问题汇集
- 书籍推荐NumPy Cookbook -第二版 by Ivan Idris(用中文版)
- 8.3 更新,自己的笔记,凑合看下吧,有些我觉得没太重要的就没记上去(也包括Matplotlib的那一部分)
- 待续
- 入门级神作,没错就是10 Minutes to pandas
- 进阶级神作,没错就是Stack Overflow Pandas问题汇集——>强烈推荐
Pandas is a Python library for Panel Data manipulation and analysis, e.g. multidimensional time series and cross-sectional data sets commonly found in statistics, experimental science results, econometrics, or finance. IMPORTANT: When asking a question with this tag, please tag your questions: [python]; [pandas]; [dataframe]/[series]; (optional) [groupby]/[merge]/etc., depending on your specific requirements.
-
Pandas神书Pandas Cookbook
-
Pandas数据结构之Series:
Series也就是Numpy的一维数组,很多方法是通用的。以上两篇足以掌握。
关键是DateFrame使用
- pandas分块处理大文件
- drop函数使用————>强烈推荐
- Pandas GroupBy对象——>强力推荐,系统的讲了groupby对象创建及一系列函数使用
- Pandas合并与重塑
- isin()函数用于构建布尔对象,便于删选dateframe的行, pandas中isin()函数及其逆函数使用
- 建议用loc和iloc选择行
- loc以行索引和列索引key来选择元素
- iloc以行列所在的整数索引来选择元素,不过都从0开始
- 待续
- 自己的笔记,凑合看下吧,有些我觉得没太重要的就没记上去(也包括Matplotlib的那一部分)
- 推荐B站上的一个up主的视频,莫烦·Matplotlib中文视频教程——基于python3,看完差不多就OK了
因为还不怎么用,所以以后再说吧。。。
- 机器学习入门教程与实例-SofaSofa
- scikit-learn: Python 中的机器学习 — scikit-learn 0.19.0 中文文档 - ApacheCN
- 问题构建 (Framing):机器学习主要术语 | 机器学习速成课程 | Google Developers
- 机器学习实战-ApacheCN-github
- MachineLearning100/100-Days-Of-ML-Code: 100-Days-Of-ML-Code中文版
- 机器学习、图像声音处理文章列表 - TinyMind
- 机器学习-Label Encoding与One Hot的区别-20180513
- 机器学习与深度学习 - 连载 - 简书
- 【干货】史上最全的Tensorflow学习资源汇总
- GitHub - apachecn/hands_on_Ml_with_Sklearn_and_TF: OReilly Hands On Machine Learning with Scikit Learn and TensorFlow (Sklearn与TensorFlow机器学习实用指南)
- AI研习社 - 研习AI产学研新知,助力AI学术开发者成长。
- homemade-machine-learning (在家学习机器学习),现在6.9K星,确实不错,不过全英文的
-
哪里可以参加比赛?【我常去的就这几个】
- 进行中百度点石
- 竞赛信息-DC竞赛
- 大数据挑战赛 - Kesci.com
- Kaggle: Your Home for Data Science
- 还有阿里天池大赛,但参加了几次,自我感觉还是段位不够啊,太难了
-
赛事代码学习资源
-
竞赛相关系列文章
- 机器学习中特征工程,如何进行数据分析嘞? - 知乎
- 几个相关系数:Pearson、Spearman、pointbiserialr、kendalltau - 程序园
- Kaggle: 房价预测 - 代码天地
- 如何在 Kaggle 首战中进入前 10% | Wille
- python进行机器学习(一)之数据预处理 - 光彩照人 - 博客园
- 随机森林sklearn FandomForest,及其调参 - 码灵薯的博客 - CSDN博客
- 【集成学习】scikit-learn随机森林调参小结 - sun_shengyun的专栏 - CSDN博客
- 加州房价预测数据预处理 - 多一点 - 博客园
- 加州房价预测项目精细解释 - CSDN博客
- 机器学习:数据预处理之独热编码(One-Hot)_慕课手记
以下出自我在csdn上的一些文章,https://blog.csdn.net/lzw2016/
- 大数据之Hadoop学习(环境配置)——Hadoop伪分布式集群搭建
- 【向Linux迁移记录】Deepin Linux下快速Hadoop完全分布式集群搭建
- 【向Linux迁移记录】基于Hadoop集群的Hive安装与配置详解
- Spark本地安装及Linux下伪分布式搭建
- 【向Linux迁移记录】Deepin Linux下Spark本地模式及基于Yarn的分布式集群环境搭建
-
Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构
-
转载自 Matt's Blog 原作者:王蒙
- HDFS 架构学习总结.pdf -->放这里了
- YARN 架构学习总结.pdf
-
掌握MapReduce编程
- 01MapReduce编程初步及源码分析.md
- 02【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程
- 03 MapReduce-Demo——这是我另外一个项目,从多个设计模式实战 MapReduce 编程实例
仅供参考:
-
推荐几个博客分类博主LanceToBigData:Hadoop ,小小默’s Blog,分类很乱但是内容确实不错
-
Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析
- 博文
-
Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算 【不准备学,计划Hive代替Pig】
-
Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群
- HBase入门————《HBase不睡觉》
- 《HBase实战》见下方ebook
- 博文
-
Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
-
Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。【不打算学,计划利用SparkMLLib代替】
-
Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
-
Apache Flume: 是一个分布的、可靠的、高可用的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输
-
等等,当然不可能全学的
-
视频资源见下方
- 使用 Alluxio 加速 Spark DataFrame 计算速度
- 谈谈Spark join
- SparkSQL—用之惜之
- Learning Spark项目
- Spark_With_Scala_Testing 存放平时练习代码
- notes存放笔记
- LearningSpark(1)数据来源.md
- LearningSpark(2)spark-submit可选参数.md
- LearningSpark(3)RDD操作.md
- LearningSpark(4)Spark持久化操作
- LearningSpark(5)Spark共享变量.md
- LearningSpark(6)Spark内核架构剖析.md
- LearningSpark(7)SparkSQL之DataFrame学习(含Row).md
- LearningSpark(8)RDD如何转化为DataFrame
- LearningSpark(9)SparkSQL数据来源
- RDD如何作为参数传给函数.md
- 判断RDD是否为空
- 高级排序和topN问题.md
- Spark1.x和2.x如何读取和写入csv文件
- Spark DataFrame如何更改列column的类型.md
- 使用JDBC将DataFrame写入mysql.md
- Scala 语法糖
- 报错和问题归纳.md
- 视频资源见下方
阿里强推的flink,取而代之二次开发的流计算和批处理引擎blink,spark的强势竞争对手
-
itemcf——ItemCF算法的MapReduce实现代码
-
待续
-
网课
算法课程Coursera网上主推的是Robert Sedgewick的算法课【红宝书的作者,普林斯顿计算机系创始人】
- 《算法第四版》在线资源
- 还有一门是Coursera上的斯坦福大学的算法课,我感觉偏理论,难度不如上面的那门
-
推荐一门面试课,我感觉还是可以的,极客时间的【数据结构与算法之美】
-
在线刷题:LeetCode练手
LeetCode现在有中文版的了,力扣中国
-
每周基于Java、C++的LeetCode刷题记录
- 文档记录:LeetCode刷题心得.md
- 代码驱动:【待补充】
-
GitHub项目推荐
数据库主要面向MySQL。pdf中附有转载自相关博客的引用链接,脑图是自己总结的,参考《深入浅出mysql》及相关博客。
- 脑图归纳
- MySQL掌握.km 在线打开
- 涉及InnoDB、MyISAM特点和区别
- 各大索引分类、区别、优化、使用
- 行锁、表锁
- sql相关脑图我就不放了,最好还是自己总结下
- MySQL掌握.km 在线打开
- 博文 【相关PDF收录于此】
- 数据库两大神器【索引和锁】.pdf
- 20个数据库常见面试题讲解 - 搜云库技术团队.pdf
- 深入理解Mysql——锁、事务与并发控制
- MySQL中的行级锁,表级锁,页级锁
- 『浅入深出』MySQL 中事务的实现.pdf————【讲的确实不错】
- 分布式系统一致性(ACID、CAP、BASE、二段提交、三段提交、TCC、幂等性)原理详解 .pdf
- 理解分布式事务 -贝聊科技.pdf
- 分布式锁实现(基于redis-mysql).pdf
分布式锁可基于数据库、zookeeper、缓存(像redis、tair)实现 http://www.hollischuang.com/archives/1716
- 推荐博客
- 何登成的技术博客————MySQL相关的大佬
《Python最佳实践指南!》
为什么推荐这份实践指南?这份指南与官方文档有什么不同吗?这份指南包含了作者非常强烈地主观感受,不单单是Python的安装、配置或者每个框架的使用,作者通过个人实践,对自己比较看好的框架标注了强烈推荐,对一些需要注意的地方也进行了标注,基本相当于作者的实践心得,阅读过程中会感受到与作者的思想碰撞。
(Github开源地址:http://pythonguidecn.readthedocs.io/zh/latest/)
《国内一线互联网公司内部面试题库》
该开源项目在Github上已有6000多Star,主要是来自国内一线互联网公司的面试题集锦,涉及Java和Android两大方向,涉及的公司有百度、小米、美团、58、猎豹、360、新浪、搜狐等。据说,掌握这些知识点可以大大增加前两轮技术面试的通过概率。
(Github开源地址:https://github.com/JackyAndroid/AndroidInterview-Q-A/blob/master/README-CN.md)
《Java学习+面试指南》 https://github.com/Snailclimb/JavaGuide 【Java学习+面试指南】 一份涵盖大部分Java程序员所需要掌握的核心知识。
推荐使用 https://snailclimb.top/JavaGuide/ 在线阅读(访问速度慢的话,请使用 https://snailclimb.gitee.io/javaguide ),在线阅读内容本仓库同步一致。这种方式阅读的优势在于:有侧边栏阅读体验更好,Gitee pages 的访问速度相对来说也比较快。
我面试时看的就是这个,自己也归纳了面试过程中遇到的笔试、面试题和看到的文章
(Github开源地址:https://github.com/Snailclimb/JavaGuide)
[email protected]:Snailclimb/JavaGuide.git
《技术面试必备基础知识》 https://cyc2018.github.io/CS-Notes
本项目包含了技术面试必备的基础知识,浅显易懂,你不需要花很长的时间去阅读和理解成堆的技术书籍就可以快速掌握这些知识,从而节省宝贵的面试复习时间。你也可以订阅 [面试进阶专栏],包含了学习指导和面试技巧,让你更轻松拿到满意的 Offer。
(Github开源地址:https://github.com/CyC2018/CS-Notes )
[email protected]:CyC2018/CS-Notes.git
《神经网络与深度学习》相关代码 Python 实现
该开源项目是对《神经网络与深度学习》一书中相关Python代码的实现。建议先弄明白书中所讲的神经网络、反向传播等概念,再结合代码实现,会有更深的理解。
(Github开源地址:https://github.com/mnielsen/neural-networks-and-deep-learning)
百度前端研发团队的文档与源码编写风格
该项目存放了百度前端研发研发部门的代码编写规范及统一文档,主要涉及JavaScript、CSS、HTML编码规范以及Markdown编写规范等。
(Github开源地址:https://github.com/fex-team/styleguide)
《自上而下的学习路线: 软件工程师的机器学习》
该项目的作者是一名自学成才的移动端软件开发者,后又转型成为一名机器学习工程师,他在Github上公布了自己整个实践过程中的学习方法、参考资料以及知识竞赛等。内容非常全面且丰富,涉及的参考书籍就多达十几本,还有一些博客资源。如果你正在思考如何转型成为一名机器学习工程师,这个开源项目或许是最适合你的。
(中文版本:https://github.com/ZuzooVn/machine-learning-for-software-engineers/blob/master/README-zh-CN.md)
《Shell 编程范例》
本项目贡献者是一名重度的开源项目贡献者。他认为,这本书与传统Shell书籍非常不同,没有用大量的篇幅去介绍Shell语法,而是直接以面向“对象”的方式开始介绍大量Shell操作,从实践入手,涵盖了数值、逻辑值、字符串、文件、进程等方方面面。
(Github开源地址:https://github.com/tinyclub/open-shell-book)
《Docker — 从入门到实践》
Docker现在变得越来越流行,无论是开发者、运维人员还是其他信息技术人员都很有必要对Docker知识有所了解。本书更适合具备Linux基础的Docker初学者,前六章为基础内容,可以帮助初学者梳理Docker的基本概念和操作。六章之后,逐渐介绍了一些高级操作,包括高级应用场景和实操案例。这对初学者和老司机都非常有帮助,同时本书也对安全或技术实现等话题进行了说明,强烈推荐。
(Github开源地址:https://github.com/yeasy/docker_practice)
Alibaba开源的Java诊断工具
当你遇到以下类似问题而束手无策时,Arthas可以帮助你解决:
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!
- 是否有一个全局视角来查看系统的运行状况?
- 有什么办法可以监控到JVM的实时运行状态?
Arthas支持JDK 6+,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的 Tab 自动补全功能,进一步方便进行问题的定位和诊断 (Github 开源地址:https://github.com/alibaba/arthas/)
在线教程: - 基础:https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-basics - 进阶:https://alibaba.github.io/arthas/arthas-tutorials?language=cn&id=arthas-advanced 待续
只推荐我看过的,且个人觉得不错的
视频资源 点这里--->eBook/Python
- Python3数据分析与挖掘(某课网)
- python分布式爬虫打造搜索引擎【完整版 某课网】
- Python升级3.6 强力Django+Xadmin打造在线教育平台
电子书推荐,下面给了几个可以下载电子书的网站,都能找得到的
- 入门
- 《Python基本教程》,貌似出第三版了
- 《Python核心编程》
- 《Python CookBook》
- 爬虫
- 《Python网络数据采集》
- 也有人推荐崔庆才的书,我只看过他的博客觉得挺不错的,书想比也可以吧
- 我更推荐看博客,爬虫这一块更新太快了,书跟不上步伐
- 数据分析
- 《用Python进行数据分析》足以
- 机器学习和深度学习
- 《机器学习实战》
- 我看的更多的是官方文档和博客,反正不推荐看国人写的书(好多都是骗钱的,我原来看过一本封面画了个鹦鹉的,叫什么一步一步什么走向机器学习之类的,就是把sklearn文档翻译了一遍加了几个案例,烂)
- Hadoop大数据视频教程:真实电商数据仓库全流程开发详解(共46讲)视频教程下载:https://pan.baidu.com/s/1bpMzOyr 提取密码:m3yt
- 基于Hadoop,Spark大数据技术的推荐系统算法实战教程:https://pan.baidu.com/s/1dFnP9K1 提取密码:djyk
- Hadoop、Hive、Hbase、Mahout源码解析及项目实战:https://pan.baidu.com/s/1nZuakR3DUJYJBiH0NaA1ZA 提取码: 2uyg
视频资源 点这里--->eBook/Spark系列
-
学习 Scala 进击大数据 Spark 生态圈:https://pan.baidu.com/s/1Ld35QE4xfsOQ9o6qFwxL0A 密码:detm
-
Spark 2.0从入门到精通245讲 【墙推】
-
基于大数据技术之电视收视率企业项目实战(hadoop+Spark): https://pan.baidu.com/s/1-M_I0Woi-Wq9mKhjEorGfA 提取码: v3j7
- 我个人比较推荐这个,这个是从hadoop生态逐渐过渡到Spark生态的学习
-
01-基于Spark2.x新闻网大数据实时分析可视化系统项目
-
02-Spark离线和实时电影推荐系统直播回放(视频+文档+代码)
-
03-Spark项目实战:爱奇艺用户行为实时分析系统
-
04-Spark企业级实战项目:道路交通实时流量监控预测系统
-
05-Spark企业级实战项目:知名手机厂商用户行为实时分析系统
-
06-Spark大型项目实战:电商用户行为分析大数据平台
-
2018年最新Spark机器学习课程:智能客户系统项目实战视频教程:https://pan.baidu.com/s/12SrMtvLBlVJGOlOt5NQFjw 提取密码:uu9v ——【这个是Spark on Mesos框架的】
-
Spark 2.0大型项目实战:移动电商app交互式数据分析平台:https://pan.baidu.com/s/1o8EAk2Y 提取密码:gcsq
-
Spark MLlib 机器学习算法与源码解析:https://pan.baidu.com/s/1pLptvMN 提取密码:ncek
-
Spark面试宝典 链接: https://pan.baidu.com/s/143GneWVcH4tmrK1gdwuc5w 提取码: 95b2
以上来源于大数据学习资源群的分享
- 《HBase实战》
- 《HBase不睡觉》
- 增加 用户画像相关资料
- 18年京东大数据白皮书
- DataFun社区技术年货分享
- 今日头条推荐系统架构设计
-
《算法 第四版》
-
《SQL 基础教程》(日)
-
《深入浅出MySQL》
- 《计算机网络 自顶向下方法》
- 《TCP/IP卷》
-
Stack Overflow搜索栏,程序猿都该去的网站(当然还有GayHub)
-
Coursera,没事可以听听网课
-
All IT eBooks - Free IT eBooks Download——电子书下载【English】
-
LiveBook——最新IT电子书在线阅读 【English】
- Bird.so 小众搜索引擎
- Google 镜像站
- GF导航_想你所想——网址收纳导航
- Online LaTeX Equation Editor ——在线 LaTeX 编辑器
- PDF在线转换工具
- Chrome Extension Downloader——可以通过此网站来下载因为某些原因无法在线安装 Chrome 插件
现在最新版chrome不支持直接离线安装插件了,但还是有办法的,见:Linux(Deepin)下解决最新版Chrome无法离线安装插件问题
离线安装谷歌插件方法: 1、打开谷歌浏览器输入:chrome://extensions/ 2、勾选开发者模式 3、把下载的后缀为crx的文件拖进来即可
- 插件推荐
-
OneTab:合并页面,用了就知道
-
Adblock Plus:去广告
-
LastPass:密码管理
-
新浪微博图床
-
Imagus:放大页面中的图片
-
Json View:方便查看 Json 结构的插件
-
GitNote:一款基于git的笔记插件
-
github插件
- OctTree:以树形结构展示github项目
- GitZip:下载github项目中单个文件
-
Listen 1插件:汇集网易云、虾米、qq音乐、酷我等音乐,github上搜索
-