(必读)Spark官方文档
(必读)Spark ML 官方文档
(必读)Spark参数配置官方文档
Spark在美团的实践
Spark核心技术与实践
spark机器学习算法研究和源码分析
Apache Spark 内存管理详解
Spark入门实战系列--9.Spark GraphX介绍及实例
HDFS NameNode内存全景
HDFS NameNode内存详解
Spark机器学习库(MLlib)指南
大数据学习——Spark Structured Streaming入门编程指南
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现
(必读)Spark性能优化指南——基础篇
(必读)Spark性能优化指南——高级篇
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
Spark的性能调优
Spark性能优化——和shuffle搏斗
Spark 性能相关参数配置详解-shuffle篇
Hadoop YARN在异构环境下应用与实践-Hulu大数据架构组负责人董西成
GC调优在Spark应用中的实践
Spark On YARN内存分配
Apache Spark探秘:实现Map-side Join和Reduce-side Join
spark 应用程序性能优化|12 个优化方法
Apache Spark Jobs 性能调优(二)
Spark Streaming + Elasticsearch构建App异常监控平台
使用基于Apache Spark的随机森林方法预测贷款风险
DataBricks: Apache® Spark™ MLlib 2.x: How to Productionize your Machine Learning Models
Using Apache Spark for large-scale language model training
Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop
Processing a Trillion Rows Per Second on a Single Machine: How Can Nested Loop Joins be this Fast?
Recommending items to more than a billion people
Apache Spark Scale: A 60 TB+ production use case
Accelerating Apache Spark MLlib with Intel® Math Kernel Library (Intel® MKL)
Spark Job执行流程源码解析
(实用)万亿级数据规模下的倾斜调优
Spark数据本地化-->如何达到性能调优的目的
Spark算子篇 --Spark算子之aggregateByKey详解
xgboost原理及应用
xgboost入门与实战(原理篇)
XGboost: A Scalable Tree Boosting System论文及源码导读
XGboost核心源码阅读
Introduction to Boosted Trees
Introduction to Boosted Trees
XGBoost 与 Boosted Tree(xgboost作者文章)
xgboost之spark上运行-scala接口
xgboost原理
Complete Guide to Parameter Tuning in XGBoost (with codes in Python) xgboost参数调优
大杀器xgboost指南
xgboost: 速度快效果好的boosting模型
(必读)word2vec官网
Distributed Representations of Words and Phrases and their Compositionality
Efficient Estimation of Word Representations in Vector Space
Exploiting Similarities among Languages for Machine Translation
词向量之Word2vector原理浅析
word2vector学习笔记(一)
(必读)Deep Learning实战之word2vec
(必读)word2vec 中的数学原理详解
word2vec 入门基础
Deep Learning in NLP (一)词向量和语言模型
(必读)《How to Generate a Good Word Embedding?》导读
机器学习必须熟悉的算法之word2vector(一)
机器学习必须熟悉的算法之word2vector(二)
机器学习算法实现解析——word2vec源码解析
word2vec原理推导与代码分析
(必读,CBOW和Skip-gram讲的很通俗易懂)深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析
(必读,几种句向量方法介绍)An Overview of Sentence Embedding Methods
推荐系统候选池的两种去重策略
机器学习 | 八大步骤解决90%的NLP问题
基于局部敏感哈希的协同过滤算法之simHash算法
.NET下文本相似度算法余弦定理和SimHash浅析及应用
浅谈simhash及其python实现
简单易懂讲解simhash算法 hash 哈希
使用SimHash进行海量文本去重
局部敏感哈希算法(Locality Sensitive Hashing)
中文文档simhash值计算
simhash算法原理及实现
基于 TWE 模型的关键词提取
Topical Word Embeddings
【论文阅读】Topical Word Embeddings
[CODE]topical_word_embeddings
深度学习解决NLP问题:语义相似度计算
语义文本相似度研究进展
(必读)句子相似度算法比较 Comparing Sentence Similarity Methods
TF-IDF简介
(必读)自然语言推理-文本蕴含识别简介
Textual Entailment Resource Pool
深度学习在文本分类中的应用
(必读)基于深度学习的文本分类?
PyTorch快速入门教程七(RNN做自然语言处理
PyTorch快速入门教程八(使用word embedding做自然语言处理的词语预测)
PyTorch快速入门教程九(使用LSTM来做判别每个词的词性)
Text-CNN 文本分类
Convolutional Neural Networks for Sentence Classification
Deep Learning for NLP Best Practices(深度学习中NLP的最佳实践)
(基础讲解)bert代码
(必读)从Word Embedding到Bert模型——自然语言处理预训练技术发展史
发布一年了,做NLP的还有没看过这篇论文的吗?--“Attention is all you need”
(必读)放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较
完全图解RNN、RNN变体、Seq2Seq、Attention机制
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
Text Classification, Part 2 - sentence level Attentional RNN
Latent Dirichlet Allocation原始论文
LDA
通俗理解LDA主题模型
LDA漫游指南
(必读)LDA数学八卦
LDA工程实践之算法篇-1.算法实现正确性验证
LDA工程实践之算法篇-2.SparseLDA算法
主题模型算法
Spark LDA文档
We Recommend a Singular Value Decomposition
奇异值分解
浅谈机器学习基础(上)
(入门必读,讲清了很多基础概念)零基础入门深度学习
(必读)系列教程:动手学深度学习-使用MXNet
(必读)系列教程:机器学习速成课程-使用TensorFlow(google出品)
(必读)pytorch官方教程:一系列入门示例
(必读)pytorch官方教程:使用RNN进行名字分类
pytorch官方教程配套源码
莫烦的机器学习专栏:机器学习本来可以很简单
深度炼丹专栏:分享在深度学习的一些项目实践与经验
(入门必读)莫烦的pytorch视频教程
Understanding LSTM Networks
[译] 理解 LSTM 网络
人工智障的深度瞎学之路:知乎看山杯夺冠记
基于pytorch的CNN、LSTM神经网络模型调参小结
The Unreasonable Effectiveness of Recurrent Neural Networks
序列模型和基于LSTM的循环神经网络
卷积神经网络(CNN)防止过拟合的方法
训练集样本不平衡问题对CNN的影响
(必读-讲的很清楚)机器学习sklearn19.0聚类算法——Kmeans算法
sklearn keans算法官方文档
K-means与K-means++
当我们在谈论K-means:总结
K-means聚类算法的三种改进(K-means++,ISODATA,Kernel K-means)介绍与对比
(必读)极大似然估计详解
L1正则和L2正则的比较分析详解
(必读)机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(二)核范数与规则项参数选择
(必读)机器学习中正则化项L1和L2的直观理解
更好地理解正则化:可视化模型权重分布
Johns Hopkins大学Jason Eisner教授的HMM教程(可互动的excel示例,非常直观)
Dynamics of optimizing Gaussian mixture models
Kaggle 首战拿银总结 | 入门指导 (长文、干货)
斗鱼大数据的玩法
Storm 的可靠性保证测试
Scaling Apache Giraph to a trillion edges
Large-scale graph partitioning with Apache Giraph
逻辑回归算法
阿里AI界的新伙伴,1秒钟自动生成20000条文案
阿里-搜索团队智能内容生成实践
为电商而生的知识图谱,如何感应用户需求?
语音信号处理之(四)梅尔频率倒谱系数(MFCC)