GitHub

好东西传送门: 微博上的轻问答

关注微博 http://www.weibo.com/haoawesome/
微信号：好东西传送门
网站 http://hao.memect.com/

还没有回答的问题，欢迎认领 https://github.com/memect/hao/issues

给我们提建议

本站内容许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

最近的问答

2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章：Watson在医疗的应用，Watson中的关系提取，多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ 讨论 ] [ 微博 ]
2014-07-30 @noavailableAccount 问：有没有KVM(kernel-based Virtual Machine)的学习资料 答：http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文；几个幻灯片与短教程；一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ 讨论 ] [ 微博 ]
2014-07-30　感谢@北京-小武推荐的云计算白皮书，已收录到大数据精华区 http://t.cn/RPfx7P7 为方便大家快速浏览，文中所有的图表已摘出来单列，更加节约略读时间 [ 微博 ]
2014-07-29 @鱼片的小露宝问：希望大数据分析和机器学习方向推荐一些书,最好是java而且比较基础容易上手的。答: Kirk Borne推荐过15本书 http://t.cn/RPcpSHG 用Java入门可以先学Weka Mahout和MLTK。这有一组入门资源 http://t.cn/RPcpSHb @朝花夕拾录推荐过的CMU机器学习暑期班也非常好 http://t.cn/RPcpSHq [ 讨论 ] [ 微博 ]
2014-07-29 问：@北冥渔翁 我要找windows服务器维护管理进阶的资料 答：服务器管理进阶通常是由新需求触发的，例如系统升级，效率优化，安全补丁，软件安装。这里 http://t.cn/RPcOYXo 罗列了一本免费书，几个博客与论坛，希望微软专家（尤其是MVP）补充指正 @肥九叔 @曾经胖哥 @月光博客 @Edi_Wang [ 讨论 ] [ 微博 ]
2014-07-29 @norvid 问:求数据仓库的元数据的相关综述资料。答：数据仓库自2000年起逐渐从学术研究转到工业应用。热点是大数据挖掘，但元数据仍是数据链接聚合之关键。http://t.cn/RPV4wmy 罗列几个综述。推荐看uzh的幻灯片和Gartner分析报告。搜索词：logical data warehouse, Ontology-based Data Warehouse [ 讨论 ] [ 微博 ]
2014-07-29 @娄琦天天刷围脖: 请问有没有Python集成Fortran项目的实例？答：历史上有F2Py作为Python的Fortran接口，现在已经集成到Numpy里了。numpy底层很多计算都是Fortran的，所以大量Python项目已经在间接用Fortran。具体的语法例子看这里 http://t.cn/RPVqpLo [ 讨论 ] [ 微博 ]
2014-07-29 @心心xi 问：可否推荐一些关于recommendation的相关论文呢？答：有三组不错的资源 @小飞鱼_露推荐了20多篇论文 http://t.cn/RPcWrNz 其中有@唐杰THU 的工作。@清风运文列举过推荐系统的19个开源工具 http://t.cn/RPcWrN7 @朝花夕拾录刚分享了大数据上的推荐系统 http://t.cn/RPcWrNP [ 讨论 ] [ 微博 ]
2014-07-29 @winsty 提到了梯度提升决策树Gradient Boost Decision Tree (GBDT) 这是一种模型组合的方法，利用简单模型的组合克服过拟合等问题。目前在推荐/Learn to Rank中广泛使用，如Yandex，也被称为MART/GBRT。这里列出几篇核心论文和R/Python/C++多种实现源码 http://t.cn/RPVUDs7 [ 微博 ]
2014-07-29 @LDL_BIT 问：有哪些文章讲了多层感知器MLP的拟合能力问题？尤其是拟合多项式的能力？答：当使用非线性的激活函数，MLP是图灵完备的，可以模拟任何函数，当然包括多项式函数。这称为普适逼近原理（Universal approximation theorem）。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ 讨论 ] [ 微博 ]
2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露问：能否推荐一些关于 Learning to Rank 的相关论文，教程，应用呢？答2：前次推荐了25篇文章，主要是相关算法。@刘知远THU 和 @老师木进一步推荐了 @刘铁岩和 @李航博士的综述和专著，更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ 讨论 ] [ 微博 ]
2014-07-27 @小飞鱼露问：能否推荐一些关于 Learning to Rank 的相关论文，教程，以及一些应用呢？答：我们咨询了相关专家 @梁斌penny 并得到@白硕SH @熊辰炎 @ICT朱亚东等精彩讨论，总结在这里 http://t.cn/RP50MiI 根据他们的推荐，我们收集了25篇重要论文 http://t.cn/RP50Mif 可根据专家推荐选读 [ 讨论 ] [ 微博 ]
2014-07-26 @姚鹏鹏YPP 问：能不能推荐深度学习或者机器学习在图像检索中的应用的论文？答：最权威的索引可以说是最近CVPR 2014上的深度学习在计算机视觉上的教程，主讲人全是本领域的大拿，一共13个讲稿，基础/进阶/实践全有，顺着每个后面附的文献列表可以把领域内重要论文一网打尽了。http://t.cn/RPqzoPJ 这几个资料更具体，有百度和Facebook的图像搜索方法 http://t.cn/RPqUBaK [ 讨论 ] [ 微博 ]
2014-07-26 David MacKay的Information Theory, Inference, and Learning Algorithms 以统计为纲，把经典信息论，机器学习，神经网络等领域统一阐述，深得好评，在微博上先后有@黄厝海滨 @陈利人 @算文解字 @陈晓鸣在硅谷等专家推荐。这里总结该书的相关资料，讲稿，视频和PDF电子版都有 http://t.cn/RPqyzr0 [ 微博 ]
2014-07-25 @shirleyChou1 问：请问有没有Python + machine learning 从入门到进阶的完整link list呢? 答: @52nlp 有个很好的总结，推荐去看 http://t.cn/RPboC0p 他提到的17个工具的开源代码按火爆程度列表在这里 http://t.cn/RPG2U0H。还有更多的机器学习包看这里 http://t.cn/RPGqlmf 入选的都是几百上千星的 [ 讨论 ] [ 微博 ]
2014-07-25 [资源合集] 欧洲python大会（7月21到 27号）50多个视频与十多个幻灯片。最火话题：Python能从Haskell学到什么 http://t.cn/RPbBxX5 其他一些热点PPT：Pypy编译器进展, 图数据库，消息传递与并发，用pymc3和Scikit-learn做机器学习，OpenStack云计算平台。更多好东西见 http://t.cn/RPbBxXq [ 微博 ]
2014-07-25 [资源合集] http://t.cn/RPb1ewQ Github上13个最热门的NoSQL数据库排名。第一的是键值数据库Redis，近万颗星。第二,三是RethinkDB和MongoDB，两大竞争的文档数据库。第四是pouchdb，2800星，一个Javascript的可以跑在浏览器的数据库。图数据库Titan第五。其他有flockdb couchdb riak ravendb orientdb等 [ 微博 ]
2014-07-25 @AngelZywei 问：推荐一下图像模糊检测的一些开源项目和资料吧。答：图像失焦和清晰度检测，有梯度检测，边缘检测等原理，具体的实现有拉普拉斯变换，Hough变换，小波变换等方法。这一组推荐资源13个，分为5篇经典论文，5个开源项目 (bash, python,C,C++, Clojure)和3篇问答 http://t.cn/RPGfOkO [ 讨论 ] [ 微博 ]
2014-07-24 前几天@52cs 推荐@52nlp 在52nlp.cn 上列一批计算机高质量书籍，可惜很多链接都失效了。当时承诺帮大家找到可下载的版本，今天终于有空先找了第一批“特别推荐系列”里的7篇，提供了免登录下载。原作者有@52nlp @朱鉴 @陈涛sean @rickjin 非常非常感谢他们！http://t.cn/RPbU1Lu (更多待续) [ 微博 ]
2014-07-24 @国产哈利波特007 问：能帮我找下数据挖掘方面的算法吗？答：推荐从这几本免费的数据挖掘与数据分析书开始。其中A Programmer’s Guide to Data Mining简明扼要，适合入门。Data Mining Algorithms In R解释了基本概念。Mining of Massive Datasets 可以进阶阅读。 http://t.cn/RP4Wmhu [ 讨论 ] [ 微博 ]
2014-07-24 去年2月Nature指出Google在流感预测上出现重大错误：过高估计发病几率。今年3月Science讲了两个原因：抛弃传统方法过度依赖大数据，算法难以有效过滤网络舆情。前段时间纽约时报也讨论了大数据的局限。这里我们汇总了6篇相关文章，从正反两方面提供参考 http://t.cn/RP4CnFU 感谢 @lidingpku 提供 [ 微博 ]
2014-07-23 @tang_Kaka_back 问:有没有时间序列分析的相关资料？答：这里收集了一组时间序列分析入门资源。分为三组：第一组是三本电子书，都是经典，其中两本免费 http://t.cn/RPUHGWb 第二组是9个教程，来自博客和中外大学课件 http://t.cn/RPUHGWL 第三组是维基百科上的核心概念介绍 http://t.cn/RPUHGW2 [ 讨论 ] [ 微博 ]
- 三本推荐教材是《时间序列分析及应用（R语言）》《A little Book of R for Time Series》《Forecasting: principles and practice》后两本书是免费的，FPP是讲理论的，R的那本是实战。三本书基本上把时间序列分析基本的方方面面都覆盖到了 [ 微博 ]
- 第二组教程里有两个PPT http://t.cn/RPUnWmz http://t.cn/RPUnWmh 一个讲理论一个讲实战。在几篇博客里，特别推荐@敲代码的张洋的 “时间序列分析基础” http://t.cn/RPUnWmP 基本概念，ARIMA/Ar/MA模型，R的实现都有，非常适合入门 [ 微博 ]
- 第三组基本概念，也推荐看这个博客上的图 http://t.cn/RPUmVGK , 简明扼要，要搞懂什么概念一目了然。基础概念有时域分析，频域分析，ARIMA模型和各种变种。英文维基介绍的很清楚 [ 微博 ]
- 续时间序列分析入门24个资源 http://t.cn/RPUuHJU 再推荐更多进阶内容。Memect大数据精华区有很多Hadoop上的时间序列分析文章 http://t.cn/RPUmu9T Python精华区有统计实战和StatsModels等包的介绍 http://t.cn/RPUmu9H 最后推荐一个统计专家的专辑，有很多有趣的统计文章 http://t.cn/RPUmu9Q [完] [ 微博 ]
2014-07-23 http://t.cn/RPUxwc6 万维网科学暑期学校的PPT上线了 Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席)，Nigel Shadbolt （英国政府公开数据领导者），Jim Hendler（语义网之父）等主讲。内容涉及链接数据，开放数据，数据分析等。共41个资源感谢@lidingpku 推荐 [ 微博 ]
2014-07-22 @呯呀么呯问：识别交通标志，怎么确定图片里有交通标志，具体在哪里？答：这个应该算目标识别和物体识别，CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别，Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇是专家，推荐关注 [ 讨论 ] [ 微博 ] ** @朝花夕拾录: 正好发现一篇学术界的综述文，An overview of traffic sign detection methods http://t.cn/RPLdXUw [ 微博 ]
2014-07-22 问：@北冥渔翁:日常维护管理的有吗？dba方面？答：oracle dba在学习官方文档外，可以跟踪大神的博客，篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ 讨论 ] [ 微博 ] ** @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家，特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ 微博 ]
2014-07-21 @AixinSG 昨天推荐了CommonCrawl ．这是Google Adsense之父Gil Elbaz离开Google后，为了实现开放数据的理想创立的（他另一个项目是Factual）项目理想是解决大搜索引擎对数据的垄断，鼓励中小企业利用Web数据创业．最新的数据有50亿页面，541T．这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ 微博 ]
- 续１这么大的数据显然没法下载处理好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ 微博 ]
- http://t.cn/RP2D8XL 续2 CommonCrawl提供了MapReduce的示范教程 http://t.cn/RP2QGbz 更实战的例子来自Web Data Commons项目 http://t.cn/RP2QGbZ 综合使用了S3 EC2 SQS ElasticMapReduce 他们利用了100个EC2实例．在另一个例子里Lucky Oyster的工程师只用100美元，１４个小时完成了4亿实体的索引 [ 微博 ]
- 续３为了从这么大的数据里找到有用的信息，CC也提供了搜索引擎．如果想自己构造搜索引擎，它的数据格式也是公开的 http://t.cn/RP2RC0c [ 微博 ]
- 续４处理500T处理即使在AWS上也太贵，太耗时了．好在matpalm提供了过滤和部分利用CC数据集的方法．它也集成了一些简单的文本处理和自然语言理解: boilerpipe, tika和stanford parser http://t.cn/RP2Ebmu [ 微博 ]
- 续5 CC更强大的应用在于提取结构化数据．正如Wikipedia培育了DBPedia和Freebase，CC在两个方向培养了更大的潜在市场：RDFa, Microdata等网页内嵌语义数据(至少30%的网页已经有这种数据)，和网页链接结构图．Web Data Commons只是开始，工业应用前途无量 http://t.cn/RP2EXuC [ 微博 ]
- 续6，最后提一下CC项目的关键人物Gil Elbaz,Nova Spivack等，他们都是用结构化数据改造现有的Web的传道士和战士，为此奋斗十年以上了．在学术界，这就是语义网的研究，如Jim Hendler也在CC顾问委员会里．http://t.cn/RP2n7vp CC的出现，可以说为语义网走向现实又提供了一个有力的武器 [ 微博 ]
2014-07-21 18个最热深度学习Github项目逐一介绍（合集） http://t.cn/RPLwc9n 有 convnetjs, DeepLearnToolbox, Yusuke Sugomori's code, Lisa Lab's DeepLearningTutorials, deepnet, rbm-mnist 等。主流深度学习模型如DBN RBM CNN等都有，实现语言包括Python, C/C++, Matlab, Javascript, Java, Scala [ 微博 ]
- 1）DeepLearningBenchmarks http://t.cn/RP2ZJi9 29星，比较了Theano和其他几个实现的性能：eblearn, python numpy, torch5, torch 7。不过列表有些老，都是2011年前的，新的项目没有加进去。 [ 微博 ]
- 2） n42 ，21星，一个nodejs的实现，可以直接npm install n42。实现了4个算法：Newral Network，Logistics Regressio，Stacked denoised Autoencodern，Deep Belief Nets。代码不长，适合学习。 [ 微博 ]
- 3）宗师Hinton的代码，23星，是Matlab的。实现了autoencoder，Restricted Boltzmann Machine（RBM）。这个应用在图像领域。宗师出品，重要性不用解释。 [ 微博 ]
- 4）UFLDL-tutorial ，作者Dan Luu，94星，这是斯坦福深度学习公开课和 Andrew Ng's UFLDL（无监督特征学习和深度学习）教程的所有练习的解答。代码是Matlab的，作者声称对Octave兼容，所以理论上甚至可以从python调用。非常适合入门。 [ 微博 ]
- 5）kaggle-blackbox ，作者Zając，53星，这是2013年Kaggle无监督学习竞赛的一个实现。它实现了一个随机森林算法和一个稀疏滤波算法。语言是Matlab，也可以用Octave跑。文档和说明参见 http://t.cn/RP2AUW6 [ 微博 ]
- 6） stanford_dl_ex http://t.cn/RP2A0tn 这是另一个斯坦福深度学习公开课的习题解答，24星，作者Andrew Maas 和Sameep Tandon。语言是Matlab。同样适合入门学习。 [ 微博 ]
- 7） Yusuke Sugomori（巣籠悠輔）的深度学习实现 http://t.cn/RP2As94 。这个有近600星，提供了5种语言的实现：Python, C/C++, Java, Scala，囊括了各种主流深度学习算法：DBN, CDBN,RBM, CRBM,dA, SdA, LR等。 [ 微博 ]
- 8） convnetjs http://t.cn/RP22k0g 这个是目前最火的项目，有1300+颗星，实现了卷积神经网络，可以用来做分类，回归，强化学习等。可以直接npm install convnetjs。convnetjs上有很多很酷的可视化演示 [ 微博 ]
- 9） libdeep 这是个C的实现，目前54星。在Linux上可以安装到系统库，然后就可以在其他项目里调用了。如果追求性能，这是个好选择。 [ 微博 ]
- 10）rbm-mnist http://t.cn/RP2ySp8 这个是hinton matlab代码（ http://t.cn/RP2ySpR ）的C++改写，189星。它还实现了Rasmussen的共轭梯度Conjugate Gradient算法。 [ 微博 ]
- 11） deepnet ，这个是GPU实现的深度学习算法，前向网络，RBM，DBN，Autoencoder, DBM, CNN包括了，底层用的CUDA 。目前282星。实现语言是Python，做到了简洁性与计算性能的良好结合，特别推荐。 [ 微博 ]
- 12） neural-networks-and-deep-learning，243星，这是作者的书Neural Networks and Deep Learning的配套代码，语言是Python。这本书是免费的，不过还没有写完，可以预览前几章 http://t.cn/RP2Ur99 [ 微博 ]
- 13）Lisa Lab的DeepLearningTutorials，也就是deeplearning.net上的教程和源代码。Python实现，是基于pylearn2和Theano的。目前500多星，非常火爆。他们的wiki上很不错的资源列表，如论文和数据集 http://t.cn/RP24oCB [ 微博 ]
- 14）OpenDL http://t.cn/RP24mYU 这是个很新的实现，是基于spark的。语言是Java。除了spark还用到了Mallet机器学习包和JBlas线性代数包。更多spark参考请看大数据精华区的专题 http://t.cn/RP24mYb 。 [ 微博 ]
- 15）deeplearning-class-2011 这个也是 UFLDF课程的一个实现，31星，语言是Octave，Matlab和Python (NumPy) [ 微博 ]
- 16） @丕子的PG_DEEP 这是一个C++实现的Demo，目前有20星。代码相对简单，非常适合入门学习。 [ 微博 ]
- 17） medal=Matlab Environment for Deep Architecture Learning，37星，是一个Matlab的示范库，也实现了RBM，DBN, CRNM等主流的模型。 [ 微博 ]
- 18）DeepLearnToolbox ，Matlab实现中最热门的库，700多星，囊括了CNN, DBN, SAE, CAE等主流模型。非常简单好用。 [完] [ 微博 ]
2014-07-21 问：@apple2811 我需要Linux的资料 答：不太清楚具体需要哪一类，先推荐些通用的：1）六篇入门导读，包括Linux的基本知识，学习Linux的攻略，以及在线学习资源列表 http://t.cn/RPLyqp0 2) 六个社区网站（中英文各半），包括官方网站，流量最大的社区，以及问答论坛 http://t.cn/RPLyqpO [ 讨论 ] [ 微博 ]
2014-07-21 问：@如果起居录 语义网用于GIS、RS领域 答：OGC在2000年制定GML1.0时就有RDFS版（不过后来给放弃了）。目前有W3C的Geospatial Semantic Web Community Group，几个国际工作会议，很多项目都与开放政府数据有关；GeoSPARQL, LinkedGeoData；数据库空间索引。合集传送门：http://t.cn/RPLGgIh [ 讨论 ] [ 微博 ]
2014-07-21 问： @北冥渔翁 oracle、 mysql 入门进阶 答：数据库入门进阶资料包括：参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源，不断更新中。1.mysql资源：注意MariaDB http://t.cn/RPLyXyb 2.oracle资源：侧重性能优化 http://t.cn/RPLyXyG [ 讨论 ] [ 微博 ] ** 2014-07-22 学习数据库， @何_登成的微博一定要追！他最近推荐的一些MySQL的资源整理在这里 http://t.cn/RPLg6Gd [ 微博 ]
2014-07-18 @小77you 提问：java 进阶的课程主要学哪些？回答：整理了一组资源，见 http://t.cn/RPZBw3D 。讲讲大原则，关键还是看你的兴趣与职业发展取向。 1. 读书学习：改善编程风格，加强团队合作能力；系统架构与设计；后台性能优化； 2. 浪迹江湖：跟踪最新技术；通过网络交流共同进步。 [ 讨论 ] [ 微博 ]
2014-07-18 问：@曲线救己的fighter 求hive 答：正好有一组经大数据专家 @ShangguanRPI 整理的Hive资源（2012至今已经有27个帖子了） http://t.cn/RPwI2lO 在这个比较贴里，作者详细比较了Hive和其他的Hadoop上的SQL工具 http://www.weibo.com/1932835417/BaukhlfIT [ 讨论 ] [ 微博 ]
2014-07-18 问： @apple2811 我需要找js的资料？答：见 http://t.cn/RPwtZB0 进阶主题包括 jquery, node.js, pattern, functional, closures, 性能优化、可视化等。推荐进阶阅读： 1、90页例程覆盖JS技术要点。 2、纽约大学的JS进阶课 3、原Yahoo大牛 Douglas Crockford的书，被无数人推重 [ 讨论 ] [ 微博 ]
2014-07-18 @lovesherlock 问：有没有可以保存自己微博信息的软件或者代码什么的？答：我们现在小范围开放个人微博信息的保存, 例如此前推荐的大牛骆逸的微博合集收藏 http://t.cn/RPZdL42 我们也提供单条微博的收藏，把微博变成可引用的卡片，例如 http://t.cn/RPZdL4y 纯图片 http://t.cn/RPZdL4L 图文 [ 讨论 ] [ 微博 ]
2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了问：数据具有统计分析的价值么？请问能不能结合链数据的特点和R来谈谈。简答如下：Linked Data作为数据的一种，当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ 讨论 ] [ 微博 ]

文摘

2014-07-22 @龙星计划计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ 微博 ]
2014-07-22 @AixinSG 推荐大数据综述文章 Toward Scalable Systems for Big Data Analytics: A Technology Tutorial 36页长文免费下载 http://t.cn/RPLDPNK 文章引用接近300篇文献，涵盖数据生成，获取，存储，及分析等主要技术综述 @云教授之云媒体 [ 微博 ]
2014-07-21 @城市数据派-UDParty(城市规划) 【全球 55 个城市数据分享平台（ Urban Observatory）】城市瞭望台（ Urban Observatory）项目：全球 55 个大城市在此分享城市数据，这将是世界上第一个真正意义上的公共瞭望台。同步对比影响世界城市的重要因素，交通、人口、道路速度、开放空间、年轻人口、老年人口等。详见：http://t.cn/RPLqc8T [ 微博 ]
2014-07-19 @LiLei-Berkeley Probabilistic Programming summer school 在Portland顺利结束教学资料见 http://t.cn/RPAURgG 来自Berkeley，MIT, Stanford等大学企业的教授和研究员讲解了 BLOG, Church, Figaro, Venture 等概率程序语言。 @jxwuyi [ 微博 ]
2014-07-19 @AixinSG 大牛给的信息检索方面综述文章列表，涵盖IR方向N多问题 http://t.cn/RPAL69M [ 微博 ]
2014-07-18 @我爱机器学习【Awesome Machine Learning】http://t.cn/RPZ80gD 一个超级完整的机器学习开源库总结，如果你认为这个碉堡了，那后面这个列表会更让你惊讶：【Awesome Awesomeness】http://t.cn/RPZ80gk 各种编程语言等都有汇总，值得收藏以备不时之需。 [ 微博 ]
2014-07-17 @朝花夕拾录 [资源贴] cassendra 2.1 beta rc3新特性：1、用户自定义数据类型(UDT)：支持集合类型Set和Map，以及其上的二级索引； 2、读写速度提高超过50%；3、行数据的聚集(cluster)与缓存(cache)；4、counter设计优化，提高安全和一致性；5、更好的压缩机制,用commit log绕过直接读写 http://t.cn/RPzKcaH [ 微博 ]
2014-07-17 @唐杰THU 推荐密歇根的H V Jagadish、康奈尔及微软Partner Scientist JOHANNES GEHRKE, Fellow RAGHU RAMAKRISHNAN等数据库专家在Communication of ACM上关于《大数据技术挑战》，从数据获取、抽取、清洗、集成和建模几个过程阐述其中的数据不一致、不完整、动态、隐私等面临的挑战。http://t.cn/RPzk8wG [ 微博 ]
2014-07-17 @hbyido 大量的专业书数学书下载，推荐万千合集站一个专注于资源整理、分类和提供免费下载服务的网站 http://t.cn/RvUYeY7 http://t.cn/RvUYeY7 [ 微博 ]
2014-07-16 @西瓜大丸子汤 Jim Hendler今天的视频和PPT: Semantic Web: The Inside Story 强烈推荐搞人工智能的同仁都看看 http://t.cn/RP7CLin 语义网作为符号主义走向应用的尝试，也曾获得与深度学习类似的投资与眼球。结合前两天关于AI winter的讨论，其在今天尤其有参考意义 http://t.cn/RP7CLim @王海勋haixun @Gary南京 [ 微博 ]
2014-07-16 @西瓜大丸子汤 http://t.cn/RP7Q1pR 深度学习70+条学习资源。这70多条是从Memect用户过去两年的阅读列表里精选出来的，每一条都经过了人工的过滤。从入门到进阶，各大个公司的应用案例，各种软件包的介绍，实战汇报，基本都是实用内容，理论联系实际。随后我们还会特约专家加以导读和点评。[ 微博 ]
2014-07-16 @52nlp "线性代数的学习及相关资源" http://t.cn/zOQBTSC , 这个里面汇集了资源，包括电子版教材, “找到一个不错的电子版，非扫描版并且是第4版：Introduction to Linear Algebra_4ED_Strang” ，昨天有同学私信说爱问的已经废了，刚才上传到百度网盘并做了私密分享，感兴趣的同学请在该文尾部找答案。 [ 微博 ]
2014-07-16 @朝花夕拾录［资源贴］续上文 http://t.cn/RP7N6AS 目前整理出了80多个大数据可视化工具：http://t.cn/RP7N6AK javascript类51个，地图类有21个，图表类34个，svg类15个；继续增补中，欢迎指正。－－题外话，大数据可视化也要用美女打广告。猜猜那个帅哥是哪个工具的“代言人”，期待大数据展会的“数模” [ 微博 ]
2014-07-15 @朝花夕拾录［资源帖］12个#大数据#可视化工具合集汇总，超过一半2014年新出炉。涵盖超过50个#可视化工具#（表格，地图，时间轴，动态图表，树，有向图等），大约80% #javascript#包，例如d3.js，timeline.js，Springy.js。如果说大数据分析是一场足球赛，那数据可视化就是临门一脚。 http://t.cn/RPh1qz5 [ 微博 ]
2014-07-13 @西瓜大丸子汤 http://t.cn/RPvS3im 大数据书籍推荐新增 Cloudera Impala；Apache Sqoop Cookbook；Outlier Detection for Temporal Data；Big Data Now: 2013 Edition。免费pdf推荐：Social Media Mining ，另有9本免费的数据挖掘与数据分析 http://t.cn/RPvS3in [ 微博 ]
- @西瓜大丸子汤 9本免费的数据挖掘书之1）Mining of Massive Datasets 斯坦福三大教授Leskovec Rajaraman Ullman 联手推出的免费书，500多页，不是简单的数据挖掘，而是大数据挖掘 http://t.cn/RPv8GTa 这本书的第三章相似分析，第五章链接分析，第九章广告系统当年在我工作中很有用更多大数据书http://t.cn/RPvS3im [ 微博 ]
- @西瓜大丸子汤 9本免费的数据挖掘书之2）Data Jujitsu（数据柔术）如何解剖复杂数据，利用替代分析技巧，利用人工分析如Mechanical Turk。我觉的这本书最好和Bad Data一起看 http://t.cn/RPvEhRz 数据挖掘的真实效果80%在数据清理和人工，不是算法。传送门 http://t.cn/RPvEhRZ 更多大数据书http://t.cn/RPvS3im [ 微博 ]
- @西瓜大丸子汤 9本免费的数据挖掘书之3）Data Mining Algorithms In R http://t.cn/RPPm0Bk 这是一本Wiki书，也就是维基百科上有关的条目组织形成的书。覆盖了：降维方法，常见模式挖掘，序列数据挖掘，聚类，分类，和R的数据挖掘包导航（RWeka gausspred optimsimplex 等）更多大数据书http://t.cn/RPvS3im [ 微博 ]
- @西瓜大丸子汤 9本免费的数据挖掘书之3.1）续上http://t.cn/RPP33gn Data Mining Algorithms In R这书原始格式是网页，不易阅读下载，特制作pdf版，266页 http://t.cn/RPP33gR 。同时推荐Yanchang Zhao的R and Data Mining，160页，都是实战例子 http://t.cn/RPP33gE 如觉得好请支持作者 http://t.cn/RPP33gm [ 微博 ]
- 9本免费的数据挖掘书之4) Theory and Applications for Advanced Text Mining http://t.cn/RPP10t2 这是本理论书，作者大都是学术界的。主题是高级的文本挖掘，如关系提取，时间关系提取，文章总结，本体学习，实体提取等各种高大上专题。了解前沿不可不看。更多大数据书http://t.cn/RPvS3im [ 微博 ]
2014-07-13 @鲍捷AI http://t.cn/RPvxGHA OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb，也即Freebase团队。被Google收购后，工具改称Google Refine。后来开源成为OpenRefine。这组资源包括了9个必读博客和教程 [ 微博 ] ** @西瓜大丸子汤: Freebase是Google知识图谱的前身。从Wikipedia到Freebase再到知识图谱，不仅有机器的数据清理，也有海量的人工数据清理任务。Google Refine在其中的作用不容低估。具体数值不详，不过来自类似系统TrueKnowledge的报告说：0.1%的手工编辑就可以覆盖10%的用户查询 http://t.cn/RPvxjIF [ 微博 ]
2014-07-13 @西瓜大丸子汤 http://t.cn/RPvoO88 Python免费书54本，都可以pdf下载。从入门到自然语言处理，科学计算，概率论，经济学，生物信息学，多媒体，密码学，计算机视觉，游戏，社交媒体分析...必有一本适合您 [ 微博 ]
2014-07-12 @赵家平USC Jeff Hinton组把deep CNN(CovNets)在ImageNet上train好的模型放到网上了，试了下classification, retrieval, image2text的在线demo, amazing! http://t.cn/Rvs0Pvj 最重要的是他们的source code以及installation & documentation 也一并公布，超过Rob Fergus学生的Clarifai http://t.cn/8kL993u [ 微博 ]
2014-07-12 @西瓜大丸子汤 http://t.cn/RvsoYMd @骆逸的微博里提到很多Python干货。从过去两年的微博里选出一百多条，有适合入门的书籍和教程推荐，有机器学习，网络编程，推荐系统，各种实战总结（360, instgram），PyCon等等。http://t.cn/RvsQc5G 和机器学习有关的帖子质量也很高，不少也是和python有关的. 我当年学Python的时候就从@骆逸的帖子里受益匪浅。大牛以前在雅虎，如今是毕肯互动的CEO [ 微博 ]
2014-07-12 @西瓜大丸子汤 http://t.cn/Rvs9BBQ 语义网同仁的福利：本体映射Ontology Mapping项目汇总，一共20多个。入选的都是现在还在活跃的项目，很多都有开源代码。早年的一些项目现在不怎么维护的看这里 http://t.cn/Rvs9BBH @老淘 @潘越_ 徐涵W3China @白硕SH @顾进广 @胡安-格里斯 @昊奋 @唐杰THU @程龚_NJU @汪鹏_SEU [ 微博 ]
2014-07-12 @朝花夕拾录 #Swift# 资源合集：官方博客今日（7/11）上线，并两个相关博客。还有4个社区资源导航贴合集，包括 @SwiftLanguage 提供的中文版。最后是Swift PDF合集（包括 8个WWDC的演讲稿，两个官方iBook参考书的PDF版）http://t.cn/RvsJrLy [ 微博 ]
2014-07-11 @网路冷眼必须观看的Javascript视频！！！】GitHub网站上 http://t.cn/RvFF0AU 收录了2009年至今必须观看的Javascript视频，其作者Nicholas Zakas，Douglas Crockford...都是Javascript江湖响当当的人物，精彩不容错过！ [ 微博 ]
2014-07-11 @网路冷眼 Docker现在大火，http://t.cn/RvF7fxB 推出史上最全Docker中文资料集萃。真的狠赞！[赞] [ 微博 ]
2014-07-11 @西瓜大丸子汤 Python贝叶斯工具续 http://t.cn/RvFf2Q9 前面介绍过PyMC，Infer.net 此外@朝花夕拾录还介绍过emcee和pystan。在实战中怎么用呢？bayesian-python这个系列收集了14篇相关文章。http://t.cn/RvFfwUy 这5篇总结了几个工具的实战例程。要节约时间就看系列第一篇总结的表，一目了然 http://t.cn/RvFfwUL [ 微博 ]
2014-07-10 @西瓜大丸子汤刚才说到python优化，举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化：循环，numpy/BLAS，cython，多线程（真的可以）结果效率提高了上千倍，比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化，都不可不看 http://t.cn/Rvkt0Hk [ 微博 ]
2014-07-10 @朝花夕拾录白宫和麻省理工于今年三月举办了“大数据的个人隐私研讨会”。麻省理工校长主持，白宫大数据顾问、美国商业部部长作了主题演讲，还有一堆麻省理工和哈佛的教授研讨了关键技术，包括数据库，加密，匿名，日志分析，语义推理等。相关资源包括每个演讲的视频，以及八个可下载的PPT。http://t.cn/Rvk5BnL [ 微博 ] ** 刚刚整理出了4个大数据信息安全关键问题： *数据收集，如何签订合理的用户知情协议 *数据共享，如何保障透明度，控制使用权限，防止数据泄露 *数据使用，如何避免重新识别攻击，防止意外地侵犯个人权益 *数据监管：如何在不同的环境（国家、政府、组织、政策）中监管大数据的运营 [ 微博 ]
2014-07-09 @西瓜大丸子汤 http://t.cn/RvDWJ20 23个python的机器学习包，从常见的scikit-learn， pylearn2，经典的matlab替代orange，到最新最酷的Theano（深度学习）和torch 7 (well，其实lua，不过从ipython调用很容易)，基本常用的通用python机器学习平台都有了。 [ 微博 ]
2014-07-09 @西瓜大丸子汤在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战，用Python来解释各种概率推理方法，有代码有真相。基于PyMC 包，解剖了MCMC ，大数定律，金融分析等概念与应用。Github上已经有5000颗星。更多python统计方法资源 http://t.cn/RvDJLy6 [ 微博 ]
2014-07-09 @朝花夕拾录 #大数据#产业化的一个重要指标：超过20家美国商学院（例如UVA，RPI，GWU）开设了大数据和数据分析硕士课程，而且有一半学校的课程只要一年就能毕业。这个可是转型成高富帅的绝佳机会呦。http://t.cn/RvDVtXm －－我是分割线－－呵呵，还有个IIT，这可不是印度学校，是伊利诺伊理工大学。 [ 微博 ]
2014-07-09 @西瓜大丸子汤 Spark Summit 2013的PPT和教程合集整理在此 http://t.cn/RvDVO9I ，一共33个。和昨天放出了60个Spark Summit 2014的PPT一起，基本涵盖了近期spark的动态与产业布局。http://t.cn/RvewMsv 和去年比，今年峰会的内容无论数量还是应用的广度与深度，都大幅增长了。例如去年没有自然语言处理，今年有两个 [ 微博 ]
2014-07-08 @何_登成分享下最近看的几篇关于分布式KV/NoSQL的论文与资料：1. aerospike http://t.cn/RveVR9I 2. facebook memcache http://t.cn/RvjMGCj 3. redis cluster http://t.cn/zRPS3Q8 4. 腾讯CKV http://t.cn/8s7PSiN 5. 淘宝Tair http://t.cn/zjkhVoF 简单点评：架构大同小异，各有特色，可相互借鉴。[ 微博 ]
2014-07-08 @西瓜大丸子汤 Spark Summit 2014全部PPT合集 http://t.cn/RvewMsv Spark是新一代大数据处理平台，基于内存的集群计算使它比MapReduce快一百倍，非常适合迭代计算和并行机器学习。合集包括了全部60个演讲的PPT（除了一个链接失效）预览和下载。AMP Lab, Databricks, Cloudera, MapR, Amazon等重量级厂家一网打尽 [ 微博 ]
2014-07-07 @西瓜大丸子汤继续推荐几个python NLP的资源。http://t.cn/RvgckyQ NLTK book是入门必读。 http://t.cn/RvgckyY @陈涛sean 做了中文翻译《用Python进行自然语言处理》可免费下载。http://t.cn/RvgckyH Jimmy Lin(前马里兰教授)有书和博客讲并行NLP http://t.cn/RvgckyT 基于Hadoop 和MR [ 微博 ]
2014-07-07 @ansj 500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://t.cn/Rvgy9sg 密码: 3a1q http://t.cn/Rvgy9oC [ 微博 ]
2014-07-06 @西瓜大丸子汤 http://t.cn/RvdhLRA Text Processing in Python 一本讲python文本处理的小书，涵盖了基本字符串，正则表达式，状态机，和互联网文本处理的基本点。印刷版在亚马逊上卖41刀，文字电子版免费下载 [ 微博 ]
2014-07-05 @王威廉鉴于大家对Wasserman的统计笔记反响不错，我就再推荐一本他的经典统计入门教材All of Statistics: A Concise Course in Statistical Inference http://t.cn/RvrzVBw pdf: http://t.cn/RvrzVBA 这本书获得过国际贝叶斯分析协会的DeGroot奖。[ 微博 ]
2014-07-04 @西瓜大丸子汤把最近比较重要的关于Watson的资料分了类十多个pdf http://t.cn/Rv1BOxx IBM自己的介绍 http://t.cn/Rv1BOxX 媒体报导 http://t.cn/Rv1BOx6 Watson在卫生领域的应用 http://t.cn/Rv1BOxJ 音频视频 http://t.cn/Rv1BOxi 其他应用 http://t.cn/Rv1BOxa [ 微博 ]
2014-07-04 @朝花夕拾录七月三日新鲜出炉 #大数据#资源帖。。。24个知名掌门级别(CxO)大数据专家及其推特账号。有来自于大企业的（例如Google， KDnuggets， TeraData，IBM，和Ford ），但更多的来自创新企业。咱不指望他们都会编Hadoop程序，但他们在业内的影响力那是刚刚嘀－－全是推特万人大V。 http://t.cn/RvBJqDr [ 微博 ]
2014-07-03 @西瓜大丸子汤 http://t.cn/Rv3gsW2 今天的一大新闻是IBM的BlueMix：基于Watson自然语言问答系统的云服务。以前的工作也和问题有关，这里先放几篇读过的Watson的文章和slides。AAAI Magzine 2010的文章有点老，不过作为提纲还是推荐一读。IBM Journal 2012专辑选了3篇文章，在语言解析与语义数据的应用 [ 微博 ]
2014-06-24 @西瓜大丸子汤 http://t.cn/RvYTJ3r 《世界杯的大数据和小数据》这组专题汇集了2010和2014年世界杯的数据。2010年BBC利用语义数据做了动态新闻发布，降低记者写作和BBC的内容发布成本。OpenLink今天发布了2014世界杯数据的RDF版，包括各队，球员和分组的可查询数据。还有football.db历年的数据，和World Cup in JSON [ 微博 ]
2014-06-24 @ShangguanRPI 作为看到整篇整篇java mapreduce代码就想吐的scala脑残粉，肯定不能放过scalding。放出平时积累的一点scalding的学习资料，http://t.cn/RvYmfSX。
2014-06-21 @朝花夕拾录［资源帖］十几个图像处理中常用的python包。NumPy和SciPy必装，图像处理：PIL/PILLOW入门，SimpleCV进阶，OpenCV专业。还有Mahotas ，ilastik，MedPy多用于生物医学多维图像处理。辅助工具：scikit-learn机器学习，sh5py数值数据存储(numpy数组)，pprocess并发处理。http://t.cn/RvWmogb [ 微博 ]
2014-06-21 @朝花夕拾录 [资源帖] pypy3.2.1(Fulcrum，支点）于6月20日发布。http://t.cn/RvlC1JG 是第一个pypy3稳定版，支持python3.2.5，改进了unicode，JIT，GC。参考：cpython, jython(java), ironpython (.net). 讨论：还不支持numpy，ctypes（但有numpypy)；windows 64bit还不支持；有人测出了7倍加速(一般4～5倍)。[ 微博 ]
2014-06-20 @朝花夕拾录五篇python贝叶斯入门短文，以及三个常用工具： emcee , pymc, pystan, http://t.cn/RvOj4nM 顺路说说统计学两大门派：频率派（Frequentists）和贝叶斯派（Bayesians）＊Frequentists的长远目标是只有5％的时间犯错误＊Bayesians隐约期待马，瞥见一头驴，坚信（95%的可能性）他看到了一头骡子 [ 微博 ]
2014-06-20 @ShangguanRPI Pivotal是一家新兴的大数据和企业PaaS解决方案提供商，由EMC、Vmware和GE在2013年合资成立，将自家的大数据技术重新架构在Hadoop平台上。这个专题资源汇总了20多篇Pivotal产品的介绍和新闻，如MPP SQL on Hadoop，在Docker上部署Hadoop，如何用PivotalR做大数据分析等 http://t.cn/RvOBEIF。[ 微博 ]
2014-06-19 @朝花夕拾录 #大数据专题# 12个与#2014世界杯#相关的在线资源:（1）总结如何预测冠军得主；（2）大数据应用例程（bing, sas, rapidminner)；（3）免费在线数据库，可下载（football.io, json api)。 http://t.cn/Rv0OOd2 [ 微博 ]
2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》，侧重实例，以 Python 语言讲解。目前已完成6章，仍在更新中，并且提供 PDF 下载。http://t.cn/zWQEQH8 作者：Ron Zacharski cc @ResysChina [ 微博 ]
2013-01-28 @陈利人【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ；线性回归，偏差、方差权衡 http://t.cn/Sxppf2 ；模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ；线性判别分析, 主成分分析 http://t.cn/SAeY2U ；强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ 微博 ]

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

最近的问答

文摘

About

Releases

Packages

baojie/hao

Folders and files

Latest commit

History

Repository files navigation

最近的问答

文摘

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages