原标题:收下这12篇最新论文,炼丹不愁没灵感 | 本周值得读

  • 原文:机器之心 Yerevann

AI100_机器学习日报 2017-10-16

@好东西传送门
出品,由@AI100运营, 过往目录
http://geek.ai100.com.cn

订阅:关注微信公众号
AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

图片 1

本期话题有:

全部**22** 算法11 深度学习7
自然语言处理5
应用4
视觉3
会议活动2
经验总结2
知识工程1
语音1

用日报搜索找到以前分享的内容: http://ml.memect.com/search/

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

深度学习是发展迅速的一个计算机科学和数学交叉的领域。它是更宽泛的机器学习领域一个相对新的分支。机器学习的目的是教计算机完成基于给定数据的各种任务。本教程是为那些知道一些数学,又懂一些编程语言,并想研究深度学习的人准备的。

今日焦点 (5)

wx:钱曙光
网页版
2017-10-17 07:01

深度学习
算法
自然语言处理 GPU
Python 代码 分类 行业动态 神经网络

「理解情感 :从 Keras 移植到
pyTorch」导语:情感情绪检测是自然语言理解的关键要素。最近,我们将原来的项目迁移到了新的集成系统上,该系统基于麻省理工学院媒体实验室推出的NLP模型搭建而成。情感情绪检测是自然语言理解的关键要素。最近,我们将原来的项目迁移到了新的集成系统上,该系统基于麻省理工学院媒体实验室推出的NLP模型搭建而成。代码已经开源了!(详见GitHub:https://github.com/huggingface/torchMoji
)该模型最初的设计使用了TensorFlow、Theano和Keras,接着我们将其移植到了pyTorch上。与Keras相比,pyTorch能让我们更自由地开发和测试各种定制化的神经网络模块,并使用易于阅读的numpy风格来编写代码。在这篇文章中,我将详细说明在移植过程中出现的几个有趣的问题:如何使用自定义激活功能定制pyTorch
LSTMPackedSequence对象的工作原理及其构建如何将关注层从Keras转换成pyTorch如何在pyTorch中加载数据:DataSet和Smart
Batching如何在pyTorch中实现Keras的权重初始化首先,我们来看看torchMoji/DeepMoji的模型。它是一个相当标准而强大的人工语言处理神经网络,具有两个双LSTM层,其后是关注层和分类器:torchMoji/DeepMoji模型DeepMoji有一个很不错的特点:Bjarke
Felbo及其协作者能够在一个拥有16亿条记录的海量数据集上训练该模型。因此,预先训练的模型在此训练集中具有非常丰富的情感和情绪表征,我们可以很方便地使用这个训练过的模型。该模型是使用针对LSTM的回归内核的Theano/Keras默认激活函数hard
sigmoid训练的,而pyTorch是基于NVIDIA的cuDNN库建模的,这样,可获得原生支持LSTM的GPU加速与标准的sigmoid回归激活函数:Keras默认的LSTM和pyTorch默认的LSTM因此,我写了一个具有hard
sigmoid回归激活函数的自定义LSTM层:这个LSTM单元必须集成在一个完整的模块中,这样才可以使用pyTorch所有的功能。这个集成相关的代码很长,建议直接引用到Github中的相关源代码。模型的关注层是一个有趣的模块,我们可以分别在Keras和pyTorch的代码中进行比较:如你所见,主要的算法大致相同,但PyTorch代码中的大部分都是注释,而Keras则需要编写几个附加函数并进行调用。在编写和调试自定义模块和层时,pyTorch是一个更快的选择;而对于快速训练和测试由标准层构建的模型时,Keras显然更加合适。Keras有一个不错的掩码功能可以用来处理可变长度序列。那么在pyTorch中又该如何处理这个呢?可以使用PackedSequences!
pyTorch文档中有关PackedSequence的介绍并不是很详细,所以这里会详细描述它的细节。转自:腾讯云完整内容请点击“阅读原文”
via:
http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678240&idx=3&sn=b5ffc0ee4934dfbc535f007e95dcc671&scene=0#wechat_redirect

图片 2

wx:
网页版
2017-10-17 07:01

深度学习
视觉 算法 应用 语音
自然语言处理
Christopher Manning
Ilya Sutskever
Jianpeng Cheng
Tim Rocktaschel
柏晓鹏 回归 机器翻译 可视化
李斌 神经网络 统计 问答系统 信息检索
薛念文 语言学

「深度神经网络机器翻译」2013年,在Brandeis大学聆听薛念文老师(计算语言学领域引用率最高的华人之一,
下图居中, 薛老师右边是好友柏晓鹏和李斌)讨论小组研究语言模型的时候,
已经感到神经网络语言模型的力度。但是还是非常难以想象到3年不到的这么短时间,就突破到这个程度。
去年年底Google神经网络机器翻译出来的时候, 本人有感于突破之快,
把当年的讨论的部分收获写到了 “概率估值的光滑(Smoothing)”里面。
今天有时间和大家一起讨论下下, 深度神经网络机器翻译。前言2016年年底,
Google公布了神经网络机器翻译(GNMT), 从此宣告, 机器翻译经过27年左右,
正式从1989年的IBM机器翻译模型(PBMT,基于短语的机器翻译),过渡到了神经网络机器翻译模型。已经极大接近了普通人的翻译了。
而从基于短语的翻译到神经网络翻译, 相对提升可以达到60%以上,
因此一下子引起了欢呼和惊叹。 而这背后的大功臣,就是sequence to sequence
(seq2seq)的端到端的模型。
而这个seq2seq模型,除了机器翻译,还极大改变了整个自然语言处理相关应用。
包括基本的NLP功能:Parsing, NER等; 传统的NLP应用:Summarization, QA,
Conversation等; 还有多模的世界:图像和文字, 语音和文字等。 譬如,
Google除了GNMT以外还有基于seq2seq的TTS系统Tacotron:基于seq2seq的问答系统:基于seq2seq的概要提取系统:接下来,
我们按如下顺序介绍seq2seq模型:Seq2Seq的简史PBMT
时代的基石和问题端到端模型的出现神经网络语言模型的出现RNN-LM的出现RNN的发展Seq2Seq的出现Seq2Seq的发展一.
Seq2Seq的简史目前seq2seq的突破,离不开:a. Attention机制:
现在Attention机制几乎将IBM模型中alignment对齐机制发挥出新的境界。b.
RNN模型升级:
RNN出现了双向RNN,堆栈RNN,和残差RNN。在GNMT里面把这些技术统统用上了。使得RNN模型的学习能力达到空前高度。
c. RNN-LM模型: RNN的使用开启解决长距离依赖的问题,
也引发记忆计算在语言模型的新思考。 d.
NNLM模型突破:NNLM模型的发展使得非线性的投影和Softmax的近似计算得到突破。
e. 端到端的编解码模型:端到端的早期突破使得多模融合成为可能。
2015年,两个小组: Tim
Rocktaschel为代表的伦敦大学院、牛津大学、还有DeepMind的小组(Reasoning
about Entailment with Neural Attention), 和爱丁堡大学的Jianpeng
Cheng(Long Short-Term Memory-Networks for Machine
Reading),发表了基于Attention的对齐机制细分和相关的可视化的分析。
尤其Jianpeng Cheng对Shallow Attention Fusion 和 Deep Attention
Fusion的区分,代表了Attention机制在NLP里面的成熟。 2014年 –
2015年,斯坦福计算机系Manning组的 Minh-Thang Luong 的论文 Effective
Approaches to Attention-based Neural Machine Translation
正式基于高斯分布推导了Local Attention,比较了Global Align
Attention和Local Align Attention, 和视频处理里面 Soft Attention 和 Hard
Attention建立了联系。 2015年 Bengio的团队中来自德国的Dzmitry Bahdanau
(NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND
TRANSLATE),将Attention机制引入到机器翻译中,正式开启了Attention作为Alignment的大门!2014年
两个人, Bengio团队的Kyunghyun Cho (Learning Phrase Representations
using RNN Encoder–Decoder for Statistical Machine Translation) 和
Google的 Ilya Sutskever (Sequence to Sequence Learning with Neural
Networks) 正式将RNN Encoder-Decoder搬上神经网络机器翻译NMT的历史舞台,
并且命名为Seq2Seq模型!从上面,
我们看到从Seq2Seq简单模型到有Attention模型的Seq2Seq的经历。 二. PBMT
时代的基石和问题首先基于短语的机器翻译,从IBM模型一路发展而来,
已经相当成熟。 并且开源系统也很多,极大促进了机器翻译的研究和应用。
最重要的是完成机器翻译的功能模块的分解: 双语对齐, 语言模型,翻译模型,
解码器, 测试。 这个使得, 神经网络语言模型诞生后,可以进行独立测试,
逐步发展替代。
其中n-gram语言模型,基于全概率公式和马尔可夫假设,但是问题也出现在这个n-gram模型,
主要的3大问题:1. 通过频率计算概率,
存在数据稀疏,概率为0的情况难以轻易搞定。虽然,众多概率光滑的算法(尤其
Modified Kneser-Ney 算法)纷纷出现, 依然对人为先验设计要求太高。 2.
长距离依赖的问题难以解决(短语N-Gram中N的局限性)3.
线性模型学习的局限性如何解决基于频率的概率估算问题, 解决长距离依赖,
解决线性模型的问题在基于短语的机器翻译PBMT框架下难以彻底截距。 其实,
还有两个神器在PBMT时代已经广泛应用了: 1.
Log-Linear模型的提出在“概率分布の三奥义” 里面,我们就提出了,
概率估计发展, 从基于频率, 到基于经验,再到基于最大熵。
需要的数据越来越少。
而Log-Linear就是基于最大熵的概率模型(细节参考““66天写的逻辑回归” 引”)
如果想深入了解的,
简单说来Log-Linear和最大交互熵之间的关系就是著名的Donsker-Varadhan定理:Log-Linear表现为Softmax输出。2.
束查询 Beam Search当把翻译的词拼成句子的时候,
要求整个句子的似然概率最大, 这时候Beam Search是介于贪心和动态规划(譬如
Viterbi Algorithm)之间个一种均衡了效果和计算量的选择。
转自:AI2ML人工智能to机器学习 完整内容请点击“阅读原文” via:
http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678240&idx=4&sn=93c38cfa06e9c44331982ca3a8278c5b&scene=0#wechat_redirect

图片 3

wx:
网页版
2017-10-16 21:40

会议活动
视觉 算法 应用
Dave Gershgorn
Ian Goodfellow 广告系统 会议

刘小芹 神经网络

「Ian Goodfellow推荐:GAN生成模特照片媲美真人」 【AI WORLD
2017世界人工智能大会倒计时 23 天】
抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026
大会官网:http://www.aiworld2017.com 新智元编译 来源:qz.com作者:Dave
Gershgorn 编译:刘小芹 【新智元导读】 在线时尚科技公司 Vue.ai
开发了一种或将取代模特的自动生成试装照片的系统,该系统使用GAN技术,可以控制所需模特照片的体型、肤色、身高、鞋子等等,不仅是模特,摄影师和工作室都可以不需要了,对于电商和零售业来说是好消息。
令人向往的模特工作或许也会被自动化取代。 在线时尚科技创业公司 Vue.ai
正在销售一种技术,它可以分析服装,并自动生成人穿着这套服装的图像,无论这个人是什么身高、体型或穿着任何类型的鞋子。该公司目前正在与零售商商谈,以取代时装零售商在每一款新服装款式出现时都需要为模特连续拍摄照片的形式。
不再需要雇佣专业摄影师、模特和工作室,零售商只需要拍摄一张简单的服装平铺的照片就可以了。AI能够生成一个人形,然后预测服装如何适合这个人。由于没有真实的模特,AI可以产生任何类型的体型或皮肤类型。虽然这不会取代高端时尚摄影或艺术封面拍摄,但在白色背景下拍摄无头模特的日子将很快结束。
图中只有2张照片是真实拍摄的模特照,其余是GAN生成的(答案在文末)
该技术由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert
开发,使用了生成对抗网络(GAN)的机器学习方法。这个系统由两个AI组成:一个生成器(generative)和一个评论家(critic),生成器试图生成一张看起来很好的图像,而批评家则决定这张图像是否看起来足够好。GAN是一个相对较新的概念,由
Ian Goodfellow 于2014年提出,在生成图像方面表现特别好。 Vue.ai
的创新使GAN能够指定如何生成每个图像。神经网络是GAN的技术基础,它模拟我们大脑运作的方式:数以百万计的微小的、分散的神经元处理数据并将它们传递给下一个神经元。通过将一个图像分解成数百万个不同抽象层次的图像,每个神经元都能学到一小部分关于它要处理的数据的信息:我们将看到的是肘部、臀部的形状或颜色。这些神经网络接受了数千幅图像的训练,神经元学会分辨不同种类的肘部、臀部和不同的颜色。
但是,这些信号的传输所需要的数以百万计的小小神经元,意味着这个网络比它的创造者所理解的要复杂得多。举个例子,软件程序员写代码并不需要知道计算机处理器是如何工作的。
Vue.ai目前正与北美的零售商合作实施这项技术。Vue.ai没有公开它正在与哪些公司合作,但有可能你已经在某处看到过它生成的AI创作。
(答案:图中只有两张真实拍摄的模特照,分别是上排第3张,下排第4张)原文:https://qz.com/1090267/artificial-intelligence-can-now-show-you-how-those-pants-will-fit/
【AI WORLD 2017世界人工智能大会倒计时
23天】点击图片查看嘉宾与日程。大会门票销售火热,抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026【扫一扫或点击阅读原文抢购大会门票】AI
WORLD 2017 世界人工智能大会购票二维码: via:
http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652006288&idx=5&sn=dac0bd84d3952219f2aee272334a256e&scene=0#wechat_redirect

图片 4

图片 5
机器之心Synced
网页版
2017-10-16 18:30

深度学习
统计

【提升DNN参数准确度:MILA提出贝叶斯超网络】近日,来自蒙特利尔
MILA、Element AI
和麦吉尔大学等机构的学者共同提出了「贝叶斯超网络」,使用新方法提升了 DNN
参数的准确性。http://t.cn/ROnzCSP

图片 5
机器之心Synced
网页版
2017-10-16 17:57

会议活动

自然语言处理 CCL

会议 活动
语言学

【CCL 2017最佳论文公布,看全国计算语言学前沿研究】10 月 14 日、15
日,由中国中文信息学会(CIPS)举办的第十六届全国计算语言学会议(CCL
2017)暨第五届自然标注大数据的自然语言处理国际学术研讨会(NLP -NABD
2017)于江苏南京召开。http://t.cn/ROEFhJZ

在这个栏目里,你会快速 get
每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

(
注:文中的链接请点击网址:http://yerevann.com/a-guide-to-deep-learning/
)

最新动态

这是 PaperDaily 的第 99篇文章

图片 7

2017-10-16 (17)

图片 5
机器之心Synced
网页版
2017-10-16 18:17

【机器学习新手工程师常犯的6大错误】很多时候,如何找到合理的假设并不容易。机器学习初学者经常会犯一些事后觉得蠢爆了的错误。本文作者创建了一个机器学习新手工程师常犯的错误清单。希望大家可以从中学习,创建更鲁棒的解决方案。http://t.cn/ROnhLRF

图片 9
中科院之声
网页版
2017-10-16 16:30

经验总结
博客
彭思龙

最近人工智能很火爆,不光是投资界火爆,国家也提出了未来人工智能发展战略和规划。中科院自动化所研究员彭思龙认为人工智能未来的一个很重要研究方向是如何提高人类的教育水平。http://t.cn/RpkkB5Y

图片 10
PaperWeekly
网页版
2017-10-16 15:52

知识工程
知识库
周张泉

【基于知识图谱的推理技术】 本次 Guru
Talk,东南大学计算机学院在读博士周张泉将以接地气的方式带大家重拾推理技术。在知识图谱的语境下,我们一起看看推理技术在当下扮演着怎样的角色。
报名地址:http://t.cn/ROEaIgK

图片 11

图片 12
IT技术头条
网页版
2017-10-16 15:46

经验总结

自然语言处理 博客
机器翻译

【机器翻译评测——一种检测批量译文是否参考机器翻译的方法】1◆版权声明:本文出自胖喵~的博客,转载必须注明出处。
转载请注明出处:http://t.cn/ROE6R6O 首先解释一下几个名词,由于… 详戳→
http://t.cn/ROE6R6O 作者→ (胖喵~) ​

图片 13
蚁工厂
网页版
2017-10-16 15:26

深度学习
算法 资源 Kaggle KNN 聚类 课程 强化学习

来自 Udacity x Kaggle #机器学习#在线课程的精彩内容,3分钟明白什么是
K-means 聚类算法。
这门“机器学习”纳米学位项目将带你从零开始,全面掌握机器学习领域的监督式学习、非监督式学习、强化学习和深度学习。
↓真实内容抢先看↓戳这里了解更多>>http://t.cn/ROEAc4T
http://t.cn/ROEf6M2

图片 14
南京轻搜
网页版
2017-10-16 12:40

深度学习
算法 神经网络

【新研究称机器或能通过照片判断性取向】斯坦福大学据某约会网站开展的一项新研究总结称,面部携带信息可透露你的性取向。该研究指出,深度神经网络根据男性和女性照片判断性取向的准确率分别可达91%和83%。而人类判断的准确率则低得多,少了20个百分点。此刻你的心情是……
http://t.cn/RqQCBk2 …全文:
http://m.weibo.cn/5897818869/4163456397765662

图片 15
爱可可-爱生活
网页版
2017-10-16 12:26

Jennifer
Victoria Scurrell 统计

【用统计学习方法在instagram鉴别假粉丝】《Identifying a Large Number of
Fake Followers on Instagram》by Jennifer Victoria Scurrell
http://t.cn/RO9prMY GitHub: https ://github
.com/srfdata/2017-10-instagram-influencers ​

图片 16

图片 17
技术头条
网页版
2017-10-16 12:10

算法 应用 推荐系统

【衰减方程(函数)小结 Decay Function Review
:推荐算法、排序算法。如果原始数据是一堆时间序列数据(如每天销售数据)。进行计算时,常见的想法是给近期的指标更大的权重(理由:客户近期购买的产品更能反映当前客户的偏…
详见:http://t.cn/RORIUos 分享自@shengting ​

图片 18
新浪科技
网页版
2017-10-16 11:50

深度学习
算法 神经网络 新闻

【新研究称机器或能通过照片判断性取向】斯坦福大学据某约会网站开展的一项新研究总结称,面部携带信息可透露你的性取向。该研究指出,深度神经网络根据男性和女性照片判断性取向的准确率分别可达91%和83%。而人类判断的准确率则低得多,少了20个百分点。此刻你的心情是……[吃瓜]http://t.cn/RO8iFkC

图片 19
网路冷眼
网页版
2017-10-16 06:15

算法 回归 集成学习

【Logistic Regression by Discretizing Continuous Variables via Gradient
Boosting】http://t.cn/RO85Znf 通过梯度增强离散化连续变量的逻辑回归。

图片 20

图片 15
爱可可-爱生活
网页版
2017-10-16 05:57

自然语言处理

Jason Brownlee 情感分析

【面向情感分析的电影评论语料预处理】《How to Prepare Movie Review Data
for Sentiment Analysis | Machine Learning Mastery》by Jason Brownlee
http://t.cn/RO8qMoa

图片 22

图片 15
爱可可-爱生活
网页版
2017-10-16 05:39

矩阵 论文

《Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE,
PTE, and node2vec》J Qiu, Y Dong, H Ma, J Li, K Wang, J Tang [Tsinghua
University & Microso‰ft Research] (2017) http://t.cn/RO8GRIc

图片 24

图片 15
爱可可-爱生活
网页版
2017-10-16 05:38

视觉
Tu Grazaustrian Institute 论文

《Semantic 3D Reconstruction with Finite Element Bases》A Richard, C
Vogel, M Blaha, T Pock, K Schindler [ETH Zurich & Institute of Computer
Graphics & Vision & TU GrazAustrian Institute of Technology] (2017)
http://t.cn/RO8GTBu

图片 26

图片 15
爱可可-爱生活
网页版
2017-10-16 05:18

算法 论文 神经网络

《A Unified Neural Network Approach for Estimating Travel Time and
Distance for a Taxi Trip》I Jindal, T (Zhiwei)Qin, X Chen, M Nokleby, J
Ye [Wayne State University & DiDi Research] (2017)
http://t.cn/RO8GARg

图片 28

图片 15
爱可可-爱生活
网页版
2017-10-16 05:16

应用 论文 信息检索

《Learning to Rank Question-Answer Pairs using Hierarchical Recurrent
Encoder with Latent Topic Clustering》S Yoon, J Shin, K Jung [Seoul
National University] (2017) http://t.cn/RO8GzFG

图片 30

图片 15
爱可可-爱生活
网页版
2017-10-16 05:05

深度学习
算法 论文 神经网络

《Keynote: Small Neural Nets Are Beautiful: Enabling Embedded Systems
with Small Deep-Neural-Network Architectures》F Iandola, K Keutzer
[DeepScale & UC Berkeley] (2017) http://t.cn/RO8bnWu

图片 32

图片 15
爱可可-爱生活
网页版
2017-10-16 05:03

算法 论文 神经网络

《Stacked Structure Learning for Lifted Relational Neural Networks》G
Sourek, M Svatos, F Zelezny, S Schockaert, O Kuzelka [CTU in Prague]
(2017) http://t.cn/RO8b8K3

图片 34

QuAC : Question Answering in
Context

你必须有大学数学知识。你可以在深度学习这本书的前几章中回顾这些概念:

@guohao916 推荐

  • 深度学习,第 2 章:线性代数
  • 深度学习,第 3 章:概率与信息论
  • 深度学习,第 4 章:数值计算

#Machine Reading Comprehension

你必须知道编程知识以便开发和测试深度学习模型。我们建议使用 Python
进行机器学习。这里需要用到科学计算的 NumPy / SciPy 库。

本文提出了一个基于上下文的机器阅读理解数据集
QuAC,该数据集存在两类人群:Student 和 Teacher。
Student 依次提出一系列自由式的问题,而 Teacher
进行回答,该回答是基于文章内部的片段产生的。不同于以往的机器阅读理解数据集,该数据集存在以下特点:

  • 斯坦福 CS231n 课程,Justin Johnson 的 Python / NumPy / SciPy /
    Matplotlib 教程 ★
  • Scipy 讲义——更详细地描述了常用库,并介绍更多高级主题 ★★

1.
问题是开放式的,也就是说问题的答案不一定存在于文章的片段中。因此 Student
在提问前不知道是否能够被回答;

当你满足了这些预备条件时,我们有四个备选建议用来学习深度学习。你可以选择下列选项中的任何一个或几个。星星数量表示困难程度。

  1. Teacher
    的回答必需基于文章内部的片段,不存在自由片段(游离于文章内容的片段);

图片 35

3.
对话终止的条件包括:从开始对话到现在,(a). 已经有 12
个问题被回答了;(b). Student 和 Teacher 中的某一位主动提出结束对话;(c).
有两个问题不能够被回答。

  • Hugo Larochelle 在 YouTube 上的课程视频(Hugo Larochelle’s video
    course)。虽然视频是在 2013
    年录制的,但大部分内容仍然很新。视频详细地解释了神经网络背后的数学知识。附带幻灯片和相关材料。★★
  • 斯坦福 CS231n 课程(卷积神经网络的视觉识别/ Convolutional Neural
    Networks for Visual Recognition)由李飞飞、Andrej Karpathy 和 Justin
    Johnson
    教课。本课程侧重于图像处理,但涵盖了深度学习中的大多数重要概念。附带视频和讲义。★★
  • Michael Nielsen 的网络书籍《神经网络和深度学习》(Neural Networks
    and Deep
    Learning)是研究神经网络的最容易入门的书籍。它没有涵盖所有重要的主题,但包含直观解释和基本概念的代码实现。★
  • Ian Goodfellow、Yoshua Bengio 和 Aaron Courville
    的书《深度学习》(Deep
    Learning),是研究深度学习最全面的资源。它比所有其它课程涵盖了更多的内容。★★★

论文采用了 Pretrained
InferSent,Feature-rich logistic regression,BiDAF++ 以及 BiDAF++ w/
x-ctx 作为基准算法,选用 HEQQ,HEQD 和 F1
等作为效果度量指标,进行了一系列实验。实验结果表明,目前的基准算法得到的最好结果,相较于人工判断的效果还存在很大提升空间。

有许多软件框架为机器学习和深度学习提供了必要的函数、类和模块。我们建议在研究的早期阶段不要使用这些框架,而是从头开始实现基本算法。并且大多数课程都能足够详细地描述算法背后的数学,因而这些算法可以很容易从头实现。

图片 36

  • Jupyter notebook 软件可以方便地交互编译 Python
    代码。软件能很好地与流行的可视化库 matplotlib
    集成。我们建议在这样的环境中实现算法。★

图片 37

机器学习是基于数据训练计算机的一门艺术和科学。它是计算机科学和数学交叉的相对确定的领域,而深度学习只是它的一个很小的子领域。机器学习的概念和工具对于理解深度学习非常重要。

图片 38

图片 39

图片 40

  • 视觉化介绍机器学习(Visual introduction to machine
    learning)——决策树 ★
  • Coursera 上最受欢迎的课程,Andrew Ng 的机器学习课程(Andrew Ng’s
    course on machine learning)★★
  • Larochelle
    的课程,没有单独的通用机器学习的介绍性讲座,但是定义和解释了所有必要的概念。

论文模型:点击查看大图

1.训练和测试模型(K
最近邻/kNN)★★2.线性分类(支持向量机/SVM)★★3.优化(随机梯度下降/
stochastic gradient descent)★★5.机器学习基础 ★★★

论文链接

  • 可视化的主成分分析讲解 ★
  • 如何有效地用 t-SNE 算法 ★★

https://www.paperweekly.site/papers/2255

大多数流行的机器学习算法都是在 Python 库 Scikit-learn
中实现的。从头开始实现这些算法助于理解机器学习的原理。

数据集链接

  • Python 的实用机器学习教程(Practical Machine Learning Tutorial with
    Python),包含了线性回归、kNN 和支持向量机。首先介绍了如何从
    scikit-learn 调用算法,然后从头实现算法。★
  • Coursera 上 Andrew Ng 的课程的许多作业使用 Octave 语言。也可以在
    Python 中实现这些算法。★★

http://quac.ai/

神经网络是强大的机器学习算法。它们构成了深度学习的基础。

Densely Connected CNN with Multi-scale
Feature Attention for Text Classification

图片 41

@wangshy 推荐

  • 一个交互可视化的教程,介绍了神经网络的基础——显示简单的神经网络如何做线性回归

#Text Classification

1.前馈神经网络(feedforward neural
network)★★2.训练神经网络★★4.反向传播(backpropagation)★★5.神经网络的架构
★★

本文是清华大学发表于 IJCAI 2018
的工作。针对文本分类任务中卷积神经网络通常无法灵活学习可变 n
元特征(n-gram)的问题,论文提出了一种具有适应式注意力机制的密集连接的卷积神经网络。
该模型通过建立底层特征和高层特征之间的跨层连接,从而获得了丰富的多尺度特征,而注意力模型能够自适应地选择合适尺度的特征以适用于各种不同的文本分类问题。该法面向六个公开数据集均实现了超过基线的预测精度。

1.使用神经网络来识别手写数字 ★2.反向传播算法的原理
★4.神经网络以计算任何函数的可视化证明 ★6.深度前馈网络 ★★★

图片 42

  • 理解为什么从头开始实现反向传播算法很重要 ★★
  • 计算图(computational graph)中的微积分:反向传播 ★★
  • 玩转神经网络!★

图片 43

尝试从头实现单层神经网络,包括训练过程。

图片 44

  • 只用 Python / NumPy 实现 softmax 分类器以及一个简单的神经网络——用
    Jupyter notebook ★
  • Andrej Karpathy 的神经网络黑客教程讲述了如何在 Javascript
    中实现反向传播。★
  • 在 Python 中从头开始实现一个神经网络 ★

图片 45

训练神经网络并不容易。有时根本不能学习(欠拟合/
underfitting),而有时能准确地学习你给算法的数据,但是算法学到的「知识」不能泛化到新的、没见过的数据(过拟合/
overfitting)。有许多方法来解决这些问题。

图片 46

图片 47

论文模型:点击查看大图

  • 2.8-2.11. 正则化(regularization),初始化参数(parameter
    initialization)等 ★★
  • 7.5. Dropout 方法 ★★
    1. 设置数据和损失函数★★
  • 3.改进神经网络学习的方式 ★
  • 5.为什么深度神经网络难以训练?★
  • 7.深度学习的正规化 ★★★
  • 8.优化训练的深度模型 ★★★
  • 11.实用方法 ★★★
  • MNIST 上的 ConvNetJS Trainer 演示——不同的优化算法性能的可视化 ★
  • 梯度下降优化算法的概述 ★★★
  • 神经网络、流形和拓扑★★★

论文链接

有许多框架提供标准算法,并针对现代硬件的良好性能进行了优化。这些框架中的大多数提供
Python 接口,除了著名的 Torch
是个例外。一旦你知道如何实现基本的学习算法,现在是选择一个建模框架的时候了。

https://www.paperweekly.site/papers/2240

图片 48

源码链接

  • Theano 提供用于构建各种神经网络的低层级原生库(low-level
    primitives)。它由蒙特利尔大学(University of
    Montreal)的机器学习团队维护。参见:用 Theano 和 GPU
    加速你的神经网络——用 Jupyter notebook ★
  • TensorFlow 是另一个低层级框架。它的架构类似于
    Theano。它由谷歌大脑团队维护。
  • Torch 是使用 Lua 语言的流行框架。主要的缺点是 Lua 的社区不像 Python
    的那么大。Torch 主要由 Facebook 和 Twitter 维护。
  • 还有更高层级的框架,它们运行在这些低层级框架之上:
  • Lasagna 是一个建立在 Theano
    之上的更高级框架。它提供了简单的函数,从而可以用少量代码创建大型网络。
  • Keras 是一个更高级框架,建立在 Theano 或 TensorFlow 之上。
  • 如果你需要更多关于选择框架的建议,请参见斯坦福大学 CS231n 课程的第
    12 讲。★★

https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention

卷积神经网络是一种特殊的神经网络,它使用了一些妙技来更快、更好地学习。ConvNets
从根本上变革了计算机视觉,并且也被大量应用于语音识别和文本分类任务中。

On the Decision Boundary of Deep Neural
Networks

图片 49

@lykaust15 推荐

  • 9.计算机视觉★★
  • 6.ConvNets 介绍 ★★
  • 7.卷积神经网络 ★★
  • 8.定位与检测 ★★
  • 9.Visualization、 Deep Dream、Neural Style、对抗样本(adversarial
    examples)★★
  • 13.图像分割包括 upconvolutions ★★
  • 6.深度学习 ★
  • 9.卷积网络 ★★★
  • 图像核函数(Image Kernel)的视觉阐述——展示卷积过滤器(Convolutional
    Filters,也称为图像核函数)如何转换图像 ★
  • Conv Nets:以模块化的视角 ★★
  • 理解卷积 ★★★
  • 理解自然语言处理中的卷积神经网络 ★★

#Deep Neural Networks

每一个重要框架都应用了卷积网络。通常理解用更高级库编写出来的代码更容易。

近年来,深度学习在各个领域以及工业界都取得了令人瞩目的成功。但是人们一直无法解释为什么深度学习在分类上的
performance
会比传统的方法要好那么多。尤其是,人们无法解释为什么模型复杂度那么高的神经网络没有灾难性的
overfitting 问题
(确实存在 overfitting
问题,但是没有严重到过于影响到模型的performance)。

图片 50

这是一个非常值得研究的问题。它能够帮助我们更进一步理解深度学习从而进一步提升深度学习的
performance。同时,它也有可能帮助我们解决一些实际的问题,比如
adversarial attacking,catastrophic forgetting。

  • Theano:卷积神经网络★★
  • 使用 Lasagne 来训练深度神经网络 ★
  • 检测糖尿病视网膜病变——出自 Kaggle
    糖尿病视网膜病变检测竞赛最佳选手的一篇博文。包含一个绝佳的数据增强案例。★★
  • 使用深度学习进行的露脊鲸面部识别——作者在定位和分类过程中使用了不同的
    ConvNets。内附代码及模型。★★
  • TensorFlow:在 CIFAR-10 数据集上进行图像识别的卷积神经网络 ★★
  • 在 TensorFlow 中使用一个卷积神经网络进行文本分类 ★★
  • 深度学习在 TensorFlow 中的实施 ★★★
  • Torch 中的 CIFAR-10 准确性为 92.45%——在 Torch
    中实现带有批量归一化层(batch normalization layers)的 VGG-Net 网络
  • 残差网络(Residual
    Net)的训练与考察——残差网络在图像分类方面表现不错。来自 Facebook 和
    CornellTech 的两位研究人员在 Torch 中采用了这种网络 ★★★
  • ConvNets
    实践——使用卷积网络方面的许多实用技巧包括:数据增强、迁移学习、卷积运算的快速实现
    ★★

在前人的工作基础上,本文从理论和实验上证明了深度学习和
SVM 的内在联系
。如果训练数据的 cross entropy loss 趋向于 0,那么使用
SGD 训练深度学习会使神经网络的最后一层的参数的方向趋向于 SVM solution
的方向。

循环神经网络是与序列一起使用的。通常用于语句分类和语音识别,但也用于文本生成,甚至图像生成。

也就是说,如果将深度神经网络划分成两个部分,最后一层和除了最后一层的所有层。我们可以将除了最后一层的所有层当做一个
mapping function,这个 mapping function 将原始的输入映射到一个 hidden
representation 上。而网络的最后一层实际上是一个 linear
classifier。如果使用 hidden representation 和原始的 label 训练一个
SVM,我们会发现 SGD 会使神经网络的最后一层的参数的方向 converge 到这个
SVM solution 的方向上。

图片 51

本文还用大量的实验证明神经网络最后一层
classifier 的 bias 也非常接近 SVM 的 bias。本文显示 margin theory
有可能解释深度学习的 generalization property。

  • 循环神经网络的合理有效性——描述了 RNN 如何生成文本、数学论文和 C++
    代码 ★

  • Hugo Larochelle
    的课程并不涉及循环神经网络(即使它涵盖了循环神经网络应用方面的许多话题)。我们推荐你补上
    Nando de Freitas 的《Recurrent Neural Nets and LSTMs》课程 ★★

  • 10.循环神经网络、图像字幕、LSTM ★★

  • 13.Soft Attention★★

  • Michael Nielsen
    的书最后一节是卷积网络。深度神经网络的其他方法(Other approaches to
    deep neural nets)一节只是简要回顾了简单循环网络和 LSTM。★

  • 10.序列建模(Sequence Modeling):循环和递归网络(Recurrent and
    Recursive Nets)★★★

  • 斯坦福大学 Richard Socher 教授的 CS224d《循环神经网络(Recurrent
    Neural Networks)》课程★★

  • 了解 LSTM 网络 ★★

和前人的工作不同,本文没有对神经网络进行任何的简化,研究的模型就是平时常用的模型,比如
resnet,densenet。本文的结论非常具有实用性。

循环神经网络也被用在了每一个现代框架中。

图片 52

图片 53

图片 54

  • Theano:有单词嵌入的循环神经网络 ★★★
  • Theano:用于情感分析的 LSTM 网络★★★
  • 使用 Python、NumPy 和 Theano 实现循环神经网络 ★★
  • karpathy 的 char-rnn 代码的 Lasagne 实现 ★
  • 在 Lasagne 中结合卷积神经网络和循环神经网络用于口语识别 ★
  • 在 Lasagne 中采用 LSTM 网络进行自动音译 ★
  • Tensorflow:用于自然语言建模的循环神经网络 ★★
  • Tensorflow 中的循环神经网络 ★★
  • 理解并实现 Deepmind 的 DRAW 模型 ★★★
  • LSTM 的实现说明 ★★
  • karpathy 的 char-rnn 代码的 Torch 实现 ★★★

图片 55

自编码器是为无监督学习(例如数据未标记的情况)而设计的神经网络。可用它进行降维、预训练其他神经网络及数据生成等。以下资源还包括自编码器与图形模型的有趣混合体,称为变分自编码器(variational
autoencoders),不过其数学基础是下一节的内容。

图片 56

图片 57

图片 58

  • 6.自编码器(Autoencoder)★★
  • 7.6.深度自编码器(Deep Autoencoder)★★
  • 14.视频与无监督学习——此视频还涉及一个令人兴奋的话题:生成对抗网络(Generative
    Adversarial Networks/GAN)。★★
  • 14.自编码器(Autoencoders)★★★
  • ConvNetJS 去噪自编码器演示 ★
  • 变分自编码器与图像生成中的 Karol Gregor ★★
  • 大多数的自编码器都很容易实现。我们建议你浏览完整案例前自己先试着实现一下。

论文模型:点击查看大图

图片 59

论文链接

  • Theano:去噪自编码器 ★★
  • 使用堆栈式自编码器(stacked autoencoders)深入研究 Tensorflow ★★
  • Tensorflow 中的变分自编码器 ★★
  • 在 ImageNet 上使用 Torch 7 训练自编码器 ★★
  • 在 Keras 中构建自编码器 ★

https://www.paperweekly.site/papers/2252

概率图模型在统计学与机器学习的交叉领域形成一个独立的分支。一般说来关于
PGM
的书籍和课程有很多。这里我们提出的是:在深度学习中如何应用这些模型。Hugo
Larochelle 的课程介绍了几个著名的模型,而《Deep
Learning》一书则用了四章来阐述该理论,并在最后一章介绍了十几种模型。这些课题都需要大量的数学知识。

源码链接

图片 60

https://github.com/lykaust15/NN\_decision\_boundary

  • 3.条件随机场(Conditional Random Fields/CRF)★★★
  • 4.训练条件随机场 ★★★
  • 5.受限玻尔兹曼机(Restricted Boltzmann Machine/RBM)★★★
  • 7.7-7.9.深度信念网络(Deep Belief Network/DBN)★★★
  • 9.10.卷积受限玻尔兹曼机 ★★★
  • 13.金融线性模型(Linear Factor Models)——概率模型的第一步 ★★★
  • 16.深度学习的结构化概率模型 ★★★
  • 17.蒙特卡洛(Monte Carlo)方法 ★★★
  • 18.对抗配分函数(Confronting the Partition Function)★★★
  • 19.近似推断(Approximate Inference)★★★
  • 20.深度生成模型(Deep Generative Models)——包括玻尔兹曼机(RBM、DBN
    等)、变分自编码器(variational
    autoencoders)、生成对抗网络、自回归模型(Autoregressive Models)等
    ★★★
  • 生成模型——变分自编码器、生成对抗网络及其 OpenAI
    改进方面的一篇博文。★★★
  • 神经网络园(The Neural Network
    Zoo)试图使用一个单一方案组织大量架构。★★

Next Item Recommendation with
Self-Attention

更高层次的框架(Lasagne、Keras)不执行图形模型。但有很多为
Theano、Tensorflow 和 Torch 而编写的代码。

@daven88 推荐

图片 61

#Recommender System

  • Theano 中的受限玻尔兹曼机 ★★★
  • Theano 中的深度信念网络 ★★★
  • 由特征向量生成大图像——结合运用变分自编码器(variational
    autoencoders)与生成对抗网络。★★★
  • 在 TensorFlow
    中使用深度学习进行图像修复——生成对抗网络的另一个应用。★★★
  • 使用 Torch 的面部生成——生成对抗网络的 Torch 实现 ★★

本文提出了一种基于 self-attention
的基于序列的推荐算法
,该算法是用
self-attention
从用户的交互记录中自己的去学习用的近期的兴趣,同时该模型也保留了用户的长久的兴趣。整个网络是在 metric learning
的框架下,是第一次将 self-attention 和 metric
learning的结合的尝试。

深度学习是一个非常活跃的科学研究领域。要想跟上顶尖的科研进程,就必须阅读新的论文并跟上重要的会议。通常每个新思想都是在
arXiv.org
的预印本论文上发表。然后其中一些提交给会议并进行同行评议。最好的那些会在会议上被提出并发表在期刊上。如果该作者不发布其模型的代码,许多人会试图实现它们并将其放在
GitHub 上。这得需要 1、2
年的时间,合理解释其思想和实现过程的高品质技术博客、教程和视频才会出现在网络上。

实验结果表明,通过
self-attention,模型可以很好的学习用户的短期兴趣爱好,
并且能有效的提升模型效果。通过和近期的文章得对比发现,该方法可以在很大程度上改善序列化推荐的效果。

图片 62

图片 63

  • 深度学习论文阅读路线图包含一长串的重要文件。
  • Arxiv Sanity Preserver 的用户界面在 arXiv 上浏览论文的效果不错。
  • Videolectures.net 包含许多高级课题相关的视频。
  • /r/MachineLearning 是一个非常活跃的 Reddit
    板块。所有新的重要论文都会在那里进行讨论。

图片 64

(
注:文中的链接请点击网址:http://yerevann.com/a-guide-to-deep-learning/
)

图片 65

图片 66

图片 67

图片 68

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2246

A Reinforced Topic-Aware Convolutional
Sequence-to-Sequence Model for Abstractive Text Summarization

@yangdali 推荐

#Abstractive Summarization

本文是腾讯发表于 IJCAI 2018
的工作,文章提出了一种基于卷积神经网络的总结式文本摘要生成方法,并结合主题模型的注意力机制,利用强化学习方法进行优化,在
DUC、Gigaword 和 LCSTS 数据集上达到 state of the art。

图片 69

图片 70

图片 71

图片 72

图片 73

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2234

Fake Sentence Detection as a Training
Task for Sentence Encoding

@lunar 推荐

#Sentence Embeding

本文给出了一个新颖的看法,即一些垃圾数据对训练也可以是有用的。作者人为制造出很多假数据(通过随机从文本中丢失一些词和打乱一些词的顺序),训练出一个二分类网络用于判别真假文本,这种方式训练出的模型在很多任务上有更好的表现。有点像
CV 界数据增强的逆向玩法。

图片 74

图片 75

图片 76

图片 77

图片 78

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2229

Dropout is a special case of the
stochastic delta rule: faster and more accurate deep
learning

@chlr1995 推荐

#Bayesian Deep Learning

本文从数学角度尝试解释 Dropout
的作用,深入探究 dropout
的本质。论文提出了一种从权重层面引入噪声的方法。
实验结果显示,这种方法不仅可以提高网络的最终收敛结果,也可以加速收敛。

图片 79

图片 80

图片 81

图片 82

图片 83

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2212

源码链接

https://github.com/noahfl/densenet-sdr

Backprop Evolution

@lunar 推荐

#Genetic Algorithms

本文是 Google Brain 发表于 ICML 2018
的工作,作者希望能够找到一种能够替代反向传播的方法。因此,他们设计了一种
domain-specific language (DSL)
来函数式描述数学公式(例如反向传播),然后利用演化算法来发现新的传播算法,旨在找到泛化性能比
BP 更好的算法
。最终通过实验,他们找到的算法能够在训练前期收敛得更快,但是收敛时并没有表现得更好。

BP
算法虽然取得了很大的成就,但是近年学界前沿也指出它的一些局限性,本文给这方面的研究探出了一小步。

图片 84

图片 85

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2211

Multi-Turn Response Selection for
Chatbots with Deep Attention Matching Network

@Qfengly 推荐

#Dialog System

本文是百度发表于 ACL 2018
的工作,论文将 attention 应用于多轮对话,打破之前的 RNN 和 CNN
结构,在多轮上速度快,达到了目前最好效果
。其次,本文使用
self-attention 和 cross-attention 来提取 response 和 context
的特征。

图片 86

图片 87

图片 88

图片 89

图片 90

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2250

NASH: Toward End-to-End Neural
Architecture for Generative Semantic Hashing

@EricShen 推荐

#Recommender Systems

本文在 ACL 2018 上获得了 Best Paper
Honourable Mention Award
。现有的句子表示大多都是基于连续的
vector(skip-thought vector 等),而本文考虑用离散的 binary vector
来表示句子(文档),并首次提出用端到端的 Variational Autoencoder 来学习
binary 的句子表示
。基于这些
binary 的向量,两个文档的相似度就可以通过他们 representations 之间的
hamming distance(即有多少 bit 不同)来进行判断。

相较于连续的vector 上的 inner product
操作,这种策略有更快的计算速度(这种方法被称为 semantic
hashing)。同时,离散的向量在 storage
上也比连续的向量更加节省空间。

在 information retrieval 的几个 benchmark
数据集上,本文的模型相对于以前的 semantic hashing
方法在搜索准确率上实现了明显的提升。

图片 91

图片 92

图片 93

图片 94

图片 95

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2225

Geometric Understanding of Deep
Learning

@pxwluffy 推荐

#Deep Learning

本文从几何的角度理解深度学习,为深度学习提供严密的数学论证。深度学习目前还停留在实验科学的阶段,其严格的数学解释还未完全建立。

图片 96

图片 97

图片 98

图片 99

图片 100

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2216

A Multi-task Learning Approach for
Improving Product Title Compression with User Search Log
Data

@aforever 推荐

#Multi-task Learning

本文是阿里发表于 AAAI 2018
的工作,论文利用用户搜索日志进行多任务学习以压缩商品标题,生成的商品短标题在离线自动评测、人工评测以及在线评测中均超过传统抽取式摘要方法。端到端的训练方式避免了传统方法的大量人工预处理以及特征工程。多任务学习中的
Attention
分布一致性设置使得最终生成的商品短标题中能透出原始标题中重要的词,尤其是能引导成交的核心词,对于其他电商场景也有重要意义。

图片 101

图片 102

图片 103

图片 104

论文模型:点击查看大图

论文链接

https://www.paperweekly.site/papers/2253

#**文 末 福 利#**

以下是简单粗暴送书环节

图片 105

PaperWeekly × 图灵教育**

《Python深度学习》

<5本>

图片 106

热门畅销√大神执笔√入门必备√

作者:François Chollet

译者:张亮

30多个代码示例,带你全面掌握如何用深度学习解决实际问题

Keras框架速成的明智之选

夯实深度学习基础,在实践中培养对深度神经网络的良好直觉

无须机器学习经验和高等数学背景

由 Keras 之父、Google 人工智能研究员
François Chollet 执笔,美亚 4.6 星评,16
开全彩印刷,通俗易懂,帮助读者建立关于机器学习和深度学习核心思想的直觉。书中用
30 多个代码示例,步骤讲解详细透彻,介绍了用 Python 和 Keras
进行深度学习的探索实践,包括计算机视觉、自然语言处理、产生式模型等应用。

参与方式

请在文末留言分享

对于各位初级炼丹师而言,

应该如何选择适合自己的深度学习框架?

小编将随机抽取5位同学

送出图灵教育新书

截止时间:8月31日(周五)20:00

关于PaperWeekly返回搜狐,查看更多

责任编辑:

相关文章