云开体育全站app我向 Yoshua 暗示我舒畅从事任何责任-云yun开·体育全站app(kaiyun)(中国)官方网站 登录入口
大模子的中枢组件安宁力机制,究竟怎样出身的?
可能也曾有东谈主知谈,它并非2017 年 Transformer 开山论文《Attention is all you need》草创,而是来自 2014 年 Bengio 执行室的另一篇论文。
目下,这项预计背后更多细节被公开了!来自 Karpathy 与的确作家两年前的邮件交往,引起了许多商讨。
到目下已有整 10 年历史。
一作 Dzmitry Bahdanau,其时是 Bengio 执行室的一位实习生,在实习只剩 5 周时灵光一现提议了一个简化决策,相称于扫尾了对角安宁力。
Pytorch 等经典代码中,恰是把安宁力称为 Bahdanau Attention,还保留着他孝顺的印迹。
Karpathy 之是以目下拿起这段旧事,是因为最近社区中流传着一些扭曲,认为 Transformer 作家受到科幻电影《莅临》中外星东谈主交流式样的启发。
的确 2014 年 Attention 机制的灵感,其实来自东谈主类翻译笔墨流程中往还看材料的行径。
除了理会这少许以外,这段的确故事中还有更多亮点,对今天的预计仍有许多启发。
2014 年的 Attention,与同期Alex Graves 论文 Neural Turing Machines,和Jason Weston 论文 Memory Networks有访佛之处,但这些预计起点和动机不同。
发挥在技能积贮的临界点上,不同预计者常会独当场提议相似的革命。
蓝本的名字" RNNSearch "不够直不雅,自后在 Yoshua Bengio 的建议下改为"安宁力",更能收拢中枢办法。
原来起个好名字,的确不错栽种技能的传播和影响力。
有网友看过这个故事之后,热爱这封邮件"应该放在计较机科学博物馆"。
给这些蜕变寰宇的发现简直老是从执行初始的,何况莫得东谈主的确提前知谈它们的结局。
以下为 Dzmitry Bahdanau 发给 Karpathy 的原始邮件全文翻译,邮件写于 2022 年。
10 年前,Attention 的确的出身
嗨,Andrej。
很容许为您陈说 8 年前发生的故事!
我在 Jakobs University(德国雅各布大学)奴隶 Herbert Jaeger 完成了硕士一年齿的学业后,来到 Yoshua(图灵奖得主 Yoshua Bengio)的执行室实习。
我向 Yoshua 暗示我舒畅从事任何责任,他便让我参与机器翻译神志,与 Kyunghyun Cho 及团队伸开市欢。
我对将一系列单词塞进向量的想法终点怀疑,但我也的确很想要一个博士学位的 offer,是以我卷起袖子,初始作念我擅长的事情——编写代码、缔造 Bug 等等。
在某个期间,我对团队正在进行的责任有了饱和的了解,Yoshua 邀请我攻读博士学位。2014 年是个好期间,只需这些责任就足以让我读博了——好意思好的旧时光!
我很容许,我以为是期间享受乐趣并发扬创造力了。
于是我初始想考怎样幸免 Encoder-Decoder RNN 之间的信息瓶颈。
我的第一个想法是配置一个带有两个"光标"的模子:一个在源序列中出动,由 BiRNN 编码;另一个在贪图序列中出动。光标轨迹将使用动态预备边缘化。
Kyunghyun Cho 认为这相称于 Alex Graves 的 RNN Transducer 模子。之后,我可能也读了 Graves 的手写识别论文,但这种容貌对于机器翻译来说似乎不太适当。
上述带有光办法容貌在我实习的剩余 5 周内很难扫尾,是以我尝试了更粗浅的容貌——两个光标同期同步出动,实质上相称于硬编码的对角安宁力。
这种容貌有点效果,但奋勉优雅。
是以有一天我有了新的想法,让 Decorder RNN 学会在源序列中搜索舍弃光办法位置。这在一定进程上受到了我中学英语学习中翻译锻真金不怕火的启发。
在翻译时,你的眼神会在源序列和贪图序列之间往还出动,我将软搜索暗示为 softmax,然后对 BiRNN 景况进行加权平均。从第一次尝试就效果很好,我终点繁盛。
我将这个架构称为 RNNSearch,在 1 个 GPU 上运行。由于咱们知谈谷歌的 Ilya(OpenAI 前首席科学家 Ilya Sutskever)团队使用 8 个 GPU 的 LSTM 模子在某些方面最初于咱们,是以咱们速即在 ArXiV 上发表了一篇论文。
自后发现,这个名字并不好。更好的名字(安宁力)是 Yoshua 在临了的一次修改中添加到论断中的。
直不雅地说,这在解码器中扫尾了一种安宁力机制,解码器决定源语句的哪些部分需要真贵。通过让解码用具有安宁力机制,咱们捏造了编码器将源语句中的总计信息编码为固定长度向量的背负。通过这种新容貌,信息不错漫衍在通盘谛视序列中,解码器不错相应地有接纳地检索。
一个半月后,咱们看到了 Alex Graves 的论文。照实是皆备相似的想法,尽管他的动机皆备不同。
在咱们这边,发明新算法是需求驱动的。我猜在他哪里,是集中神经门户和标记门户的宏愿?Jason Weston 团队的 Memory Networks 论文也有访佛的机制。
我莫得预猜想安宁力不错在更低的档次上使用,手脚暗示学习的核默算法。
但当我看到 Transformer 论文时,我立即向执行室的共事晓谕:RNN 已死。
回到您最初的问题:在蒙特利尔 Yoshua 的执行室中"可微且数据依赖的加权平均"的发明与神经图灵机、Memory Networks 以及 90 年代(致使 70 年代;但我无法提供相连)的一些关系证实科学论文无关。
这是 Yoshua 股东执行室追求明志励志的探求恶果,Kyunghyun Cho 在处分由低级博士生和实习生构成的大型机器翻译神志方面的出色技巧,以及我我方多年来在编程竞赛中查验出的创造力和编程技巧的轨则。
即使我我方、Alex Graves 和这个故事中的其他变装其时莫得从事深度学习责任,离这个想法出现也不会太远了。
安宁力仅仅深度学习中扫尾机动空间集中的当然式样,这简直是一个不言而喻的想法,一直在恭候 GPU 饱和快,让东谈主们有能源并肃肃对待深度学习预计。
自从我强硬到这少许,我对 AI 的大志向便是启动像机器翻译那样令东谈主齰舌的阁下神志。
细致的研发责任不错为基础技能的最初作念出更多孝顺,而不是咱们频繁认为"的确的"东谈主工智能预计的总计花哨的表面。
就酱!终点意思听到更多对于您的 AI 教化神志的音讯(我从 Harm de Vries 那里听到了一些听说)。
干杯,
Dima
One More Thing
Karpathy 热爱,有点骇怪这篇的确的安宁力发祥论文莫得得到饱和多的
自从 Attention is all you need 一飞冲天之后,大家强硬到给论文起一个好名字对技能传播的影响,背面的论文标题就放飞了。
除了扎堆效法 xx is all you need 以外,最近致使还出现了 Taylor Unswift。
讲的是把模子权重诊疗成泰勒级数的参数,来保护已发布模子的总计权并谨慎被亏蚀。
就,emmm ……
提到的论文:
Neural Machine Translation by Jointly Learning to Align and Translate
https://arxiv.org/abs/1409.0473
Attention is All You Need
https://arxiv.org/abs/1706.03762
Neural Turing Machines
https://arxiv.org/abs/1410.5401
Generating Sequences With Recurrent Neural Networks
https://arxiv.org/abs/1308.0850
Memory Networks
https://arxiv.org/abs/1410.3916
Sequence to Sequence Learning with Neural Networks
https://arxiv.org/abs/1409.3215
Taylor Unswift:
https://arxiv.org/abs/2410.05331
参考相连:
[ 1 ] https://x.com/karpathy/status/1864028921664319735云开体育全站app