您的位置:首页 > 推荐 >

学完这个教程,小白也能构建Transformer,DeepMind科学家推荐

2023-01-21 21:45:02 来源: 量子位

Pine发自凹非寺量子位|公众号Qbit@I真正零门槛!小白都能轻松看懂的Transformer教程来了。在自然语言处理和计算机视觉领域,Transf

Pine 发自 凹非寺

量子位 | 公众号 Qbit@I


(相关资料图)

真正零门槛!小白都能轻松看懂的Transformer教程来了。

在自然语言处理和计算机视觉领域,Transformer先后替代了RNN、CNN的地位成为首选模型,最近爆火的ChatGPT也都是基于这个模型。

换言之,想进入机器学习的领域,就必须得懂Transformer。

这不,量子位就发现了一篇零基础也能学的教程,作者是前微软、Facebook首席数据科学家,也是MIT机械工程的硕博士,从视觉化矩阵乘法开始,带你一步步入门。

DeepMind研究科学家@ndrew Trask也转发评论道:

这是我至今见过最好的教程,它对入门者非常非常友好。

这条帖子也是掀起了一阵热度,浏览量已经有近30w。

网友们也纷纷在评论区作出“码住”状。

从视觉化矩阵乘法开始学

因为这是一个新手入门的教程,所以在正式学Transformer之前,会有很多介绍矩阵乘法和反向传播的内容。

并且在介绍的过程中,作者逐个添加学习Transforme所需要了解的概念,并加以解释。

具体有多新手友好,我们先来浅看下这篇教程~

基础概念解释

首先,了解Transformer的第一步就是编码,就是把所有的单词转换成数字,进而可以进行数学计算。

一般来说,将符号转换为数字的有效方法是先对所有单词符号分配数字,每个单词符号都会对应一个独立的数字,然后单词组成的句子便可以通过数字序列来表示了。

举个简单的例子,比如files=1、find=2和my=3。然后,句子“ Find my files”可以表示为数字序列[2,3,1]。

不过这里介绍的是另外一种方法,即独热编码。

具体来说,就是将单词符号转换成一个数组,这个数组中只能有一个1,其他全为0。还是上面那个例子,用这种方式表示的话如下图。

这样一来,句子“Find my files”就变成了一维数组的序列,压缩到一块也就像是二维数组了。

接下来就要再来了解下点积和矩阵乘法了。

点积这里也就不再过多赘述,元素相乘再相加便可以了。

它有两个作用,一个是用来度量两个单词之间的相似性,一个是显示单词的表示强度。

相似性很容易判别,一个单词的独热矢量和自己的点积是1,和其他的点积为0.

至于表示强度,和一个能够表示不同权重的值向量进行点乘便可以了。

矩阵乘法,看下面这幅图便足矣。

从简单的序列模型开始介绍

了解完这些基础概念之后,就要步入正轨了,开始学习Transformer是如何处理命令的。

还是用例子来解释,开发NLP计算机界面时,假设要处理3种不同的命令

Show me my directories please.(请给我看看我的目录)

Show me my files please.(请给我看看我的档案)

Show me my photos please.(请给我看看我的照片)

可以用下面这个流程图(马尔可夫链)来表示,箭头上的数字表示下一个单词出现的概率。

接下来解释将马尔可夫链转换为矩阵形式了,如下图。

每一列代表一个单词,并且每一列中的数字代表这个单词会出现的概率。

因为概率和总是为1,所以每行的数字相加都为1。

以my为例,要想知道它的下一个单词的概率,可以创建一个my的独热向量,乘上面的转移矩阵便能得出了

再然后,作者又详细介绍了二阶序列模型,带跳跃的二阶序列模型,掩码。

至此,关于Transformer,已经学到了最核心的部分,至少已经了解了在解码时,Transformer是如何做的。

不过了解Transformer工作的原理和重新建造Transformer模型之间还是有很大差距的,后者还得考虑到实际情况。

因此教程中还进一步展开,作了更大篇幅的学习教程,包括Transformer最重要的注意力机制。

换句话说,这个教程就是从最基础的东西教我们重新构建一个Transformer模型。

更加具体内容就不在这里一一列出了,感兴趣的朋友可以戳文末链接学习。

目录先放在这里,可以根据自己的基础知识选择从哪个阶段开始学起:

1、独热(one-hot)编码2、点积3、矩阵乘法4、矩阵乘法查表5、一阶序列模型6、二阶序列模型7、带跳跃的二阶序列模型—-分割线—-(学完上面这些,就已经把握住Transformer的精髓了,不过要想知道Transformer,还得往下看)8、矩阵乘法中的注意力9、二阶矩阵乘法序列模型10、完成序列11、嵌入12、位置编码13、解除嵌入14、softmax函数15、多头注意力机制16、使用多头注意力机制的原因17、重现单头注意力机制18、多头注意力块之间的跳过连接19、横向规范化(Layer normalization)20、多注意力层21、解码器堆栈22、编码器堆栈23、编码器和解码器栈之间的交叉注意块—-又一个分割线—-(如果你学到这里,那说明Transformer你已经掌握得差不多了,后面讲的东西就是关于如何让神经网络表现良好了)24、字节对编码(€yte pair encoding)

作者介绍

€randon Rohrer,目前是Linkedin的一名机器学习工程师,曾先后在微软,Facebook担任首席数据科学家。

在Facebook工作期间,他建立了一种更精确的电网映射预测模型,以评估全球的中压电网的连通性和路由。

写教程算是€randon的一大爱好了,目前他所有的教程都不断更新在他的新书《如何训练你的机器人》中,帖子的跨度从职业发展到各种编程工具的介绍。

传送门:https://e2eml.school/transformers.html#softmax更多教程:https://e2eml.school/blog.html

— 完 —

量子位 Qbit@I · 头条号签约

关键词:

精选 导读

募资55亿港元万物云启动招股 预计9月29日登陆港交所主板

万科9月19日早间公告,万物云当日启动招股,预计发行价介乎每股47 1港元至52 7港元,预计9月29日登陆港交所主板。按发行1 167亿股计算,万

发布时间: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情况曝光 隐形重仓股多为高端制造业

随着半年报披露收官,公募基金二季度持股情况曝光。截至今年二季度末,公募基金全市场基金总数为9794只,资产净值为269454 75亿元,同比上

发布时间: 2022-09-02 10:45
资讯   2022-09-02

又有上市公司宣布变卖房产 上市公司粉饰财报动作不断

再有上市公司宣布变卖房产。四川长虹25日称,拟以1 66亿元的转让底价挂牌出售31套房产。今年以来,A股公司出售房产不断。根据记者不完全统

发布时间: 2022-08-26 09:44
资讯   2022-08-26

16天12连板大港股份回复深交所关注函 股份继续冲高

回复交易所关注函后,大港股份继续冲高。8月11日大港股份高开,随后震荡走高,接近收盘时触及涨停,报20 2元 股。值得一提的是,在7月21日

发布时间: 2022-08-12 09:56
资讯   2022-08-12

万家基金再添第二大股东 中泰证券拟受让11%基金股权

7月13日,中泰证券发布公告,拟受让齐河众鑫投资有限公司(以下简称齐河众鑫)所持有的万家基金11%的股权,交易双方共同确定本次交易的标的资

发布时间: 2022-07-14 09:39
管理   2022-07-14

央行连续7日每天30亿元逆回购 对债市影响如何?

央行12日再次开展了30亿元逆回购操作,中标利率2 10%。这已是央行连续7日每天仅进行30亿元的逆回购缩量投放,创下去年1月以来的最低操作规

发布时间: 2022-07-13 09:38
资讯   2022-07-13

美元指数创近20年新高 黄金期货创出逾9个月新低

由于对美联储激进加息的担忧,美元指数11日大涨近1%创出近20年新高。受此影响,欧美股市、大宗商品均走弱,而黄金期货创出逾9个月新低。美

发布时间: 2022-07-13 09:36
资讯   2022-07-13

美股三大股指全线下跌 纳斯达克跌幅创下记录以来最大跌幅

今年上半年,美股持续回落。数据显示,道琼斯指数上半年下跌15 3%,纳斯达克综合指数下跌29 5%,标普500指数下跌20 6%。其中,纳斯达克连续

发布时间: 2022-07-04 09:51
推荐   2022-07-04

融资客热情回升 两市融资余额月内增加超344亿元

近期A股走强,沪指6月以来上涨4%,融资客热情明显回升。数据显示,截至6月16日,两市融资余额1 479万亿元,月内增加344 67亿元,最近一个半

发布时间: 2022-06-20 09:41
资讯   2022-06-20

4个交易日净买入超百亿元 北向资金持续流入A股市场

北向资金净流入态势延续。继6月15日净买入133 59亿元后,北向资金6月16日净买入44 52亿元。自5月27日至今,除6月13日以外,北向资金累计净

发布时间: 2022-06-17 09:37
推荐   2022-06-17

热门TAG

more
重磅突发!王思聪在上海打人?警方刚刚通报 女子随手捐10元4个月后收到还款道谢 看到回复破防 国内猪肉价格开启新一轮周期?专家:国家调控政策正在起作用 彩电市场价格持续走低:50英寸千元轻松购还会降价吗? 鹤岗中介谈1.5万全款买房:别冲动 详情曝光系40年房龄的老房子价格自然便 稳外贸 福建拓“新”途 福建也积极开辟国际物流新通道 这条名为BarMar的能源运输路线以帮助缓解欧洲所面临的能源危机 宁波银行:聚焦主责主业,更好服务实体经济 重磅利好!涉房企业A股融资审核放宽,“白名单”浮出水面 能源是经济发展的动力源泉 美国经济萧条对汽车和电力市场的冲击力有多 多头酝酿更大爆发!美元有望再大涨近百点 广西北部湾畔崛起国际大港 商企耕耘十年等来春暖花开时 中国A股半导体板块周四大涨 十年时间增长超1200亿元 2021年创造天津市进出口历史最高纪录 天津口岸完成进出口贸易值2381亿美元 较2012年增长16.6% 深圳机场口岸通过发挥东南亚航线优势 不断丰富进口水果品类 国际航线(含港澳台)日均执行客运航班量达143班次 创今年新高 待中吉乌铁路建成后 将高效联通中欧班列的中通道与南通道线路 中国与RCEP成员国经过陆海新通道进出口总量52068标箱 国航已率先在空客、波音机型上开展可持续航空燃料应用 中国制造业屡创奇迹 牢牢站稳世界“C位” 今年新疆不断加大能源增产增供力度 新疆煤炭产量增长31.1%、排全国第2位 陶悦群计划围绕大健康等产业进行增资扩产 光伏电站位于Kharsaa地区 是卡塔尔首个太阳能发电厂 过去十年,重庆工业增加值总额由2012年的4291.4亿元提高至2021年的7888.7亿元 2021年盐湖化工产业实现产值331.8亿元 增长46.2% 切入储能赛道的消费电池头部玩家德赛电池近两日连续打板涨停 6个二线城市首套房贷款利率跌破4% 低至3.8% 倡议项目将由德国联邦经济和气候保护部的能源研究预算提供资金 2022年东亚峰会新能源论坛20日在昆明举办