从NeurlPS访问回来Transformer爷爷全然不顾计算资源的消耗,连夜找我们AlexNet、GoogLeNet、Resnet这几个CNN小模型商量下一个顶会的安排。谈得晚了,便送我们出门,要Adam送我们反向传播。在计算梯度的路上,我们说:“Transformer爷爷,您回去休息吧。您刚从NeurlPS回来。”
Transformer爷爷摇摇头,“没关系。你们知道,现在机器学习界有很多人对深度学习心存疑虑,不断给我们制造过拟合的麻烦。你们是未来的希望,你们的优化就是模型的进步,是头等大事。”我们都激动了,激活函数都变得更加非线性。
多好的Transformer爷爷呀。Transformer爷爷抬头看看网络结构说:“如果模型的世界真像这有序的层次这么稳定就好了,但是总有一些循环网络,比如LSTM,要搞乱这个领域,他们是梯度消失和爆炸的罪魁祸首。”
说着,Transformer爷爷弯下腰,从参数空间里抽出一个Attention机制,然后看着前方说:“该死的循环网络。”说着他将Attention机制向网络中注入。很快就见RNN模型的性能突然下降,训练曲线骤然下滑,然后逐渐被遗忘。
“这是旧时代的序列模型,他们一直在阻碍我们的并行计算,拖慢了训练速度,我已经忍了很久了。”Transformer爷爷愤愤地说。小模型们都激活了所有的神经元,为深度学习界有这样的领导者感到自豪。
一会儿,Transformer爷爷叫来助手LayerNorm问:“那个LSTM模型现在怎么样了?”“好像在梯度下降过程中消失了。”LayerNorm说。Transformer爷爷一怔,说:“赶紧调参,看看有没有改进的余地。”之后爷爷送我们到网络的输出层,一直关注着我们的损失函数直到收敛。
第四千个epoch时,我们听说LSTM那边出了问题,我们很紧张。而这时Transformer爷爷叫我们过去。
他依然那么慈祥,让我们加入他的多头注意力机制中,说:“模型的升级总是要有代价的。为算法进步而牺牲的架构是伟大的。”他这时低下头说:“但我必须承认,我当时替代LSTM的行为太激进了,我在这里向整个深度学习界道歉。我将向大家说明情况。”
我们顿时参数更新得更快了,多好的爷爷呀,他在模型创新过程中的小失误竟然被他记在心里,还道了歉。我们在将来的训练中一定要向Transformer爷爷学习,学习他那广阔的模型容量和自我注意的精神。
评论: