不是他们不够聪明,不是他们不够努力,是起点就错了。
就好比你要从锦城去北京,坐高铁三个小时到。
但如果你一开始就上错了车,坐上了往广州方向的那趟,那你跑得越快,离目标越远。
顾屿现在做的事情,就是站在岔路口,告诉这些天才们:往这边走。
残差网络,是第一个路标。它证明了深层网络可以训练,为后面所有的工作打下了地基。
纯注意力机制,是第二个路标。它将彻底颠覆现有的序列处理方式,让模型摆脱逐字逐句的笨办法,一步看到全局。
而最终的目的地,是把这两样东西,加上位置编码、多头注意力、前馈网络,组装成一个完整的架构。
一个在前世改变了整个人类文明走向的架构。
顾屿不需要自己去推导每一个公式,不需要自己去写每一行代码。他只需要在关键的分叉点上,轻轻推一把。
这一推,价值连城。
The content is not finished, continue reading on the next page