它不仅横扫了当年所有计算机视觉的顶级竞赛,更从根本上改写了整个深度学习的工程范式。
从此以后,“网络可以无限加深”不再是空想,而是被数学和实验双重验证的事实。
它是后来所有大模型架构的地基之一。
没有残差连接,就没有后来的GPT,没有BERT,没有任何你能叫得出名字的大语言模型。
而现在是2014年4月。
任少卿提前了将近一年半。
顾屿闭上眼睛。
前世的记忆潮水般漫上来,不受控制。
2020年。他拿到天使轮的那个夏天,北京五道口的一间地下室办公室,八个人,六台电脑,空调坏了三天没人修。
他站在白板前画TranSfOrmer的架构图,给团队讲什么是自注意力机制,什么是多头注意力,什么是位置编码。那时候他以为自己看到了未来。
2022年。A轮融资到账,团队扩到四十多人,搬进了望京的写字楼。
The content is not finished, continue reading on the next page