这一世,全都翻过来了。
雅安基地的算力,够。
百亿级的资金储备,够。
任少卿加九章团队的人才密度,够。
而任少卿刚才摆在他面前的这份残差网络实验数据,证明了一件更关键的事情:
这个时代的硬件和人才,已经具备了从卷积神经网络向更通用架构跃迁的基础条件。
前世,全世界花了整整三年,才从2014年注意力机制的萌芽走到2017年TranSfOrmer论文的发表。
但这一世,他不打算走硅谷那条“有钱就是任性”的老路了。
不堆参数,不烧天价算力,不做那头笨重的大猪。
他要走DeepSeek的路。
The content is not finished, continue reading on the next page