几页板书推导,还不完整,中间肯定有断层和缺失。
沈一舟硬是从这些残缺的碎片里,把架构的核心逻辑拼了出来。
对方不愧是顶尖学府的人。
“方案是我自己推的。”林宇回答。
“能解释一下压缩维度的动机吗?64维降到16维,按常规理解,信息损失会非常严重。”
林宇脑子里,系统返还的宗师级AI知识体系自动运转。
“因为64维本身就过剩了。”
他往下讲,没用任何学术腔。
“主流架构用64维,是五年前TranSfOrmer团队做abtiOn StUdy时的最优解。但那是五年前的数据规模。现在训练语料翻了上千倍,高维度的边际收益在急剧衰减,大部分维度占了算力,对语义理解的贡献接近于零。”
“继续。”
“压到16维确实会丢一部分细粒度的语义信息。所以我在交叉层加了动态加权来补偿。让模型自己决定,每次推理中哪些维度值得保留,哪些直接丢。权重不是固定的,根据上下文实时调整。”
The content is not finished, continue reading on the next page