我爱读小说网

字:
关灯 护眼
我爱读小说网 > 让你代课,你教学生核聚变? > 第38章 清华的电话,他聊了四十七分钟 (3 / 12)

第38章 清华的电话,他聊了四十七分钟 (3 / 12)

        几页板书推导,还不完整,中间肯定有断层和缺失。

        沈一舟硬是从这些残缺的碎片里,把架构的核心逻辑拼了出来。

        对方不愧是顶尖学府的人。

        “方案是我自己推的。”林宇回答。

        “能解释一下压缩维度的动机吗?64维降到16维,按常规理解,信息损失会非常严重。”

        林宇脑子里,系统返还的宗师级AI知识体系自动运转。

        “因为64维本身就过剩了。”

        他往下讲,没用任何学术腔。

        “主流架构用64维,是五年前TranSfOrmer团队做abtiOn StUdy时的最优解。但那是五年前的数据规模。现在训练语料翻了上千倍,高维度的边际收益在急剧衰减,大部分维度占了算力,对语义理解的贡献接近于零。”

        “继续。”

        “压到16维确实会丢一部分细粒度的语义信息。所以我在交叉层加了动态加权来补偿。让模型自己决定,每次推理中哪些维度值得保留,哪些直接丢。权重不是固定的,根据上下文实时调整。”

  The content is not finished, continue reading on the next page