“你现在的逻辑是:更大的模型,更多的数据,更强的算力,效果就会越来越好。这个方向本身没问题。但你少算了一件事。”
任少卿没说话。
“效率。”
顾屿吐出两个字,
“你的模型在做大量无效计算。它用同样的力气处理每一个输入,不管那个输入重不重要,不管当前任务简单还是复杂。这是架构设计上的浪费,不是数据和算力能补回来的。”
“你说的这个问题,”
任少卿的眉头拧了一下,
“在卷积结构里,局部感受野决定了模型必须平等对待每一个特征图的位置,这是结构本身的天花板,目前没有好的解法。除非……”
他沉默了两秒,
“你是想让模型学会‘选择性注意’?而不是对每个输入都倾尽全力?”
The content is not finished, continue reading on the next page