“陈总,我觉得在模型迭代上,我们有时候过于追求刷榜了。
(指在公开数据集上取得更高排名)
为了在某个榜单上提升零点几个百分点,可能会耗费团队几周的时间去调参和集成。
但这些提升,很多时候在真实路测中感受并不明显,甚至可能因为过拟合导致在未知场景下表现更差。
我觉得,我们的评价标准,应该更贴近实际用户体验和系统整体表现,而不是单纯的榜单分数。”
“说得好!”陈奇惊立刻表示赞同。
“这就是典型的‘过程’和‘结果’错位。
我们优化的是榜单分数这个‘过程指标’,但真正的‘结果’应该是路上开得更好、更安全。
我建议,以后模型迭代的评价,权重应该向大规模影子模式测试、闭环仿真测试和关键场景通过率倾斜,降低公开数据集刷榜的权重。”
李鹏飞也深有感触:
“南舟和奇惊提到了一个关键点。
我们做研究出身的人,容易陷入对单项技术指标的极致追求。
The content is not finished, continue reading on the next page