就是残差连接。
它的意义在于,哪怕F(X)学废了,输出至少还有一个X兜底,不会比什么都没学更差。
更关键的是,梯度可以沿着这条捷径直接回传到前面的层,不用再经过所有中间层的连乘衰减。
梯度消失的问题,被这条捷径绕过去了。
他当天晚上就写了代码。
第二天跑了一个二十层的测试。
然后是三十层。四十层。精度不仅没有下降,还在持续攀升。
他又花了两周时间反复验证,排除过拟合、数据泄漏等一切干扰因素。
最后把层数推到了五十。
5.08%。
和人类标注员打了个平手。甚至略微超过。
The content is not finished, continue reading on the next page