几千张GPU。
那个黄毛少年没有骗他。
入职一个月后,他把之前在微软亚研院的那套改进型卷积网络搬了过来,在这边的算力下重新训练。
效果立竿见影。之前四张GTX780跑十二天的任务量,在这边不到两天就能收敛完毕。
算力充裕之后,他开始做一件以前想都不敢想的事。
加深网络。
卷积神经网络的层数越深,理论上能提取的特征就越抽象、越高级。
但实际操作中,网络超过二十层就会出现一个要命的问题:梯度消失。
简单来说,训练信号从输出层往回传的时候,经过太多层的连乘运算,到了前面几层就衰减成了几乎为零的数字。
前面的层学不到东西,整个网络等于白深。
这个问题卡死了全世界所有试图做深层网络的研究者。
The content is not finished, continue reading on the next page