带著手机重生，目标科技教父(没钱又任性)_第636章 AlexNet登场章节免费阅读无弹窗

看到iage广告的亚历克斯漫不经心地扫了两眼，原本靠在椅背上的身体突然坐直了。

通告下方的赞助商列表里，英伟达的标志十分显眼。

亚历克斯迅速点开相关链接，开始查阅英伟达最近发布的技术文档和论坛动态。

他越看眼睛越亮，之前熬夜写代码的疲惫一扫而空。

“伊利亚，别敲你那祖传代码了，快过来看这个！”亚历克斯激动地拍了拍桌子。

伊利亚停下动作，滑著椅子靠了过来。

“什么东西能让你兴奋成这样？找到自动清理bug的咒语了？”伊利亚调侃道。

亚历克斯指著屏幕上的比赛页面和英伟达cuda架构说明。

“我刚刚发现了一个比赛，李飞飞教授发起的。这不是重点，重点是比赛的赞助商。你看，是英伟达。”亚历克斯语速极快。

还没等伊利亚细看，教研室的门被推开了。

“嗨，伙计们，今天的研究进展如何？”辛顿把论文放在桌上，拉过一把椅子坐下。

亚历克斯立刻站了起来，走到辛顿面前。

“教授，您来得正好。我有个疯狂的想法，也许能彻底打破我们现在的研究瓶颈。”亚历克斯神情激动。

辛顿有些意外，示意亚历克斯继续说下去。

亚历克斯直接把显示器转了过去，对着辛顿。

“这是一个拥有千万级图片数据的挑战赛。最关键的是，英伟达最近在大力推广他们的cuda架构，并且重金赞助了这个比赛。”亚历克斯抛出信息。

辛顿看了一眼屏幕上的硬体参数说明。

“一家做游戏显卡的公司，跑到学术界推销他们的并行计算技术？”辛顿提出了疑问。

亚历克斯连连点头，拿过旁边的白板笔。

“对，他们肯定想要推广他们的底层技术生态。教授，我的想法是，我们可以用gpu来做神经网路的计算！”亚历克斯说出了自己的计划。

伊利亚在旁边听得直皱眉。

“gpu？那是用来渲染三维游戏多边形的硬体。我们做的是深度神经网路训练，底层逻辑不兼容吧？”伊利亚提出质疑。

亚历克斯立刻转身面对伊利亚，开始在白板上列数据。

“表面上看是两码事，但实际上完美契合。你想想，我们现在的代码用cpu跑，为什么这么慢？”亚历克斯反问。

伊利亚思索了一下。

“因为要处理庞大的矩阵乘法运算，数据量太大了。”伊利亚如实回答。

亚历克斯重重地敲了敲白板。

“这就对了！cpu的核心数量很少，一般只有两到八个。它的架构设计是为了处理操作系统里复杂的逻辑分支。”亚历克斯开始分析。

接着，他在旁边写下英伟达显卡的参数。

“但你看gpu。它精简了复杂的控制逻辑，把芯片面积全留给了几百上千个小计算核心。”亚历克斯指著那些数字。

“深度神经网路的核心运算是什么？就是海量的加减乘除和取最大值。根本不需要复杂的逻辑跳转。”亚历克斯看着两人。

“让几个全能的cpu核心排队去处理上百万次简单的乘法运算，这完全是资源错配。”亚历克斯抛出核心论点。

“而gpu的几百个核心，可以把这上百万次乘法拆解开，同步进行并行计算。这才是真正的算力匹配！”亚历克斯提高了音量。

教研室里安静了几秒钟。

伊利亚的大脑飞速运转，推演着亚历克斯的设想。

“如果真能把我们的代码通过cuda接口迁移到gpu上”伊利亚喃喃自语。

“几百个核心同时进行矩阵运算，训练速度绝对会成百倍上升！以前需要一个月的模型，可能两天就能跑出结果！”亚历克斯接上了伊利亚的话。

辛顿听完亚历克斯的长篇大论，陷入了深深的思考。

他站起身，走到白板前，看着亚历克斯写下的对比数据。

“2006年的时候，我一直在研究深层网路训练难的问题。”辛顿缓缓开口。

亚历克斯和伊利亚都安静地听着导师的复盘。

“由于信号在传播过程中会逐层衰减，也就是梯度消失，导致网路根本无法有效训练。”辛顿指出当年的痛点。

“后来我提出了逐层预训练的方法。先逐层训练好每一层的参数，再堆叠起来整体训练。”辛顿回顾著自己的理论成果。

“这个理论证明了深度的价值，奠定了基础，但实际操作中，算力一直是我们跨不过去的天堑。”辛顿叹了口气。

他转过身，看着亚历克斯，脸上露出了赞赏的笑容。

“亚历克斯，你今天提出来的这个思路非常合理。如果gpu的并行计算真的能解决算力问题，我们就能探索更深层的网路。”辛顿给出了肯定的答复。

亚历克斯兴奋地搓了搓手。

“既然英伟达想借这个比赛推广技术，那我们就顺水推舟，用他们的硬体拿个冠军。这绝对是一次双赢。”亚

第636章 AlexNet登场（1 / 2）