陈根:谷歌开发超级模型,救场研究经费缺乏的窘境

文/陈根

去年,OpenAI的GPT-3在外网走红。GPT-3作为著名人工智能科研公司 OpenAI 开发的文字生成人工智能,以天文数字级别的1,750亿参数量引发轰动。

GPT-3是迄今为止最强大的语言模型,庞大的参数量也让GPT-3几乎无所不能,包括答题、翻译、写文章,甚至是数学计算和编写代码。由GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为12%。

然而,GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果,而不是真正的聪明。GPT-3的智能是天文数字级别的参数量和运算的叠加。可以说,大规模模型的训练只是少数需要复杂模型重构和昂贵GPU集群的人的游乐场。对于很多缺少足够经费的普通研究人员来说,训练这些大规模模型只能“纸上谈兵”。

近日,来自微软、加州大学默塞德分校的研究者提出的名为“ZeRO-Offload ”的异构深度学习训练技术,或将拯救这一“缺少足够经费”的窘况——ZeRO-Offload可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型,让普通研究者也能着手大模型的训练。

简单来说,ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,其使用方法也相对简单,只需要在DeepSpeed中设置完毕后,使用 ZeRO-Offload ,然后修改一些标志和配置文件就可以。

与 Pytorch 等流行框架相比,ZeRO-Offload 将可训练的模型规模提升了 10 倍,而且不需要数据科学家对模型做出任何改变,也不会牺牲计算效率。

此外,它还可以与模型并行性一起工作,在一个DGX-2盒子上训练超过700亿参数的模型,与单独使用模型并行相比,这一参数量实现了 4.5 倍的规模提升。可以说ZeRO-Offload使大规模模型训练更加大众化。

免责声明:该自媒体文章由实名作者自行发布(文字、图片、视频等版权内容由作者自行担责),且仅为作者个人观点,不代表 秒送号Miaosong.cn立场,未经作者书面授权,禁止转载。[投诉 · 举报作者与内容]

「作者 · 档案」
这个人很懒,什么都没有留下~

  
(0)

相关阅读

发表回复

登录后才能评论
发布