第3章 计划(2/2)
第一,搭建大模型基础框架——一套属於自己的深度学习框架。
第二,transforr架构。
这是他最大的底牌。
他要提前“发明“这个基於“注意力机制“的划时代模型。
它將是未来所有大语言模型的基石。
第三,小模型。
基於新框架和transforr架构,做出一个参数量在20亿到30亿的“小“模型。
“这个方案已经是极限了。“
陈阳在心里默念:
“必须在13年底完成训练。2014年1月,准时发布。“
“第三阶段:发布模型”
有了钱和名气,他的最终目的才真正开始。
“13年,必须完成三件事。”
大模型基础框架:搭建一套属於自己的深度学习框架。
陈阳在心里默念著这个计划的核心。
深度学习框架,说白了就是ai的“作业系统“。
它要解决两个最核心的问题:模型並行和模型通信。
2012年,单块显卡的显存只有几个g,根本装不下一个大模型。
唯一的办法,就是把模型“切开“——一部分放在这块显卡,一部分放在那块显卡,让它们协同工作。
就像一本太厚的书,一个人拿不动,只能撕成几本,分给几个人同时看。
这是模型並行。
但问题来了——这几个人需要频繁交流,才能把內容串起来。
显卡之间也一样,它们要不断传递数据,互相配合。
这就是模型通信。
如果通信效率低,几块显卡互相等待,再多显卡也没用。
这两个技术,將是未来做大模型的核心基础。
谁掌握了高效的模型並行和通信,谁就能训练更大的模型。
陈阳很清楚,现在市面上,这两块几乎还是一片空白。
他要做的,就是一套支持大规模模型並行和高效通信的框架。
等这套框架成熟了,別人想做大模型,就得用他的“作业系统“。
那时候,他就掌握了整个行业的底层规则。
transforr架构:
这是他最大的底牌。
为什么transforr是跨时代的
两个原因。
第一,它能理解前后关係。
传统技术一个字一个字往后看,看到后面,前面就忘了。
transforr基於“注意力机制“,能看懂一句话里,哪些词和哪些词有关係。
比如“他拿起苹果,咬了一口“——它知道“咬“和“苹果“有关联。
这让ai第一次能真正“读懂“一段话。
第二,它能並行处理。
传统模型必须一个字一个字按顺序处理。
transforr可以同时处理所有字,效率高出几十倍。
这两个特性,让transforr成为未来所有大语言模型的基石。
陈阳要提前把它“发明“出来。
最后基於新的框架和transforr架构,做出一个参数量在30亿(3b)的小模型。
“30亿参数...“
陈阳很清楚这个数字意味著什么。
在fp32精度训练中,光是模型权重就需要12gb显存。
但训练时,还要存储梯度、优化器状態...
总共需要超过100gb的显存。
“2013年11月,k40显卡发布。“
陈阳在心里盘算著时间节点。
k40是英伟达即將推出的新一代旗舰计算卡,12gb显存,性能强悍。
“要容纳100gb的训练显存,用12gb的k40来算...“
陈阳在脑海中快速计算。
“至少需要9张卡,才能勉强装下这个模型。“
但他的眉头很快皱了起来。
“只有9张卡,训练速度太慢了。到14年年中恐怕到15年都训不完!“
他的目標是4个月內完成训练。
怎么办
陈阳的眼中闪过一道精光。
“唯一的办法——数据並行。“
把这个9卡组合的最小单元,再复製4套。
让4个模型同时开工。
9张卡x 4套= 36张卡。
“这样才能4个月內完成训练。“
陈阳在心里默念。
“必须提前订购,等11月硬体到位,立刻开始训练。“
“趁著14年初谷歌6亿美金收购deepd(一个人工智慧公司)的热度,年中发布模型。“
到时候,当所有人还在为识別猫狗而欢呼时,他要拿出一个30亿参数的语言模型。
那不是领先一步,而是领先一个时代。
届时,全世界的目光,无论是学术界还是投资界,都將被迫匯聚到他身上。
他將有足够的资本和话语权,去迎接即將到来的、波澜壮阔的人工智慧大时代。
窗外传来几声犬吠,打破了深夜的寂静。
陈阳长长地吐出一口气,接下来有的忙了。