其实目前互联网上的有效数据,对于生成式大模型来说,最多只够训练3万亿参数量的大模型,而满血版橘子大模型多出的五万亿参数,主要应用在特定复杂任务上。
比如长期记忆建模、大规模多模态生成、实时交互、深度推理等。
方豫是在周芯国际完成第一批橘核芯片的交货并安装到服务器集群后才启动的八万亿参数私密大模型的训练。
否则且不说数亿大周币的耗电量会不会因此引起有心人的怀疑,也不提方豫根本没有那么多m6o芯片,就算有,目前柚子科技园机房的电网也无法承受数十兆瓦量级的负载。
而有了橘核芯片,依靠仅相当于m6o五分之一的电量消耗,就实现了相较m6o十五倍以上的算力提升!(橘核的标准功耗23未含显存功耗,包括显存功耗情况下是67)
也正是因为柚子科技在产业园内布置了批一万两千张橘核芯片,柚子才能在二十天之内就完成了满血版八万亿参数橘子大模型的预训练。
目前存在四个不同版本的橘子大模型,性能最强的是方豫私密服务器中的八万亿参数大模型,这个大模型已经完全实现了agI,目前只差分布式小模型的实时数据训练的推动,就能够彻底进化为asI。
其次是柚子科技内部在研尚未公开布的3。8版本,目前这个版本也已经实现了agI,所差的只是在多行业内的应用实训而已。
然后才是公开收费布的2。5n版,最后是开源的1。99denetbsp;如果不算上方豫私密服务器中的满血八万亿大模型,柚子科技内部的3。81版本橘子大模型,就是这个世界上最强大模型,并且把第二名远远抛在后面。
前一周,FB公布了他们加急开的“番茄”大模型,号称达到了4ooo亿级别的参数量,同时开源了参数量大约为4o亿和8o亿的两个略小的大模型,可以布置在小型服务器或台式机上。
FB还宣称,他们的4ooo亿参数的番茄大模型在目前由伯克利和卡内基梅隆大学合作开的大模型竞技场中得分全面过版本。
当然,这个大模型同样应用的是柚子架构,对这一点FB倒是没做什么隐瞒,毕竟现在行业中除了古狗外,其他所有公司用的都是柚子架构。
就算是古狗,没有用柚子架构,但其自行推出的“hugging”大模型架构同样使用了柚子科技开源的部分技术。
但实际上,经过许多从业者的实测,FB应该是针对竞技场做了针对性优化,从而提高了竞技场得分。
在实际应用上,“番茄”大模型的生成能力和推理能力都弱于收费版的。
而且差的不是一点半点。
因此,面对古狗和FB的追击,柚子科技并不着急,反而宣称在季度内并没有对橘子大模型收费版除数据更新外其他的升级计划。
柚子科技的现状,就是外松内紧。
所有的一切,都会在十月的大米mix布会上见分晓。
而负责大米分布式小模型系统架构的,正是陆偲。
这些日子陆偲他们这一组人几乎吃住在公司,争分夺秒的把约尔兹教授优化的分布式小模型适配手机硬件和安卓系统。
作为公司负责后台支持的沈舒窈,在这种情况下加班自然也不会少。
“偲偲姐,你们组的会,我就不用参加了吧,我就是个内勤,相当于服务员,哪有什么能力给你们培训啊。”
沈舒窈笑嘻嘻的婉拒陆偲的会议邀请。
沈舒窈待人接物的尺度拿捏相当好,不该显示存在感的时候绝对一句话也不说,该翻脸的时候也绝对一点情面都不留。
陆偲眼神闪烁:“别这样嘛,我们这边新来的这一批员工归属感还是差了点,总是摆脱不了学生思维,你也知道我们组现在有多忙,他们不能马上把工作抓起来,头疼死我了。上次你给小南那一组做新员工培训做的多好,帮帮忙嘛。”
沈舒窈拗不过,只好跟着陆偲来到三楼的开放办公区。
“咦?偲偲姐,你们组不是搬到五楼去了吗?怎么还在用三楼会议室?”沈舒窈随口问道。
陆偲别过脸去:“哦,五楼的会议室装修味道还是有点重,我还是申请的三楼。”
装修味道重?有吗?五楼和三楼不是一起装修的吗?
“啪!”
“surprise!”
沈舒窈刚推开三楼会议室的门,就被花炮的声音吓了一跳。
“舒窈,生日快乐!!!”
三十多人挤在不大的会议室中,嘻嘻哈哈的祝她生日快乐。
“谢谢,谢谢大家,不过……”沈舒窈露出惊喜的表情,刚想说话,就看到陆嘉言把一个点着二十根蜡烛的三层大蛋糕推了出来。
“知道你是明天生日啦,但明天你又不来,只好今天给你过了。”陆嘉言一脸不爽的皱了皱鼻子,“赶紧许愿,吹蜡烛。”
随后,陆嘉言挤着牙缝对沈舒窈小声道:“不许许哥哥离开我的愿望!否则……”
注1:沃森的诺贝尔实际是有争议的,罗莎林德富兰克林实际早在沃森之前已经几乎完成了dna双螺旋的构建,甚至拍下了著名的“照片51”,直接揭示了dna双螺旋特征。
但罗莎林德富兰克林死的早,诺贝尔颁的时候她已经死了,让沃森捡了个漏。
关于小故事,明天接着写吧。