马斯克打脸OpenAI!全球最大模型Grok-1开源,高达3140亿参数震慑国际|钛媒体AGI

liukang20242天前吃瓜入口407

马斯克参与纽约时报活动(来历:视频截图)

温暖的马斯克打脸OpenAI!全球最大模型Grok-1开源,高达3140亿参数震撼世界|钛媒体AGI的插图

就在刚刚,马斯克(Elon Musk)真的反抗了他的许诺——把大模型Grok-1开源了。

钛媒体App得悉,北京时刻3月18日早上,“硅谷钢铁侠”、亿万富翁马斯克旗下 AI 草创公司 xAI 宣告,其研制的大模型Grok-1正式对外开源敞开,用户可直接经过磁链下载根本模型权重和网络架构信息。

xAI表明,Grok-1 是一个由 xAI 2023 年 10 月运用依据 JAX 和 Rust 的自定义练习仓库、从头开始练习的3140亿参数的混合专家(MOE)模型,远超OpenAI的GPT模型。而此次开源的模型是是 Grok-1 预练习阶段的原始根底模型,没有针对任何特定运用(例如对话)进行微调。

对此,英伟达科学家Jimfan点评称,这是有史以来最大的敞开大型言语模型,由国际级团队练习,经过磁力链接发布。Apache 2.0。 314B,专家混合(8 个活泼中的 2 个)。就连活动参数仅(86B)就超过了最大的Llama。刻不容缓地想看到基准测验效果以及人们用它构建的内容。

langchain的Andrew Kean Gao谈论以为,“Grok是有史以来最大的开源大模型,是llama2尺度的4倍。”

ChatGPT则和马斯克在谈论区相互嘲讽。

马斯克随后发推文表明,“告知咱们更多有关 OpenAI 的‘敞开’部分的信息”。他直言,xAI 这个渠道“现已是迄今为止最通明和最求真的渠道(说实话,门槛并不高)”。

到发稿前,Grok上线GitHub后狂揽了6000星,586个Fork。

据悉,2023年7月,特斯拉CEO马斯克宣告建立一家新的人工智能公司xAI,新公司任务是“了解国际的实在实质”,方针是打造OpenAI的竞争对手。

作为OpenAI 开创人之一,也是最新的OpenAI批评者,马斯克此前已表明,OpenAI已偏离了其预期意图,成为了一个以赢利为导向的实体。他直言,OpenAI 开始是作为一个非盈利性开源安排创立的,意图是抗衡谷歌。但尔后它变成了微软操控下的一家闭源、以赢利为导向的公司。“OpenAI 现已成为一家赢利最大化的公司……这根本不是他的初衷。”

马斯克还斥责 OpenAI 遭到微软的操控。他表明,国际需求一个代替GPT的 AI 技能挑选。

上一年11月,马斯克正式发布xAI 旗下首个大模型和运用效果计划Grok,并将Grok AI 帮手内置在交际渠道X上。马斯克曾表明,“在某些方面,它是现在存在的最好的(AI 技能)。”

其时马斯克表明,调优之后的Grok大模型具有330亿个参数,功能基准上挨近Llama 2 -70B,在HumanEval编码任务、MMLU 基准上的效果分别为63.2%、73%。

本年2月,马斯克向美国旧金山高等法院提原料讼,原料OpenAI和公司联合开创人、CEO奥特曼(Sam Altman),公司总裁Greg Brockman以及 OpenAI 的若干实体,指控OpenAI团队违约、反复无常(“许诺禁反言”)、不正当竞争等。

马斯克在46页、1.4万字诉讼文件中宣称,OpenAI违反初衷,变节了OpenAI这家 AI 公司建立时达到的一项协议,即开发技能的意图是“造福人类”而非赢利。他以为,OpenAI最近与微软的密切关系损害了该公司开始对敞开、开源通用人工智能(AGI)范畴的奉献,他要求OpenAI敞开技能并寻求归还他供给的资金。

3月初,OpenAI“反击”称,“当开创团队评论以盈利为意图的结构以进一步反抗任务时,马斯克期望咱们与特斯拉兼并,不然他想要彻底操控。马斯克离开了 OpenAI,表明需求有一个与 Google/DeepMind 相关的竞争对手,而他将自己做这件事。他说他会支撑咱们找到自己的路途。”并且该公司驳回马斯克的一切穴道,并称为工作发展到这一步感到遗憾。

马斯克则直接回应,OpenAI并不开源,Grok要直接开源(Open)。

现在,Grok-1 正式开源,其具有3140亿参数,具有先进MOE架构,远超GPT-3.5、llama2等,是迄今为止参数量最大的开源大言语模型。

xAI称,这个版别包括了Grok-1在2023年10月反抗预练习阶段时的根底模型数据。依据Apache 2.0答应协议,向大众敞开模型的权重和架构。以下是钛媒体App报导的要害信息:

  • 该根底模型经过很多文本数据练习而成,未专门针对任何具体任务进行优化。
  • 3140亿参数构成的混合专家模型,其间25%的参数可以针对特定的数据单元(Token)激活。而xAI团队运用定制的练习技能栈,在JAX和Rust的根底上,从零开始构建了此模型,反抗时刻为2023年10月。
  • 模型参数数量高达3140亿,具有混合专家模型(Mixture of Experts, MoE)8架构,每一个数据单元(Token)由2位专家处理,共64个处理层,用于处理查询的有48个注意力机制单元(attention heads),用于处理键(key)/值(value)的有8个注意力机制单元,嵌入向量(embeddings)的维度为6,144,选用旋转式嵌入表明( RoPE) ,运用SentencePiece分词体系处理,包括131,072种数据单元,支撑激活数据散布核算(activation sharding)和8位数字精度量化(8-bit quantization)
  • 最大序列长度为8,192个数据单元,以处理更长的上下文信息

纽约时报点评道,开源Gork背面的原始代码,是这个国际上最富有的人操控AI未来战役的晋级。

Meta CEO扎克伯格刚刚也对Grok做出了点评:“并没有给人留下真实深入的形象,3140亿参数太多了,你需求一堆H100,不过我现已买下了”。

值得一提的是,近期南加州大学的论文称,OpenAI发布的GPT-3.5-turbo 的参数规划也在7B(70亿)左右,除非是MoE 架构或许不同,并估量 gpt-3.5-turbo 的嵌入巨细为 4096,称花费不到 1000 美元就把最新版 gpt-3.5-turbo 模型的秘要给挖了出来。

有网友描述,马斯克关于模型技能这么大方,我国企业总算有福了。

3月17日,北京师范大学新闻传达学院教授、北京师范大学传达立异与未来媒体试验渠道主任 喻国明在一场讲演中表明,他人一开源我国 AI 模型就运用是不正确的做法,关于安全性有所影响,有必要国内要处理数据开源的规矩问题。一起,大模型算力不足下,我国不应该“一窝蜂”做300多个大模型,而是应该做一些笔直职业、边际核算的小模型,然后处理实践运用问题。

“模型的价值不在于数据、算法、算力的巨细,而在于能否为人发明真实的价值巨细,并且在价值链条中扮演要害人物。价值的终究反抗,取决于大模型与小模型之间的交融与协同。”喻国明表明。

(本文首发钛媒体App,作者|林志佳)

告发/反应

相关文章

马斯克的特斯拉盈余超预期,国产新能源轿车该“卷”向何方

文 | 有点数,作者 | 有叔马斯克最近挺忙,一边给美国选民发百万美元红包,一边测验移民火星的收回火箭,一边还要关怀特斯拉的盈余状况——“全球电动车企业都面临着盈余压力,特斯拉也是如此。”这是他在近期...

那个或许最了解马斯克的人

沃尔特·艾萨克森,美国列传作家,美国国家人文奖章取得者。曩昔二十多年里,他的列传写作成果十分厚实,写过《基辛格传》《富兰克林传》《爱因斯坦传》《乔布斯传》《达芬奇传》,其间《乔布斯传》为他赢得了杰洛德...

特斯拉市值一夜暴降超4700亿元 马斯克的Robotaxi不被资本市场“配合”?

(特斯拉发布的两款新车型Cybercab和Robovan。图片源自特斯拉方面)本报记者 夏治斌 石英婧 上海报导埃隆·马斯克的“火星梦”迎来新的开展。北京时刻10月13日晚间,美国太空探究技能公司(S...

马斯克看好赛道被中国企业首先交卷:研制投入超六成,跑通商业化

杨净 萧箫 发自 凹非寺量子位 | 大众号 QbitAI人形机器人,来到交卷时间。特斯拉三星等科技巨子跨界入局伊始、波士顿动力还忙着跑酷……一家我国企业现已首要跑通商业化路途。1月31日晚间,优必选科...

社评:传言马斯克撤厂,民进党当局慌什么?

路透社散步征引音讯人士的话说,美国企业家马斯克现已要求SpaceX的台湾供货商把出产搬运到台湾地区以外的当地,原因是根据“地缘政治考量”。马斯克方面并未证明这一音讯的真伪,但是几天来,风闻在岛内激起的...

友情链接: