第四色vvvv88 Llama 4刚开源就“翻车”?职工曝内幕:磨真金不怕火时舞弊、刷分造榜,我方已领受辞职!
第四色vvvv88
整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
这两天本该成为 AI 圈焦点的 Meta 新一代大模子 —— Llama 4,如今跟着时分的荏苒,渐渐被质疑声吞并:有东谈主斥责 Llama 4 在磨真金不怕火测试集上“舞弊”,更有里面职工爆料称:“里面模子的表实际质未能达到开源 SOTA(刻下最好),致使与之出入甚远,但是为了赶在 4 月底的 Deadline 之前交差,团队最终‘拼出了一个看起来还行’的版块”,该职工因无法秉承这种收尾,领受拒却签字,并愤然下野...
尽管争议抑止,但在 Meta 看来,Llama 4 依然是其在多模态 AI 模子探索上的进攻一步。那么,这一代 Llama 到底带来了哪些时候冲破?三款模子之间又各有怎样的定位?不妨先一谈深远了解下 Llama 4 系列的全貌。

Meta 发布 Llama 4 眷属,官方堪称“原生多模态 AI 窜改的新时间开启”
往常,在强劲的 DeepSeek 系列还没开源之前,Meta 的 Llama 一直是开源大模子界的“天花板”。Meta 我方在发布新模子之际也强调说:“既然 AI 越来越多地走进东谈主们的生涯,那先进的模子就该向整个东谈主灵通,让每个东谈主齐有契机打造属于我方的 AI 体验。”
此次 Meta 阐扬发布了全新的 Llama 4 系列模子,一次性带来了三款分量级大模子选手:
Llama 4 Scout:这是一个领有170 亿个“活跃参数”、使用16 个巨匠模子的多模态 AI 模子。Meta 称,它是刻下这个级别中环球最强的模子,不仅比以往整个 Llama 模子齐更强劲,还能在单个 NVIDIA H100 显卡上运行。而且,它撑持10M 潦倒文长度,比 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 等主流模子在好多测试中阐扬更好。
Llama 4 Maverick:相通是 170 亿活跃参数,但用了更多的巨匠模子(多达128 个)。它在多个测试中阐扬跨越 GPT-4o 和 Gemini 2.0 Flash。Meta 示意,在逻辑推理和编程任务上,它致使能与 DeepSeek V3 打了个平手——而参数唯有 DeepSeek V3 的一半。
这些优秀的模子齐来自一个“淳厚模子”——Llama 4 Behemoth,它有 2880 亿活跃参数,采用了 16 个巨匠,是咫尺最强的模子之一。它在数学、科学等设施测试中打败了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。不外,这款模子还处于预览阶段。
而前边两款模子不错径直在 llama.com(https://www.llama.com/llama-downloads/)和 Hugging Face(https://huggingface.co/meta-llama)下载体验。


Llama 4 Scout 和 Llama 4 Maverick 的亮点
凭据 Meta 官方博客先容,新的 Llama 4 模子是其首批使用巨匠搀杂结构(Mixture of Experts,简称 MoE)的模子,和 DeepSeek V3 使用的架构一样。肤浅地讲,MoE 不是整个的“脑细胞”齐一谈责任,而是输入一个字时,只调用一小部分“最擅长”处理它的模块。这么既灵巧又节俭诡计资源。

举个例子,Llama 4 Maverick 这个模子诚然所有有4000 亿个参数(不错和会为模子“学问量”),但实质在运行时只启用了170 亿个参数(称为“活跃参数”)。它是怎样作念到既领有重大的“学问库”,又不耗太多算力的?诀要就在于使用了 MoE 的想象。
在 MoE 层中,有128 个路由“巨匠”和一个分享巨匠。每次处理一个笔墨或图像单位(token)时,模子只会调用这 128 个路由巨匠中的一个,加上分享巨匠,而不是调用全部巨匠。诚然 4000 亿个参数齐存在显存里,但每次只用很少的一部分,大大擢升了运行着力第四色vvvv88,镌汰了老本和反馈时分。这意味着 Llama 4 Maverick 也不错在一台 NVIDIA H100 的作事器上顺畅运行,无谓部署超等诡计机。
此外,Llama 4 是从一入手就想象为不错同期和会笔墨和图像(致使视频帧)的“多模态模子”。它采用了Early Fusion(早期和会)的时候,让笔墨和视觉信息在模子里面和会得更早更当然,不再是后期再拼接进来的。这种形式允许模子在磨真金不怕火时同期学习海量的笔墨、图片和视频内容,也提高了模子对图像内容的和会力。
为了更好地磨真金不怕火这么复杂的大模子,Meta 团队还发明了一个新的磨真金不怕火状貌叫作念MetaP,用来优化模子的进攻“超参数”(比如学习率、运升沉形式等),提高了磨真金不怕火的领略性和收尾。
官方领路,Llama 4 通过对 200 种话语进行预磨真金不怕火来终了开源微调责任,其中包括 100 多种话语,每种话语齐有跨越 10 亿个 token。总体而言,比拟 Llama 3,此次使用的多话语数据量加多了 10 倍。
与此同期,在磨真金不怕火过程中,Meta 使用了FP8 精度的状貌,不错在不舍弃模子质料的前提下大幅镌汰诡计资源阔绰。Meta 示意,在磨真金不怕火超大模子 Llama 4 Behemoth 时,使用了3.2 万张 GPU,每张卡不错达到 390 TFLOPs 的诡计着力。
在初步磨真金不怕火之后,Meta 还对 Llama 4 系列进行了中期、后期磨真金不怕火,挑升用一些“长潦倒文”的磨真金不怕火数据,来让模子更擅所长理长文本,比如 Llama 4 Scout 撑持长达1000 万个 token 的潦倒文长度。
合座而言, 凭据 Meta 公开的基准测试收尾来看, 在编码、推理、多话语、长潦倒文和图像基准测试中,Llama 4 Maverick 高出了 GPT-4o 和 Gemini 2.0 等同类模子,况兼在编码和推理方面可与鸿沟大得多的 DeepSeek v3.1 相忘形。

Llama 4 Scout 则是将潦倒文长度从 Llama 3 的 128K大幅擢升至 1000 万 token,这为多文档回想、分析海量用户行径以完成个性化任务、以及处理重大的代码库等哄骗场景大开了全新的可能性。Llama 4 Scout 在预磨真金不怕火和微调阶段齐使用了256K 的潦倒文长度,这使得基础模子具备了出色的长文本泛化材干。


Llama 4 Scout 在编码、推理、长潦倒文和图像基准方面也高出了同类模子,况兼比整个以前的 Llama 模子齐具有更强劲的性能。

Llama 史上最大模子:Behemoth(巨兽)
Meta 此次还初度公开了 Llama 4 Behemoth 模子的预览版块,它也被称之为“训诲模子”。
它相通是一款 MoE 模子,领有2880 亿活跃参数、16 个巨匠模子,参数总量接近2 万亿,在数学、多话语和图像等非推理类基准测试中均阐扬出色,达到刻下同类模子的前沿水平。
值得一提的是,Llama 4 Behemoth 不仅仅一个“炫夸出遗迹”的模子,它还承担了更深档次的“训诲”扮装 —— Meta 将其用于磨真金不怕火和“蒸馏”更微型的 Llama 4 模子(如 Maverick),显赫擢升了学生模子在多个终局任务中的阐扬质料。
为此,Meta 开拓了一个全新的蒸馏亏本函数,不详动态调遣“软标的”和“硬标的”的权重,在通盘磨真金不怕火过程中终了更精确的学问搬动。此外,为镌汰磨真金不怕火过程中的诡计资源阔绰,Meta 在 Behemoth 的预磨真金不怕火阶段进行了协同蒸馏(codistillation),将蓝本代价腾贵的前向诡计摊平到通盘磨真金不怕火历程中。关于新增数据,则格外皮 Behemoth 上实行前向诡计以生成蒸馏标的。


闲居见原背后的争议
临了,和以往 Llama 模子一发布就激发烧议一样,Llama 4 的推出相通诱骗了闲居见原。然则,不少用户在实质体验后却感到失望,认为它的真实阐扬并莫得达到 Meta 宣传中所形容的那般“划时间”。
X 用户 @deedydas 发帖称,「Llama 4 实质上似乎是一个倒霉的编码模子。Scout (109B) 和 Maverick (402B) 在 Kscores 编码任务基准测试中的阐扬 4o、Gemini Flash、Grok 3、DeepSeek V3 和 Sonnet 3.5/7。LMarena 上的 ELO-maxxing 分数再高,也不成销毁模子自身的问题。」

迅速,他还附上了 Kscores 的(https://github.com/KCORES/kcores-llm-arena/)测试收尾,该基准是用来评估大模子在实质编程场景中实用性的一个进攻标的。在这个测试中,Llama 4 Scout(17B 16E)在编码材干方面明显不如 DeepSeek V3。

不仅如斯,另一位用户@flavioAd 尝试用统统交流的指示词对比测试了 GPT-4o 和 Llama 4。不丢丑出,GPT-4o 生成的内容有不少污点,但是如故比 Llama 4 要略微好一些。
有 Reddit 用户致使嘲谑:“还记适合初 DeepSeek 发布时,就有传言称 Meta 里面因此感到病笃,比拟之下, 其 Llama 4 的阐扬太让东谈主失望了,以至于 Meta 一度徘徊要不要发布它吗?当今看来,他们也许确切应该跳过这一代,径直上 Llama 5 才对...”
还有网友爆料,“他们如实破除了原来的 Llama 4,然后再次尝试使用 Deepseek 的架构,才有了当今的 Scout 和 Maverick。”
在争议继续发酵之际,一位自称是 Meta 里面职工的用户 “dliudliu” 在一亩三分地社区发文,走漏了 Llama 4 背后的更多细节。他写谈:
在经过反复磨真金不怕火,其实里面模子的阐扬依然未能达到开源 SOTA,致使与之出入甚远。
然则,Meta 高层提议将各个 benchmark 的测试集搀杂在 post-training 过程中,办法是但愿不详在各项标的上交差拿出一个“看起来不错”的收尾。而要是未能在 4 月底的成就的 deadline 前达成标的,后果将不胜设思。
昨日,Llama4 发布之后,X 和 Reddit 上一经有好多东谈主实测收尾稀奇差。
行动一项咫尺也在学术界的东谈主,我实在无法秉承这种作念法。因此,一经提交下野恳求,况兼明确示意之后 Llama4 的 Technical Report 中不要署上我的名字。Meta 的 VP of AI 亦然因为这个原因辞职的。

回看本月初,据外媒报谈, Meta 东谈主工智能盘问副总裁、 曾经重度参与过 Llama AI 的 Joelle Pineau 在职职 8 年后下野。一切也齐和这位自称 Meta 里面职工的表述对得上。

与此同期,驳斥区也有 网友示意,“ 行动之前在 Meta 实习过的东谈主,这是确切。我不思说太多,但 GenAI 组织很乱,照拂层莫得整合模子的劝诫,而且会因为政事原因而争吵想象有策画。稀奇倒霉的团队,阔绰了大齐的诡计资源。 ”

倘若为真,那 Llama 4 阐扬欠安的情况也就不难和会了。

临了,还有网友尖锐点评谈,「Llama 4 的 Scout 和 Maverick 两款模子让我大失所望。也许这也能讲解为什么 Meta 的 AI 盘问负责东谈主 Joelle Pineau 最近会被受命。
这些模子为若何此鄙俚?问题可能出在它们的“巨匠搀杂”架构顶用了太小的巨匠模子——唯有 170 亿参数?放在今天这个时间,如实显得有些“小”。
Meta 的窘境也评释了一个实际:就算你手抓环球最多的 GPU 和数据,要是莫得清新的点子,也巧合能造出开首的 AI。反倒是像 DeepSeek、OpenAI 这么的公司,的确靠窜改在股东 AI 上前。AI 不是靠砸资源就能惩办的活儿,它最终拼的,如故脑子。」

至此,Llama 4 你用上了吗?你以为它是否名副其实,如故如实有些“货不合板”?迎接留言分享你的体验和主张。
参考:
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/
https://x.com/deedydas/status/1908749649642663959/photo/1
https://www.1point3acres.com/bbs/forum.php?mod=viewthread&tid=1122600&page=1&authorid=1241854