李开复被大模型闪了腰，大模型陷套壳争议

大力财经 时间：2023-11-16 发表评论

李开复在AI领域的创业历程备受关注。今年3月，他投身大模型创业，成立了零一万物。

然而，最近贾扬清爆料称，零一万物的新模型使用了LLaMA架构，仅仅在代码中修改了几个变量名。这一指控引起了外界的广泛关注。

在11月6日，零一万物发布了“Yi”系列开源大模型，包括Yi-34B和Yi-6B。面对外界的质疑，零一万物承认在训练过程中沿用了GPT/LLaMA的基本架构。他们解释说，大模型社区在技术架构方面正逐步通用化，国际主流大模型基本上都采用Transformer的架构。

贾扬清的爆料在开源社区内引发了讨论，指责零一万物模仿LLaMA架构。零一万物的回应中表示，他们对于疏忽地更名LLaMA部分推理代码表示歉意，强调这并非刻意隐瞒来源，正在重新提交模型和代码，并补充LLaMA协议副本。

李开复也在朋友圈回应了这一事件，表示对于模型训练过程中使用的架构，关键在于“原材料”和对每一步细节的把控，而零一万物投注了大量精力在调整训练方法、数据等方面。

有关套壳和抄袭的争论并未就此平息。有创业者指出，判断是否存在套壳行为取决于实现细节和底层技术，而数据清洗的能力也是关键因素。

尽管零一万物承认使用了LLaMA架构，但在数据、训练方法和细节参数的不同处理下，最终模型性能仍然会有所不同。然而，对于国内公司而言，国产大模型在开放性、可定制性和数据隐私等方面仍具有不可替代的价值。

李振表示，国内公司直接调用国产大模型相比冒险接入meta LLaMA更为经济划算。在这个大模型竞赛激烈的时代，外界对于国产大模型的期望也不断增加。

零一万物借鉴LLaMA架构的举动使其在模型训练速度上迅速崛起。零一万物成立不久，便在11月份推出了“Yi”系列大模型产品，并在多个大模型测试集中取得了优异的表现。李开复宣称已经启动下一个千亿参数模型的训练，但在国内一些大模型公司完成千亿模型的上市发布后，零一万物仍面临加速追赶的压力。

零一万物在训练模型过程中沿用了GPT / LLaMA的基本架构。零一万物从零开始训练了Yi-34B和Yi-6B模型，并根据实际训练框架重新实现了训练代码。此外，零一万物还通过自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据），实现了训练效率倍级提升和极强的容错能力等原创性突破。这些在训练过程中的科学研究和工程实践往往能够起到巨大的作用和价值。

零一万物团队在训练大模型时，不仅借鉴了LLaMa的基本架构，还通过一系列科学研究和工程实践，实现了对模型的深度优化。他们采用了自建的高质量数据集，投注大量精力调整训练方法、数据配比、数据工程、细节参数等，并进行了严谨的实验和对比验证。

这些超越模型架构之外的研发任务是真正属于模型训练内核的关键部分，能够形成大模型技术的护城河和know-how积累。相比之下，一些开源模型虽然采用了LLaMa的架构，但并未进行足够的优化和适配，导致性能并未达到预期效果。

零一万物团队在训练过程中对模型结构进行了若干关键节点的实验和对比验证。他们尝试了不同的数据配比方案，寻找最优的数据配比方案，并对训练过程中的参数进行了精细的调整和优化。这些努力都是为了提高模型的性能和泛化能力。