李开复被大模型闪了腰,大模型陷套壳争议

大力财经 时间:2023-11-16 发表评论

李开复在AI领域的创业历程备受关注。今年3月,他投身大模型创业,成立了零一万物。

然而,最近贾扬清爆料称,零一万物的新模型使用了LLaMA架构,仅仅在代码中修改了几个变量名。这一指控引起了外界的广泛关注。



在11月6日,零一万物发布了“Yi”系列开源大模型,包括Yi-34B和Yi-6B。面对外界的质疑,零一万物承认在训练过程中沿用了GPT/LLaMA的基本架构。他们解释说,大模型社区在技术架构方面正逐步通用化,国际主流大模型基本上都采用Transformer的架构。

贾扬清的爆料在开源社区内引发了讨论,指责零一万物模仿LLaMA架构。零一万物的回应中表示,他们对于疏忽地更名LLaMA部分推理代码表示歉意,强调这并非刻意隐瞒来源,正在重新提交模型和代码,并补充LLaMA协议副本。

李开复也在朋友圈回应了这一事件,表示对于模型训练过程中使用的架构,关键在于“原材料”和对每一步细节的把控,而零一万物投注了大量精力在调整训练方法、数据等方面。


有关套壳和抄袭的争论并未就此平息。有创业者指出,判断是否存在套壳行为取决于实现细节和底层技术,而数据清洗的能力也是关键因素。


尽管零一万物承认使用了LLaMA架构,但在数据、训练方法和细节参数的不同处理下,最终模型性能仍然会有所不同。然而,对于国内公司而言,国产大模型在开放性、可定制性和数据隐私等方面仍具有不可替代的价值。

李振表示,国内公司直接调用国产大模型相比冒险接入meta LLaMA更为经济划算。在这个大模型竞赛激烈的时代,外界对于国产大模型的期望也不断增加。


零一万物借鉴LLaMA架构的举动使其在模型训练速度上迅速崛起。零一万物成立不久,便在11月份推出了“Yi”系列大模型产品,并在多个大模型测试集中取得了优异的表现。李开复宣称已经启动下一个千亿参数模型的训练,但在国内一些大模型公司完成千亿模型的上市发布后,零一万物仍面临加速追赶的压力。


零一万物在训练模型过程中沿用了GPT / LLaMA的基本架构。零一万物从零开始训练了Yi-34B和Yi-6B模型,并根据实际训练框架重新实现了训练代码。此外,零一万物还通过自建的数据管线构建了高质量配比的训练数据集(从3PB原始数据精选到3T token高质量数据),实现了训练效率倍级提升和极强的容错能力等原创性突破。这些在训练过程中的科学研究和工程实践往往能够起到巨大的作用和价值。

零一万物团队在训练大模型时,不仅借鉴了LLaMa的基本架构,还通过一系列科学研究和工程实践,实现了对模型的深度优化。他们采用了自建的高质量数据集,投注大量精力调整训练方法、数据配比、数据工程、细节参数等,并进行了严谨的实验和对比验证。

这些超越模型架构之外的研发任务是真正属于模型训练内核的关键部分,能够形成大模型技术的护城河和know-how积累。相比之下,一些开源模型虽然采用了LLaMa的架构,但并未进行足够的优化和适配,导致性能并未达到预期效果。

零一万物团队在训练过程中对模型结构进行了若干关键节点的实验和对比验证。他们尝试了不同的数据配比方案,寻找最优的数据配比方案,并对训练过程中的参数进行了精细的调整和优化。这些努力都是为了提高模型的性能和泛化能力。



对于外界质疑零一万物是否套壳LLaMa的问题,该团队表示,他们在训练过程中确实沿用了LLaMa的架构,但并非刻意隐瞒来源。他们将尽速完成各开源社区的版本更新,并表达了歉意。

事实上,大模型的持续发展和寻求突破口的核心不仅在于架构的选择,更在于训练得到的参数。好的模型需要好的数据、优秀的训练方法和精准的参数调整技巧。对于国内的大模型开发者来说,借鉴和利用开源模型架构是一种有效的方式,但同时也需要注重创新和优化,以实现模型的突破和发展。

在商业落地上的竞争也是一大挑战。尽管国内大模型屡次登顶测试榜单,但测试榜单的客观性备受质疑。缺乏真正公认的客观评判标准和方法,使得在新兴的大模型时代,商业价值和实际应用成为考量的重要因素。



在AI领域的浪潮中,李开复的大模型梦遭遇到外界更加严苛的审视。尽管李开复在AI投资方面积累了丰富经验,但在领导新技术落地应用方面,一些专家认为国内更缺少像山姆·阿尔特曼这样的有领导力的技术管理人才。

在这场AI革命中,中美之间的差距逐渐显现。而随着OpenAI的步步领先,国内大模型创业者面临着更为严峻的竞争。李开复曾预言AI竞争的天平将倾向商业化执行、产品质量、创新速度和大数据,而这也正是国内大模型创业者需要重点关注的方向。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
网站首页 关于我们 联系方式 使用协议 网站留言RSS订阅违规举报 友情链接