文章ID:410时间:2023-11-30人气:
出品|51CTO技术栈(微信号:blog51cto)
昨天科技圈社区HackerNews突然出现一则消息,矛头直指不久前发布的大模型Yi-34B,认为其除了两个张量被重新命名外,完全使用了Llama的架构。
今年3月,李开复在朋友圈发英雄帖,官宣组建零一万物团队。仅仅7个月后,零一万物就发布了开源中英双语大模型“Yi”。据有关资料显示,在获得创新工场、阿里云和其他未披露投资者的融资后,零一万物的估值已超过10亿美元。
更令人瞩目的是,据零一万物官方介绍,Yi-34B不仅以黑马之姿取得了多项SOTA国际最佳性能指标认可,而且成为了迄今为止唯一成功登顶HuggingFace全球开源模型排行榜的国产模型。
因此,无论是圈内还是圈外,都在关注:“Yi”如何面对这一质疑,后续会有何回应。
事件的肇因是一篇发布于HuggingFace的帖子。
一位署名为ehartford的开发者于9天前在社区留言。他首先指出,据其了解,Yi使用的正是Llama的架构,除了重新命名了两个张量(input_layernorm,post_attention_layernorm)。
更重要的是,由于围绕Llama架构有大量的投资和工具,因此对张量使用相同的名称是有价值的。因此他希望,在该模型获得大量采用之前,开源社区重新发布Yi,并“重新命名张量,以便有一个符合Llama架构的版本”。
下面有跟帖的开发者也指出:如果他们确实采用了MetaLlaMA结构、其代码库和所有相关资源,就需要遵守LLaMA规定的许可协议。要求以LlaMA形式正式发布Yi模型是有问题的,因为它破坏了Yi许可条款的可执行性。
随后又有热心网友挖出了前阿里VP贾扬清在朋友圈发的一张图,直言某国产大模型实际上是抄袭的LlaMA,为表示不一样就更换了几个变量名。甚至还犀利讽刺道:如果是开源的模型架构,就不要改名字了,“免得我们还做一堆工作就为了适配你们改名字”。虽然贾扬清没有指名道姓,但有留意此事的人不免“对号入座”。
对于此番争议,零一万物随后给出了自身的回应。
就在昨天,其团队开源总监RichardLin在HuggingFace社区原贴之下指出“命名问题是团队的疏忽,在大量训练实验中,我们对代码进行了多次重命名以满足实验要求。但在发布正式版本之前,我们没能将它们切换回来。对此我们深感抱歉,由此造成的混乱我们也深表歉意”。
RichardLin向原贴主承认修改张量名称的做法不妥,“您对张量名称的看法是正确的,我们将按照您的建议将其从Yi重命名为Llama。我们也非常重视以准确、透明的方式完成工作。”
与此同时,他也给出了解决方案:要么邀请这名发现问题的开发者提交一条包含这些变更的拉取请求,要么由他们团队处理更新按要求操作并在同一个repo中发布新版本,从而完成对Yi的张量名称进行重命名以符合Llama架构。
最后RichardLin重申,他们会努力改进工作流程,确保不会再次发生类似的失误,“接下来我们将再次检查所有代码,确保其余部分准确无误”。
有人说,LLaMa本就是开源的模型,使用LLaMa的架构是正常的大模型训练步骤。而且国内已发布的开源模型也绝大多数采用渐成行业标准的GPT/LLaMA的架构。要训练出好的模型,除了架构之外,更需要好的训练数据和对训练方法和具体参数的精准把控。
正如零一万物在今天下午发布的公告所表达的:大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。
全文核心观点可总结如下:
其实这不是本土大模型首次被质疑“套壳”。
不久前,外界对百川智能开源模型Baichuan-7B同样提出了是否套壳LLaMa的质疑。彼时,王小川表示,搜索公司干了20年,团队对语言数据有深入的理解,知道取得高质量语料的渠道,模型迭代速度很快,“国内开源模型的能力目前已经可以达到LLaMa”。
那么到底什么是套壳,什么又是合理利用既有开源成果?众所周知,固然选择同一种架构,用不同数据集训练出来的模型也会有所差别。不过,Yi此次引发的争议的焦点在于其对于开源模型架构的“魔改”命名。所以回归事件本身,实质还是一个“用了你的成果,却换了你的牌子”的故事。
当Yi-34B刚发布时,李开复在接受外媒TechCrunch采访时曾说,引入开源LLM作为零一万物首个产品的决定是“回馈”社会的一种方式。对于那些觉得LlaMA对他们来说是“天赐之物”的人来说,“我们提供了一个令人信服的选择”。如今看来,到底能不能让人信服,还是要留待时间的检验了。
北京市海淀区中关村南1条甲1号ECO中科爱克大厦6-7层
北京市公安局海淀分局备案编号:110108002980号营业执照
内容声明:1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:http://www.wkong.net/article-410.html,复制请保留版权链接!
在一款完美的信息类游戏中,如果你所需要的一切都能够让每一个玩家在游戏规则中看到,这不是一件很神奇的事情吗?
2023-11-30 18:00:38
由于目前有太多的驱动器可供选择,因此我们在选择NAS驱动器可能会让人感到有点不知所措,需要容纳所需的数据量、考虑冗余等等。但是,我们可以采取明确的步骤来为您的NAS设置选择合适的驱动器。
2023-11-30 18:00:33
产品针对数据分片策略部分做的不多,主要是对兼容类的评估工具;即根据数据库自身能力,评估原有对象、SQL语句需要做哪些改造等。
2023-11-30 18:00:15
扑卡龙智能停车设备制造有限公司-河北扑卡龙智能停车设备制造有限公司
2023-09-17 17:22:57