“AI源神”的AB面：小参数大模型也能“反思”，但只是有限开源一起来看看!

时间：2024-05-08 23:50:02 编辑：

导读【“AI源神”的AB面：小参数大模型也能“反思”，但只是有限开源】具体的是什么情况呢，跟随小编一起来看看！经济观察网记者钱玉娟 ...

【“AI源神”的AB面：小参数大模型也能“反思”，但只是有限开源】具体的是什么情况呢，跟随小编一起来看看！

经济观察网记者钱玉娟距离Llama 3模型发布已经过去两个多星期，但全球开发者对这个号称“开源之王”“AI源神”的开源大模型，仍然热情不减。

截至5月8日发稿前，这个美国社交巨头Meta旗下的开源大模型，在全球代码托管服务平台GitHub上的星标（Stars）数值已接近19600，并且该数据还在持续增长。星标是大模型项目在GitHub上的用户收藏规模，可以反映全球开发者对该模型的关注度。

开发者对Llama 3模型的追捧，不仅在于Meta宣称它是目前市场内相同体量下性能最好的开源大模型，还因为Meta提供了有力的支撑条件——Llama 3模型的两个版本都是在含24000个英伟达显卡（GPU）的算力集群上训练的，使用了15万亿个（15T）Token（文本中的最小单位）组成的高质量预训练数据集。

陈天楚在浙江大学计算机系统结构实验室从事大模型相关研究工作。他在对Llama 3模型调优的过程中发现，这个由强大算力、优质且海量数据支撑的开源大模型，确实给那些没有足够算力的企业或个人用户，“打开了一个开放体验的窗口”。

不过，陈天楚也表示，考虑到Llama 3模型对某些领域的使用许可和对数据输出再训练的限制，它并非一个完全意义上的开源大模型。

Llama 3究竟强大在哪？

4月18日，Meta发布Llama 3模型，并对开发者开放80亿（8B）和700亿（70B）两个参数规模的版本——Llama 3 8B模型和Llama 3 70B模型。当天恰好是AI行业学者吴恩达的生日。作为AI开源的倡导者，吴恩达感慨“（Llama 3模型是）至今为止最好的礼物”，并向Meta表示感谢。

在发布几小时后，Llama 3模型便在AI代码社区Hugging Face的模型排行榜单上史无前例地“霸榜”了。此后，英伟达高级科学家Jim Fan更是发出预言：“Meta 即将推出的Llama 3 400B将成为一个分水岭。即社区将获得开源重量级的GPT-4模型。”

Meta一直强调创新、扩展和优化的重要性，但它在开发Llama 3模型时，并未对上一代模型Llama 2的架构和底层算法做出太大的调整。两代模型间的变量更为集中地体现在数据工程上。

Llama 3模型使用的预训练数据集超过15万亿个Token，比Llama2使用的数据集大7倍，包含的代码量也多了4倍，这反映出Meta在开发该模型的过程中投入了丰富资源。此前Meta也表示：“数据的增多，帮助（Llama 3）模型更好地识别差异和模式。”

Llama 3 8B模型是Llama 3的小参数版本。陈天楚称，国内外目前开源的大多数8B体量模型，一般使用2000亿个（0.2T）Token的数据集就能满足训练需要，而Meta为训练Llama 3模型扩充的语料出人意料。

除此之外，Llama 3模型使用的算力卡更令人惊叹，它是在含24000个英伟达GPU的算力集群上训练的。超大规模的算力集群会带来网络通信优化、电力基础设施构建等工程上的挑战。陈天楚说，不论在开源还是在闭源社区，鲜见用如此多资源去训练一个小参数大模型的案例。

因此，Llama 3模型一经发布，便吸引了众多大模型玩家对它进行测试、微调等重训工作。开源模型社区开源智友（OpenBuddy）就是其中之一，它由陈天楚担任模型训练负责人。

Meta在官方博客上表示，Llama 3模型只针对英语输出进行了微调，主要提供英语方面的对话能力。而在Llama 3面市3天后，OpenBuddy团队就在汇集AI开发者的魔搭社区内，发布了一个支持中文的Llama 3 8B模型优化版本——OpenBuddy-Llama3-8B模型。陈天楚说：“我们主要优化了它的跨语言理解能力，让它在中文方面具备更强的稳定性和认知能力。”

陈天楚透露，一位魔搭社区用户向OpenBuddy团队反馈，OpenBuddy-Llama3-8B模型对一些中国传统文化或小众的中文知识点掌握得不够精确，但它比同体量的开源模型具有更大的潜力。该用户还认为，它对中文的认知理解能力，已接近大参数中文原生大模型。

一般情况下，体量在70B左右的大参数大模型才具有反思、纠错能力。但据陈天楚观察，OpenBuddy-Llama3-8B模型“既可以对自己说过的话有认知，意识到错了，还能在承认错误后有一个反思的过程，重新更正一个答案”。

小参数大模型多被认为适合处理简单的日常事务。可Llama 3 8B及其衍生模型表现出了更深层的反思和纠错机制，让开源社区的用户们意识到，复杂认知不再是大参数大模型的专利。陈天楚据此预判，在某些预算有限的垂直行业领域中应用Llama 3 8B模型，或将存在更多的可能性。

有限开源的“开源之王”

Llama 3模型强大且开源的特性，更让开发者对它冠以“开源之王”“AI源神”的称号，但陈天楚对此有不同看法。

OpenBuddy团队一直致力于为开源社区提供强认知智能的中文开源模型。他们在一个新的开源大模型发布后，往往会第一时间查看该模型的许可（License），看它是不是有被限制的使用方法。陈天楚说，如果它只能用在某一特定的语言，或者它不能商用，“这意味着我们基于这种开源基座（调优）的衍生结果，也可能会受到同样的限制”。

而OpenBuddy团队发现，Llama 3模型实际上限制了某些领域的使用许可，经由它输出的数据并不能用于训练其他模型。

陈天楚注意到，对于要进行模型应用开发的企业而言，Llama 3模型的掣肘问题并非语言，而是它并不支持用户规模巨大的企业商用。“包含关联公司在内，7亿月活以上的厂商都是不可行的。”

陈天楚还十分关心大模型的训练数据来源和数据去向。但OpenBuddy团队在对Llama 3模型调优的过程中发现，包括Meta在内的很多开源厂商，都不太愿意把数据来源或数据比例进行公布。陈天楚称，这可能是因为他们会用到一些有版权的数据进行训练。

基于上述限制因素，陈天楚从开源社区的严格定义上分析，Llama 3不完全是一个开源大模型。“它还是一个有所保留的开放模型，（我们）不能真正定义它为一个开源的作品。”

对于Llama 3模型的有限开源，云从科技研究院产品总监孙进认为，开源的版本一定不是大模型最好的版本。“如果有平替GPT-4（美国AI公司OpenAI研发的大模型）的模型，即使（它）开源，也会是阉割之后（的）再开源。”

去年至今，国内外不少厂商将旗下的大模型开源。但孙进与一些行业客户交流下来发现：“他们都经历了（对开源模型）从入门到放弃的过程，现在来找我们直接采购大模型算法。”

孙进的团队也曾接到一些地方政府的需求，“给一些补贴，（让）我们开源大模型技术”。但他们至今没有实际推进此事。在孙进看来，如果一家厂商选择开源大模型，需要配套的算力运营生态来支撑盈利模式，只有云计算、算力硬件、初创AI企业才有开源大模型的动力。

陈天楚理解厂商对开源大模型商业模式的关注，但他并不建议所有厂商从零开始训练大模型。“追踪开源社区的最新成果，可能也是一条值得考虑的路线。”

从Llama 3模型的开放模式看，陈天楚认为，该模型为开源社区打开了一个窗口——它不仅令开发者认识到，使用巨量的算力和数据集能够让大模型达到怎样的结果，也为很多没有足够算力的企业或个人用户提供了体验大模型能力的机会。

陈天楚说，Meta为了训练Llama 3 8B模型，投入了百万小时的H100（一款英伟达GPU）算力，这是任何一家初创企业承受不起的。考虑到该模型实现了不错的训练效果，他判断，在未来很长一段时间内，特别是在英语环境下，基于Llama 3模型的进一步优化、开发，会成为一些初创企业在商业上颇有意义的选项。

以上就是关于【“AI源神”的AB面：小参数大模型也能“反思”，但只是有限开源】相关内容！

标签：

免责声明：本文由用户上传，如有侵权请联系删除！

上一篇：热度散去香飘飘销量暴跌一起来看看!

下一篇：最后一页

猜你喜欢

2024-05-08祥生控股前4月合约销售额16.37亿元一起来看看!

2024-05-08苏州相城112亩宅地预计6月5日出让起拍总价16.1亿元一起来看看!

2024-05-08合肥调整公积金贷款政策夫妻双方最高可贷120万元一起来看看!

2024-05-08站上2500亿新台阶沧州银行的高质量发展之路一起来看看!

2024-05-08兆源地产杭州拱墅区项目建设方案公示拟建11幢高层一起来看看!

2024-05-08温州市2024年度计划供应商品住宅用地188.7公顷一起来看看!

2024-05-08北京朝阳区一次性推出50宗重点地块及项目一起来看看!

最新文章

2024-05-08“AI源神”的AB面：小参数大模型也能“反思”，但只是有限开源一起来看看!

2024-05-08红米手机WCDMA版是什么意思

2024-05-08热度散去香飘飘销量暴跌一起来看看!

2024-05-08什么是平坦糜烂性胃炎

2024-05-08池石镇在韩国有名吗 rm中的谁因妻子身体不适提前离开颁奖典礼

2024-05-08六一儿童节给宝宝化妆造型图片

2024-05-08光遇3.25任务怎么做

热点推荐

11-23 我很遗憾地告诉你我引诱了博德之门3中最疯狂的浪漫选择

11-23 动物之森新地平线玩家发现了制作数千个铃铛的简单方法

11-23 感谢AMD我们距离我梦想的Starfield游戏PC又近了一步

11-23 这位漫威导演认为超级英雄疲劳确实存在但他的目标是通过一部古怪的续集脱颖而出

11-23 DC社区不知道该相奇女侠3的什么了我们不怪他们

11-23 无主之地4毕竟还没有得到确认

11-23 暗黑破坏神41.1.12补丁说明已发布多人噩梦地下城农场已死亡

11-23 我无法将目光从神奇四侠被删除的场景中被深深诅咒的金刚狼客串上移开

11-23 每个人都喜欢这部关于德古拉在船上的新恐怖电影

11-23 速度与激情导演澄清范迪塞尔对速度与激情大结局三部曲的评论这是一次一步

11-23 布丽拉尔森在漫威独家新造型中回归饰演惊奇队长

11-23 巫师制片人可能透露了该剧如何重塑杰洛特但社区并不买账

11-23 Rockstar与GTARP中最知名的人物之一联手

11-23 368名博德之门3玩家违背D&D逻辑在短短四天内完成了游戏

11-23 博德之门3最受欢迎的职业是圣骑士65%的玩家站在正义一边

精选文章

新的阿索卡预告片证实了我们已经怀疑的事情

侠盗猎车手6相关公告将于12月3日发布

博德之门3第一幕实际上是一个很长的教程

蓝甲虫导演澄清詹姆斯冈恩在最终剪辑中投入了多少精力

大学教授利用王国之泪教授工程课程

ChatGPT的未来只是变成了马戏团

虚幻引擎5.3流明路径追踪比较视频凸显了硬件流明是多么令人印象深刻

赛博朋克2077猎户座虚幻引擎5开发是一个挑战

扎克施奈德的反叛月亮电影有了有趣的新片名第2部分可能会在2024年4月上映

龙腾世纪粉丝提醒博德之门3玩家最好的浪漫故事首先属于BioWare

使命召唤现代战争III耗时1.5年制作大锤想要制作高级战争2

博德之门3荣获金摇杆奖成为2023年首个GOTY大奖

博德之门3导演希望未来能看到更多cRPG

现代战争III是目前评价最差的使命召唤

新的任天堂独立世界广播周三凌晨开始