GLM-4-Plus 在 SuperCLUE 基准测评和司南 Compass Arena 榜单均位居国内第一

2024/11/16 18:08:10 来源：之家网站作者：- 责编：-

评论：

11 月 8 日, 中文大模型测评基准 SuperCLUE 发布《中文大模型基准测评 2024 年 10 月报告》, 智谱 GLM-4-Plus 凭借出色的能力表现, 在 43 个国内外大模型中位居第一梯队, 总得分位列国内大模型首位。

SuperCLUE 中文大模型基准测评旨在通过多维度综合性测评, 对国内外大模型的发展趋势和综合效果进行实时跟踪。本次 10 月报告聚焦通用能力测评, 选取了国内外有代表性的 43 个大模型, 采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview 的推出进一步拉大了与其他模型的差距, 国内大模型第一梯队竞争激烈, 持续迭代表现不俗。其中国内闭源模型 GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0 表现优异, 与 ChatGPT-4o-latest 相距 2 分以内。基于大模型在基础能力和应用能力的表现, 共有 23 个国内大模型入选 SuperCLUE 模型象限。智谱 GLM-4-Plus 位居【卓越领导者】, 代表模型在基础和场景应用上处于领先位置, 引领国内大模型发展。

11 月 14 日, 在司南 OpenCompass 公布的大语言模型对战榜单 Compass Arena 中, 智谱 GLM-4-Plus 的竞技场评级分数位列榜首, 领先 GPT-4o-20240513。

Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票, 依据投票结果, 使用 Elo 评分系统对大模型进行排名。

据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本, 它标志着智谱继续瞄准通用人工智能, 持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型, 在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座, 在代码计算、数据分析、图像 / 视频特征识别等领域均实现性能的大幅提升, 及成本的大幅下降, 目前已上线智谱开放平台 bigmodel.cn。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

GLM-4-Plus 在 SuperCLUE 基准测评和司南 Compass Arena 榜单均位居国内第一

相关文章