智谱 AI 领跑司南 OpenCompass 2.0 月度榜单，GLM-4 展示强大实力

2024/5/22 14:28:53 来源：之家网站作者：- 责编：-

评论：

近期，大模型开源开放评测体系司南（OpenCompass 2.0）公布了 2024 年 4 月大语言模型最新评测榜单，智谱 AI 的 GLM-4 继续保持国产大模型第一的领先身位。

大模型开源开放评测体系司南（OpenCompass 2.0）由上海人工智能实验室发布。其月度榜单从基础能力和综合能力的设计出发，构建了一套高质量的中英文双语评测基准体系，对主流开源模型和商业 API 模型进行了全面评测分析。评测榜单涉及的大语言模型和多模态大模型超过 150 个，更有包括 Meta、阿里巴巴、腾讯、百度等 30 余家国内外企业和科研机构采用 OpenCompass 助力开展技术研发。

在 4 月客观评测榜单中，OpenCompass 基于语言、知识、推理、数学、代码、智能体六个维度构建了 15000 余道高质量中英文双语问题，并引入 OpenCompass 团队首创的循环评估 (Circular Evalution) 策略，系统性分析了国内外大模型的客观性能。其中，GLM-4 位列第四名，仅次于 GPT-4-Turbo 系列与 Claude3-Opus，成为国内大模型客观评测月度总榜第一名。在语言维度方面，GLM-4 分数达到 57.7 分表现突出，超过 GPT-4-Turbo 系列与 Claude3-Opus。在知识维度上，GLM-4 得到 68.9 分，超过第二名的 GPT-4-Turbo-1106，与第三名 Claude3-Opus 不相上下。

智谱 AI 领跑司南 OpenCompass 2.0 月度榜单，GLM-4 展示强大实力

值得一提的是，GLM-4 此前便长期占据 OpenCompass 2.0 榜单前列，并多次在权威榜单与全球顶级大模型一较高下。清华《SuperBench 大模型综合能力评测报告》显示，GLM-4 在语义理解等方面的能力表现超过了 GPT-4-Turbo 等国际一流模型，在代码、智能体等方面，排名国内第一。在 SuperCLUE-Fin (SC-Fin) 中文原生金融大模型测评基准中，GLM-4 斩获一项 A + 及多项 A 级评价，在国内大模型中排名第一。

据了解，GLM-4 是由智谱 AI 于今年 1 月推出的新一代基座大模型。GLM-4 整体性能逼近 GPT-4，它可以支持更长的上下文，具备更强的多模态能力。同时，它的推理速度更快，支持更高的并发，大大降低推理成本。依托 GLM-4 All Tools 能力，GLM-4 智能体能够实现自主根据用户意图，自动理解、规划复杂指令，自由调用网页浏览器、Code Interpreter 代码解释器和多模态文生图大模型以完成复杂任务。

开发者可以通过智谱 AI 大模型开放平台 bigmodel.cn 接入 GLM-4 模型开放 API，便捷高效地体验 GLM-4 的强大能力。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

智谱 AI 领跑司南 OpenCompass 2.0 月度榜单，GLM-4 展示强大实力

相关文章