设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

GLM-4-Plus 在 SuperCLUE 基准测评和司南 Compass Arena 榜单均位居国内第一

2024/11/16 18:08:10 来源:之家网站 作者:- 责编:-

11 月 8 日, 中文大模型测评基准 SuperCLUE 发布《中文大模型基准测评 2024 10 月报告》, 智谱 GLM-4-Plus 凭借出色的能力表现, 在 43 个国内外大模型中位居第一梯队, 总得分位列国内大模型首位。

SuperCLUE 中文大模型基准测评旨在通过多维度综合性测评, 对国内外大模型的发展趋势和综合效果进行实时跟踪。本次 10 月报告聚焦通用能力测评, 选取了国内外有代表性的 43 个大模型, 采用多维度、多层次的综合性测评方案进行测评。测评结果显示,o1-preview 的推出进一步拉大了与其他模型的差距, 国内大模型第一梯队竞争激烈, 持续迭代表现不俗。其中国内闭源模型 GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0 表现优异, 与 ChatGPT-4o-latest 相距 2 分以内。基于大模型在基础能力和应用能力的表现, 共有 23 个国内大模型入选 SuperCLUE 模型象限。智谱 GLM-4-Plus 位居【卓越领导者】, 代表模型在基础和场景应用上处于领先位置, 引领国内大模型发展。

11 月 14 日, 在司南 OpenCompass 公布的大语言模型对战榜单 Compass Arena 中, 智谱 GLM-4-Plus 的竞技场评级分数位列榜首, 领先 GPT-4o-20240513。

Compass Arena 大语言模型对战榜单致力于构建一个完全基于用户真实反馈的公正、开放、透明的榜单。用户根据与大模型的真实对话体验进行投票, 依据投票结果, 使用 Elo 评分系统对大模型进行排名。

据悉,GLM-4-Plus 是智谱全自研 GLM 大模型的最新版本, 它标志着智谱继续瞄准通用人工智能, 持续推进大模型技术的独立自主创新。作为智谱最新旗舰模型, 在语言理解、逻辑推理、指令遵循、长文本输出方面都有较大突破。GLM-4-Plus 成为智谱全模型家族坚实的能力底座, 在代码计算、数据分析、图像 / 视频特征识别等领域均实现性能的大幅提升, 及成本的大幅下降, 目前已上线智谱开放平台 bigmodel.cn

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:业界动态

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知