IT之家 1 月 6 日消息,昆仑万维集团今日宣布,天工大模型 4.0 o1 版和 4o 版同步上线,全量登陆网页端和 App 端,可免费使用。
天工大模型 4.0 o1 版号称国内首款具备中文逻辑推理能力的 o1 模型,不仅包含上线即开源的模型,还有两款性能更强的专用版本。其能够熟练处理各种推理挑战,包括数学、代码、逻辑、常识、伦理决策等问题。
天工大模型 4.0 4o 版则是一款多模态模型,官方还推出了由其赋能的实时语音对话助手 Skyo,是一个“具备情感表达能力、快速响应能力、多语言流畅切换”的智能语音对话工具。
IT之家从官方获悉,Skywork o1 具备三阶段自研训练方案:
推理反思能力训练:Skywork o1 通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。此外,我们在版本迭代中通过大规模使用自蒸馏和拒绝采样,显著提升了模型的训练效率和逻辑推理能力。
推理能力强化学习:Skywork o1 团队研发了最新的适配分步推理强化的 Skywork o1 Process Reward Model(PRM)。实验证明 Skywork-PRM 可有效地捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。
推理 planning:基于天工自研的 Q * 线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将 Q * 算法实现和公开。Q * 算法落地也大大提升了模型线上推理能力。
相关阅读:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。