设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

清华大学合作推出看图答题小能手 CogAgent:可告知《原神》游戏操作步骤等

2023/12/27 14:00:06 来源:IT之家 作者:故渊 责编:故渊

IT之家 12 月 27 日消息,清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。

该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。

例如,用户输入一张关于 CogVLM 项目的 GitHub 的图片,然后询问如何给这个项目点“Star”,然后 CogAgent 就会反馈出结果。

图源:中国网科学

例如用户输入一张原神游戏的截图,可以询问“当前任务中的队友是谁?”,CogAgent 会给出相关的回答。

IT之家附上相关信息地址如下:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

关键词:清华AICogAgent

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知