这一天还是来了,AI 在操作系统里启动了一个自己的副本。
往小了说,不过是多模态大模型通过操纵鼠标键盘的 API 执行任务。
往大了说,也可以算是“AI 复制自己”的雏形了。
从 AI 这一顿眼花缭乱的操作中可以看出,核心是多模态大模型,通过截图判断屏幕上正在发生什么,生成下一步操作的计划,调用系统接口执行之后再次截图。
要按网友建议加上语音识别功能,真就能模拟钢铁侠的贾维斯了。
AI 能不能复制自己,是 OpenAI 内部始终关注的安全测试内容之一。但 GPT-4 出道至今,这项测试结果一直没有公布。
如今,先不管模型本身有没有这个能力,接入 GPT4V 的开源项目已经可以做到了。
AI 与操作系统结合
这个开源项目叫作 Open Interpreter,GitHub 热榜常客,半年时间已积攒 3.7 万星。
从名字也可以看出,最早只是一个 ChatGPT 代码解释器的开源升级版。
与 OpenAI 官方版相比,没有 3 小时 50 条对话的限制,以及可以连接网络、可以自定义预安装的 Python 包等等好处。
发布不久后初代作者 Killian Lucas 就想到,为什么一定要在虚拟沙箱环境执行代码?直接让 AI 接入真实系统有更大的可能性。
于是,第二个大版本就是操作系统级 AI Agent 了。
Open Interpreter 最近更新了第三个大版本,其中接入的大模型改为多模态版本。
核心贡献者 Ty Fiero 展示了 AI 自动发送邮件。
以及更复杂的 AI 操作专业编曲软件作曲。
团队在这个版本设计了全新的 Computer API,并且与原本的 Open Interpreter 分离,可以独立运作。
在新版本更新文档中,可以看出团队更大的野心:着手开发 AI 时代新的计算机架构,也就是语言模型计算机 LMC(Language Model Computer)。
Kilian 借助 CES 上 199 元的 AI 掌机 Rabbit R1 爆火的机会公开招募开发者加入,打算快速复刻一个开源版本,硬件成本不到 50 美元。
不到 48 小时,就有超过 200 位工程师和设计师愿意加入这个项目,评论区中还不断有人继续申请中。
不知道这个团队回复大量应聘邮件和私信,用的是不是 AI。
参考链接:
[1]https://twitter.com/fieroty/status/1746639975234560101
[2]https://github.com/KillianLucas/open-interpreter
本文来自微信公众号:量子位 (ID:QbitAI),作者:梦晨
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。