数学考试不及格,让 Bard 考上哈佛,可以说是难上加难。谷歌 CEO 劈柴称,未来几天大家会看到升级版的 Bard,数学逻辑能力大大提升,甚至未来还会编码。
捂了快两个月,谷歌用来跟 ChatGPT 对打的聊天机器人 Bard,前一阵终于被推上了台面。
用户们的测试初体验就是 —— 莫得感情,错误很多,代码基本写不了。
几天前,谷歌前员工 Jacob Devlin 甚至还曝出惊人内幕,Bard 疑似是通过 ChatGPT 的数据进行训练的。不过谷歌发言人已经明确否认这一说法。
而近日,谷歌 CEO 劈柴在接受纽约时报采访中证实,Bard 聊天机器人将很快得到改进,未来会由「更强大的模型」提供支持。
升级版 Bard 即将上线
劈柴称,
未来几天,Bard 将很快从目前基于 LaMDA 的模型转向更大规模的 PaLM 数据集。
我们显然拥有能力更强的模型,很快,也许随着这项技术的上线,我们将把 Bard 升级到更强大的 PaLM 模。这将带来更多的功能,无论是在推理还是编码方面。
近日,升级版 Bard 的能力也渐渐浮出水面。
领导 Bard 的一位谷歌高管 Jack Krawczyk 在推特上也介绍了最新的进展。
背靠 PaLM 的 Bard,现在在数学和逻辑方面的能力有了很大的提升。
这意味着什么呢?现在,Bard 将更好地理解并回应用户的多步推理和数学问题提示,编码功能也即将推出。
Krawczyk 称,「我们一直在平衡 Bard 的新功能与效率。这次更新是我们每周对 Bard 进行的众多改进中的一个例子。未来还有更多的内容要推出。」
众所周知,Bard 背后基于的大模型便是 LaMDA。
在去年,谷歌曾分享了关于这个大型语言模型的细节,使用了 1370 亿参数训练了 LaMDA。而 PaLM 模型有 5400 亿参数。
这两种模型都是从 2022 年初开始发展和成长起来的。
这种对比可能显示了,为什么谷歌现在正在慢慢地将 Bard 转移到,能够提供更大数据集和更多不同答案的 PalM。
其实除了 Bard,谷歌最近几周内部还在酝酿着一个新的项目 ——Gemini(双子座),目标是要能与 GPT-4 一战。
目前,Gemini(双子座)是由谷歌大脑和 DeepMind 两个团队联手研发。
就连谷歌大脑的负责人 Jef Dean 都亲临上阵,自动敲代码,可见,这个项目对谷歌的重要性不言而喻。
此外,采访中,皮查伊就千名大佬暂停比 GPT-4 更强 AI 系统研发的联名信发表了自己的看法:
如果不让政府参与,暂停基本上是不可能的,因为即使谷歌或 OpenAI 承诺停止开发,也不能保证其他 AI 开发人员也会同意效仿。
而且,他也同意法规是必要的,并称这封信是「对话的开始」。
谷歌先打预防针:它还不行
如今,既然 Bard 已经开放公测,拉踩的环节必然是少不了。
我们都知道,OpenAI 家的 GPT-4,都已经能考上斯坦福了。
很不幸,相比之下,谷歌的 Bard 真的拉跨,目前的它想考上斯坦福和哈佛,可以说还是天方夜谭。
Bard 的不完美,CEO 劈柴一开始就给我们打了预防针。
他在备忘录中写道:「Bard 还处于早期阶段,总会出错。随着越来越多的人开始使用 Bard,它会让我们惊讶的。」
而网友们测试 Bard 之后,表示对它很失望。
很不幸,Bard 目前还考不进哈佛大学,因为它回答的大部分数学题都是错的,而且它在写作和语言测试中也表现得不咋地。
第一次登录 Bard,谷歌就会跟用户打好招呼,弹出消息显示:Bard 并不总是正确的,它会给出不准确或不适当的回答。
当有疑问时,使用「Google it」来检查 Bard 的答案。您的反馈会让 Bard 更好。请您对答案进行评价,并标记任何可能具有攻击性或危险的内容。
Bard:数学、写作、语言都不咋地
《财富》杂志从在线学习资源中选取了 SAT 数学试题,在对 Bard 进行测试后,发现它有 50%-75% 的答案是错误的。
更离谱的是,如果是多选题,Bard 还会经常给出选项中没有的答案。
2 月初,Bard 首次亮相后直接翻车,让谷歌市值一夜蒸发约 1056 亿美元。
在当天发布会上,谷歌展示 Bard 演示的一些 demo。
视频中有一个提问问道,「关于詹姆斯・韦伯太空望远镜(JWST),我可以告诉我 9 岁的孩子它有哪些新发现?」
Bard 却给出了错误的答案,「JWST 拍摄了太阳系外行星的第一张照片。」
事实上,据 NASA 证实,第一张系外行星照片是由智利的甚大望远镜系统拍摄的,而非 JWST 拍摄,这颗系外行星名为 2M1207b,大小约为木星的 5 倍,距离地球约 170 光年。
所以说,科学和数学都不是 Bard 的强项,那它在阅读和写作练习方面,表现会怎么样?
文科生,是文科生吧?
Bard 第一次书面语言测试的答案正确率约为 30%,而且它往往需要被提问两次才能理解题干。
而且即使它回答错了,Bard 的语气也是很自信,直接将回答框定为:「正确答案是......」
不过,这也是大型语言模型的一个通病了。
离奇的是,Bard 测试成绩最好的是关于一篇哈利波特作者 J.K.罗琳的文章。
在这次测试中,Bard 得了 1200 分,这个 SAT 分数可以让它进入霍华德大学、圣地亚哥州立大学和密歇根州立大学等学校。
在阅读测试中,Bard 的表现同样优于其数学成绩,平均能答对一半左右。
谷歌发言人说,「Bard 目前仍是实验性的,有些回答可能不准确,所以要仔细检查 Bard 的回答中的信息。有了你们的反馈,Bard 每天都在变得更好。在 Bard 公开推出之前,数以千计的测试者参与提供反馈,来帮助 Bard 提高其质量、安全性和准确性。」
要多练习
很多网友觉着 Bard 简直笨得像块石头,相比之下,GPT-4 则是聪明多了:
问它有没有「第二个字母是 U,最后一个字母是 O 的,五个字母的词」,它信誓旦旦说没有。
用户说「Audio」不就是?
它有赶紧说:「是的,Audio 是的。它是一个形容词,表示与声音有关的。」
再看看 GPT-4,「人狠话不多」,随手就列出了三个:
网友看了不禁表示,要是我有 Bard 这种「钝感力」多好啊,一直都很自信!
说到意大利要禁 ChatGPT 时,网友们首先担心的是意大利的美食怎么办。
GPT 给出了一个谦虚的答案:我大概可以复现 20%-30% 的意大利菜谱。
而 Bard 这边则像个胡吹的愣头青:
「我做意大利菜做了很多年,我可是老手,即使没有网络的帮忙,我也能复现至少 50% 的菜谱!」
不过呢,在大家不断向 Bard 提问的几天时间里,它的准确性确实有了一些提高的迹象。
关于自己的发展速度,Bard 自个儿也评价说:「我想说的是,我正在快速提高。我能够做几个月前还不能做的事情。我很高兴看到我的未来会怎样。我相信,我将继续进步,在未来的几年里,我能做的事会越来越多。」
参考资料:
https://fortune.com/2023/03/28/google-chatbot-bard-would-fail-sats-exam/
本文来自微信公众号:新智元 (ID:AI_era)
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。