上个月,彭博社消息称苹果正在与 Google 进行谈判,希望将 Gemini 集成的 iPhone 当中,为 iPhone 的软件提供 AI 相关的新功能。把新系统的核心功能“外包”给第三方,这种做法非常不苹果。
其实苹果自己也在 AI 上做了不少投入,比如在消息传出的同期,苹果发布了自研 MM1 大模型论文,这是一个最高拥有 30B 规模的多模态 LLM,但苹果迟迟没有公布公测时间,也没有对外宣布任何上线计划。据知情人士接触到苹果内部团队后了解,团队认为自家的大模型与主流的 GPT4、Gemini 相比“不具备竞争力”,才开始寻找第三方合作商。
或许在 6 月即将举行的 WWDC 2024 上,苹果会公开自研模型的进展与第三方厂商的合作计划,毕竟届时需要对所有用户和开发者展示 iOS 18 的核心卖点。而 iOS 18 被苹果内部誉为史上升级最大的一个操作系统版本的原因,就是苹果宣称 iOS 18 上的 Siri 将会真正的成为用户的“私人助理”。
如果该合作确认落地,那由于合规问题,苹果需要在国内找一家公司进行合作,而不是直接使用 Gemini。
据了解,苹果此前曾三家公司洽谈合作 AI 大模型,其分别有百度的文心一言、阿里的通义千问、月之暗面的 Kimi,但目前概率最大的还是百度,毕竟在三星最新一代的 S24 系列产品上,大陆以外发售地区的 AI 合作方也是 Gemini,而大陆则是以百度、美图为首的一众中国大模型公司。
Gemini 在手机上能做什么?
为了了解目前 Google 在手机上能够实现哪些 AI 功能,我们找到了一台 Google Pixel 8 Pro,这是 Google 目前唯一能够运行 Gemini Nano 端侧大模型的机器,可是在体验之后,我们发现目前 Gemini 目前的大多数功能都十分依赖网络,端侧模型 Gemini Nano 能够做的事儿十分有限。
刨除因为中文系统语言设定暂不开放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以为用户提供八大核心功能:
一.魔法修图
在 Google 相册中点选“编辑”按钮,你就可以在左下角发现一个彩色的“魔法修图”图标,选择后用户就可以对照片中想要编辑的内容进行框选,框选后你不仅可以进行消除,还可以进行缩放处理。但需要注意的是,每张图片在处理之前一定要上传到云端的 Google 相册进行“备份”,并且在图片处理的过程中需要保持联网。
选择擦除后,大模型会对擦除的主体后面的画布进行“想象”并生成补充内容,并给出 4 张反馈供用户选择。在该步骤下,AI 需要识别图片中的物体,并学习该物体的大概轮廓,对应的在数据库中进行比对并给出补充。
可以看到,将图中女人删除后,Gemini 对香港的红色出租车的细节补充还是比较到位的。
你也可以将画面中的主体进行缩放,这个功能非常适合在景点合影时,修正人物不够突出的构图效果。
二、“魔法换天
在没有主体的风光照中,你也可以依靠 Gemini 对照片进行不同“时空”的转换,比如这张维多利亚港的风光照,我们点击魔法修图按钮后,可以看到 AI 判断我们可以针对天空、日落、风格化、和水进行四个大方向的调整。
这个功能非常类似小米手机上很出名的“魔法换天”,不得不说日落时分这张做的还蛮有感觉的。
水面的修改就差了点意思,修改后的这张照片拍摄视角仿佛我站在水里……
风格化的本意,是 Google 根据照片生成一张场景相同但不同风格照片,但 Gemini 直接把维多利亚港变成了田野……
三、音频橡皮擦
这应该算是本次 Google Pixel 手机“ AI 化”之后,我个人觉得唯二能体现 AI 效果的功能。在该功能下,Gemini 能够将一段视频中的的声音进行分层,并且选择性保留。
如果你是一个 Vlog 拍摄者,在拍摄例如展会等视频素材时,就可以将展览周围的人声和噪音隔绝,只保留拍摄者自己的声音,然后配上一段合适的音乐,会给你的剪辑工作省下不少的时间。
四、最佳照片
这个功能简单来说,就是在拍摄合影时可以将多张照片中大家各自最完美的“脑袋”,凑成一张完美的照片,再也不用担心拍照时有人低头、有人闭眼的情况。
五、AI 壁纸
Google 在手机端其实也提供了“生成图片”功能,但把它隐藏在了壁纸程序中,在这里,你可以选择不同主题开始创作一个专属于你的壁纸。
你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的 AI 图片并不能直接保存到相册分享给别人。
六、视频增强
之所以把这个功能放到最后,是因为从实用角度出发,它是 Google Pixel 8 Pro 升级 AI 之后,提升最翻天覆地的一功能。
视频增强功能可以让用户拍出夜景更加明亮、画面抖动更小、取消远端光学虚化、增加 HDR + 效果的,最高 4K 30 帧的视频画面,Gemini 在视频拍摄完成会进行短暂的机内计算,最终合成一个 AI 认为最完美的画面效果。
七、即圈即搜
在相册中长按底部状态栏横条,用户就可以调出 Google 的即圈即搜功能,当用户圈选图片中的某些内容后,系统就会通过 Google 搜索引擎匹配对象,给到一个答案。
但我认为与其说这是 AI 功能,不如说是图片搜索的一个全新入口。
八、语音备忘录转文字
顾名思义,Gemini 可以将文本内容同步生成文字稿,目前该功能支持印地语、德语、意大利语、日语、法语、繁体中文、英语、西班牙语共 8 个语种。
然后呢?
然后就没了…… 这几乎是你在中文系统环境下能够体验到的全部 AI 功能,其中实际应用 Gemini Nano 的端侧 AI 功能就只有语音转文字这一个,剩下就连 AI 壁纸生成都需要依靠联网完成。
可以说 Google Pixel 8 Pro 所有的核心 AI 功能点,都集中在了 Google 相册这个 App 上,且主要依靠“端云协同”,无网络环境下的 Pixel 8 Pro 可谓是一点都不智能。
在下载了 Gemini 独立 App 之后,用户可以让它替代 Google 语音助手,在自然语言处理能力上更加出色,不过并不能够和其他手机下载 Gemini App 后拉开明显的使用体验。
和百度、美图合作的国行版 S24,在 AI 功能上做得怎么样?
除去花哨且没用的“文案优化”、“文生图”这些 AI 功能之外,国产手机厂商其实已经逐渐在手机的 AI 体验上做出了不错的落地功能。
在同样没法将 Gemini 落地的国行三星 S24 系列来说,三星 AI 主要的功能点体现在“通话实时翻译”、“即圈即搜”、“魔法修图”这三个核心功能。
除去通话实时翻译之外,“即圈即搜”和“图片重构”我们在上文的 Google Pixel 8 Pro 上均已体验到,只不过 Pixel 用的大模型是 Gemini,而国行三星则是由百度、京东和美图提供的定制功能。
即圈即搜这个功能两者最大的不同,并不是技术能力,而是搜索源。
Gemini 的资料库是所有可以在 Google 上搜索到的网页,比如这张著名视角的坚尼地城,Google 给出的了如携程、zFrontier 装备前线、X、微博、instagram 等网站上相近视角的信息。
而百度的资料库只有百度百科,我们用同一张照片在三星上进行搜索,由于百度百科的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案 —— 城市街道……
最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准的时候。因为这个搜索的大前提,是搜索的物品要在京东售卖,否则京东就会强行为用户匹配一个相近的商品,导致大多数时间都是“驴唇不对马嘴”。
不过,当搜索的内容在百度百科有相近角度的图片素材时,百度的搜索功能相对于 Google 就会更加准确一些,比如中央电视塔百度就可以很精准的识别出来,而 Google 智能识别出大致的位置在玉渊潭公园附近。
当然,虽然地标性建筑的搜索百度做的不错,但在京东链接上三星依旧没让我失望,这次它给的推荐是格力前置净水器…… 干得漂亮京东。
在“魔法修图”功能上,美图的能力和 Gemini 还是略有差距,我们用同样的一张照片分别在 Google Pixel 8 Pro 和三星 S24 Ultra 上进行图片重构,得出的效果确实是 Gemini 更加自然。
并且让我非常不理解的就是,在人物消除之后三星 S24 Ultra 一定要在图片左下角显示一个“内容由 AI 生成”,让人瞬间没有任何分享欲望。可以确定的是,目前其他的手机厂商的 AIGC 消除都不会强制打上这行水印,所以绝不是因为法律合规问题导致的,完全是三星的“自作聪明”。
总结
虽说在照片编辑能力和搜索能力上国内的技术提供方已经已经给出勉强追赶上 Gemini 的解决方案,但苹果做产品的思维和其他厂商是完全不同的,搭载 iOS 18 的新 iPhone 要做到的,绝不只是 Google Pixel Gemini AI 功能的“拙劣复制”。
从 Siri 刚刚发布开始,乔布斯对 Siri 语音助手的定义就不是单纯的搜索工具,而是个人智能助理。
从苹果自研基于 Ajax 的聊天机器人服务就能看出,目前苹果最看重的,其实是 Google Gemini 基于自然语义的对话能力,而不是我们上文提到在 Google Pixel 8 Pro 上实现的那些“工具类”功能。
理想状态下,如果 Siri 接入 Gemini,那用户真的就可以把 Siri 当成一个聊天机器人,系统会学习用户的生活轨迹、使用手机的习惯、家和公司的位置等多重信息,智能作出判断。
举个例子:当 Siri 通过时间、地理位置、语气、声纹等信息判断用户可能在酒吧喝醉了,就会在和你对话的过程中帮你调取如 Uber、滴滴这类线上打车软件,叫一辆从当前位置到家的车,并且通过 AI 助理打电话告诉司机可能乘客处于醉酒状态。
这些例如从当前位置打车回家、AI 助理与司机通话等功能拆分开来,目前的 AI 大模型助手都已经可以实现,但如何将一整套流程完整的、顺畅的“串联”起来,是新版 Siri 需要着手解决的问题。
相较于更加工具项的百度文心大模型,其实字节系的豆包 AI 智能助手在自然语义的沟通能力上“更胜一筹”,因为只有让 Siri 听起来更加像一个真人,用户才有跟它沟通的欲望。
想想看,你向往的 AI 助理,是电影《Her》里面的体贴温柔、声音略带沙哑的斯嘉丽约翰逊呢?还是一行行冰冷的文字呢?
本文来自微信公众号:不客观实验室 (ID:gh_719281df296b),作者:陆
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。