清晨温柔的阳光伴着手机里闹腾的波尔卡舞曲将小编从睡梦中拉醒,透过惺忪的双眼,小编发现今天手机闹铃比以往迟响了15分钟,但小编并不慌,因为前一天晚上小编已经看到了手机主动推送的预测今天路上不堵车的提醒。
穿衣、洗脸、刷牙,开车上班,一路上听着手机主动给小编播报的早间新闻,畅通无阻地抵达公司,果然未迟到。
到达工位上时,小编发现桌上已经放好了小编爱吃的三明治、煎蛋以及盒装牛奶。这份早餐不是公司里某个暗恋小编的女同事悄悄为小编准备的,而是手机在早上闹铃响起的同时已经在网上自动下了单,送往公司。
今天的工作需要前往咖啡厅里做一期视频节目的外拍,咖啡厅里光线昏暗,记得以往都需要带着单反、三脚架这些大家伙上阵的,但现在用手机就可以完成原始素材的拍摄。由于内容较多,拍摄的过程非常忙碌,到了午饭时间小编都没有在意。这时候手机里的语音助手用她那“仿佛春风拂过泸沽湖,秋雨浸过九寨沟”的声音提醒小编:
“主人,我发现您从早上到中午一直在外面拍摄视频,午饭时间已经到啦,需要我给您在隔壁的XXX餐厅定一个位子吗?”
小编欣然接受。
完成了一天的工作,走出公司大门的小编,对着手机语音助手说一声“我下班啦”,语音助手收到指令后边远程将家里的空调打开,并控制电饭煲开始煲粥,顺便提醒了小编一天没有给女朋友打电话,赶紧吱个声儿。于是小编先开车接女友下班,然后一路上还不停和语音助手聊着今天NBA比赛的话题……
以上,是IT之家小编设想中“我和智能手机的一天”,我们不浮夸也不想那些科幻的,而是思考当前人工智能(AI)和手机结合必然会在未来实现的结果——没错,能够像一个“活生生的人”的人工智能,才是真的人工智能,这样的人工智能也将会为我们的工作生活带来巨大的变化。正因为憧憬这些即将发生的美好变化,科技公司们才会如此热切地钻研AI技术的发展,迫不及待地希望它赋能各行各业。
1、你真的认识人工智能?
尽管对未来的想象如此美好且合理,但现在正在用着智能手机的我们,可能并不是所有人都了解人工智能——作为机器,它怎么就能够像人类一样思考了?
要解释这个问题,我们需要先知道人类的大脑是怎么思考的。根据科学家的总结,其实人脑的思考过程可以简单地划分为三步:
1、接收信息;
2、处理、加工信息;
3、输出动作指令。
而人脑之所以能够完成这些工作,靠的是大脑内部无数神经细胞之间的连接,这些神经细胞之间的连线形成人类一连串的动作反应,即大脑通过感觉器官接收信息,然后在脑内通过神经细胞的反复“重新连接”进行信息加工,然后输出信息,形成肢体反应。类似的过程一遍一遍地重复,逐渐积累,个体的能力也随之不断提升。
举个例子,当你1岁的时候,看到一样东西,它一直在摇动、是黄色的,靠近时会觉得热,你不知道它是什么,想要去摸它。这时候家长过来了,告诉你这是“火”,不能用手摸。在这个过程中,“一直在摇动”、“黄色的”,“靠近时会觉得热”成为3个输入信息,由这3个输入信息,大脑会得到“火”这个输出信息,这样的一个过程会被存储在大脑中。
接下来,当你再看到满足“一直在摇动”、“黄色的”、“靠近时会觉得热”的东西时,你就会知道它是“火”。但是我们知道,充分燃烧的火焰不是黄色的,是蓝色的。所以下一次当你看到“一直在摇动”、“蓝色的”、“靠近时会觉得热”的东西时,你就会觉得它不是火焰,又会用手去摸。这时候,家长又过来了,告诉你这也是火,于是在你的大脑中,对火的判断又增加了一个信息:“蓝色”——这样,距离你完全准确判断什么是“火”又近了一步。
如是,每重复一次就存储一次,人的大脑就是在无数这样的重复过程中判断越来越稳定高效,越来越具备思考能力。这就是人脑的学习过程。事实上,人工智能(AI)也正是遵循着这样的学习逻辑。
人脑中,负责执行每一次上述过程的最小单位,叫做“神经元”,神经元的主要结构包括树突、细胞体和轴突,树突负责接收刺激信息并传至细胞体,细胞体负责处理信息,轴突负责将处理的信息输出到远处的另一个神经元的树突或者肌肉或腺体。大脑内存在大量的神经元。而人工智能对人脑思考的模拟,就是从神经元开始。
如上,就是人工智能模拟构造的一个“神经元”模型。其中x1、x2、x3代表输入的信息,w1、w2、w3代表输入信息分别对应的强度权重,这部分类似神经元的树突,中间的部分为信号处理的过程,处理的过程就是输入信息源和相关权重的计算,公式为:
S=x1·w1+x2·w2+x3·w3+……+xn·wn
这种加权处理的算法十分简单,表达的只是综合每个输入信息可能产生的强度所形成的影响的结果,但是神经元本身的影响并没有模拟出来,所以我们还会在这个算法后面加一个内置的阈值b,算法就成了:
S=x1·w1+x2·w2+x3·w3+……+xn·wn+b·1
好,这样就是模拟了信号源的处理过程,接下来就是输出了。在上面的算法中,结果可能是任意一个整数,这无论是对于计算机运算还是我们结果判断上,都是不利的。对于正常的分类运算来说,大多数情况下我们只需要输出一个0或1,在其他运算中,我们也更希望输出的数字在0到1这个闭区间里。所以,在上面的算法后面,我们会加入一个传递函数。
传递函数有很多种,这里介绍一种比较常见的sigmoid函数,它的作用之一就是将结果映射到[0,1]之间。
这样就构成了一个基本的神经元模型,和大脑一样,神经网络就是由无数个这样的基本神经元模型构成。这就是神经网络模拟人类大脑思考的基本逻辑,当然,这里IT之家小编为了方便大家理解,只是尽可能将这种逻辑简化了,事实上构造神经网络的过程是极度复杂的。
总而言之,我们构造的人工神经网络是模仿人类的大脑,将神经网络转化为一种运算模型,它由大量的节点相互连接构成,每个节点代表一个特定的函数,节点和节点之间的连接实际上代表两者之间传递的信号的权重,输出的结果则和网络的连接方式、权重值和具体的函数的算法相关。
当我们了解神经网络模拟人类思考的基本逻辑之后,就能够对人工智能的算法拥有更深入的理解。举个例子,以AI的图像识别为例,人工智能如何识别下面这张25*25像素的图片中有猴子?这是从最基本的像素开始的。我们知道所有的图像都是由RGB的像素点组成的,一个颜色的像素由红绿蓝对应的三个值表示,就像白色的对应值为[255,255,255],对于这张25*25像素的照片来说,它的对应的像素值数字有25*25*3=7500个(图片中为了简便理解,简化为5*5),这7500个数字就是我们前面所说的输入信息,他们按照RGB分别以矩阵的形式排列,构成图片。每一个数字代表一个特征,这7500个数字又叫7500个特征向量,他们被输入时分别带着各自的权重,神经网络经过运算后,会输出这个图像中的物体是否为猴子的结果。
当然,在这之前,神经网络的设计者已经向系统中输入了大量的猴子或不是猴子的照片,用于让神经网络训练猴子照片中像素数据的特征,这就是深度学习的过程。基于这个系统不断学习感知的过程,神经网络才能更高效准确地判断照片中的物体是不是猴子。这和人脑的学习过程是一样的。
2、AI,颠覆的是生活方式
通过上面的介绍,我们已经了解了人工智能是如何模拟人类大脑的,有了这样的基本逻辑,凭借计算机强大的运算力,AI就能够在某一方面实现远超人类的能力。例如2016年击败当时围棋世界冠军李世石的AlphaGo,正是通过输入无数棋谱的数据,然后系统不断自我训练(深度学习),才能够拥有超越人类的围棋水平。
不过要讲到AI能给我们普通消费者带来什么,回归到我们当下的生活,最直观的还是和智能手机的结合。在文章开头,小编已经用去很大一部分篇幅为大家描绘了不久的将来,在AI加持下的智能手机能够达到的境界,这些场景真的不是梦。
在介绍当前人工智能技术能够为手机带来什么的时候,我们不妨以高通骁龙移动平台搭载的人工智能引擎AI Engine为例,毕竟这是目前大部分安卓手机用户能够直接体验到的手机AI能力。
从2015年的骁龙820开始,高通已经在骁龙平台上实现了第一代人工智能引擎AI Engine的商用,现在骁龙855移动平台已经支持最新的高通第四代人工智能引擎AI Engine。目前智能手机上的AI运算有两种解决方案,一种仅是通过专用的AI芯片来处理手机运行过程中需要的AI计算,另一种是综合运用智能手机CPU、GPU、DSP等核心的运算能力,让它们共同参与到AI运算中,各司其职,各擅所长,从而实现AI能力。高通AI Engine参考了人脑的设计,选择让芯片中所有的核心协同工作的方式。
具体来说,高通第四代人工智能引擎充分利用骁龙855移动平台的异构多核可编程架构,对每个内核进行大幅优化和提升,强调整体芯片面向AI计算的高效率和灵活性。根据CPU、GPU和DSP的各自特点进行任务分配,在此基础上第四代AI Engine还新增了一个高通自主设计、专门面向AI处理的硬件核心HTA,也就是Hexagon张量加速器,综合实现了可编程的AI加速,带来了AI整体性能的大幅提升。
那么这样的AI运算能力能够做什么呢?
(1)拍照
首先值得一说的就是拍照,也就是AI的图像视觉能力,它可以让智能手机实现智能拍照、人像美颜等功能,正如文章开头小编描绘的场景,未来AI手机可以在很多场景下替代单反等传统拍照设备,所以很多时候出去拍照就不需要背着沉重的摄影器材了。
在拍照过程中,AI能够检测取景的目标,然后自行调整相机参数,在拍照完成后还能够对样张进行噪点去除、高光抑制、动态范围提升等优化,这些优化某种程度上来说等于大幅提高了拍摄的质量,帮助用户拍摄出更好的照片,特别是在夜景等手机拍照的传统弱势环节,会有很明显的提升。例如计算机视觉领域的公司虹软基于高通第四代AI Engine推出的“超级夜景”功能,通过AI智能降噪、防抖等技术,使夜间拍摄的照片更清晰、细节更丰富,效果相当惊艳。未来,随着AI技术的提升,这些优化的效果只会越来越好。
超级夜景gif,图片来源锋潮评测室
人像拍照和自拍美颜的功能在AI算法的加持下也会有更自然、出色的表现。在当前,人像模式拍照人物和背景的分离还无法做到单反级别的自然,而未来在AI算法的帮助下,将能实现像素级别的抠图分离,人像模式将更加自然。至于AI美颜,在当下其实已经有很多应用。让IT之家小编更期待的是,AI在人体美型上有更大的发挥空间,它可以让照片中的自己拥有更完美的身材和体型,再扩展一下思维,甚至还有让你模拟各种体型的玩法。在今年4月举行的高通AI开放日活动中,高通就与虹软共同展示了运用AI实现的的人体塑形功能,能够看到AI可以对拍摄对象的体型进行优化,不仅仅是将腿拉长,将身形变瘦,而是让照片中的人物拥有更符合自然审美的匀称身型,显然这背后也是AI对人类体型特征长期训练的结果。
Gif,图片来自锋潮评测室
(2)游戏
除了拍照,AI未来在移动端的应用还有一个重要的方向,就是游戏。按照IT之家小编此前介绍的逻辑,对于大型游戏而言,AI可以让游戏人物的行为更符合自然人的思考方式,更真实,提升玩家的游戏体验。举个例子,高通与vivo、腾讯王者荣耀和腾讯AI Lab合作,在vivo今年发布的iQOO手机上,利用第四代高通人工智能引擎AI Engine的异构计算能力,开创性地将移动游戏的AI推理能力首次大规模从云端迁移至终端侧,同时依靠iQOO强大的算力和出众的系统优化,让《王者荣耀》游戏获得体验的升级和优化。
王者荣耀gif,图片来自锋潮评测室
在游戏体验方面,IT之家此前在针对iQOO手机进行测试时,就测过《王者荣耀》的游戏表现,游戏过程基本上都是稳定在60fps满帧的状态,帧数的波动也就大约为1帧,同时网络连接也没有出现明显时延,这样的运行状态显然和AI Engine智能调配系统资源有直接关系。相信随着5G的到来以及高通骁龙AI Engine等终端侧AI技术的支持,游戏AI将会越来越智能,带给玩家更加丰富的游戏体验。
(3)智慧生活
很多科幻电影都把人工智能描绘成颠覆人类的“洪水猛兽”,但事实上,IT之家小编认为AI真正颠覆的是人类的生活方式,让人类的生活更加便利。比如,现如今智能手机上加入的AI技术就正在力求便利人们的生活。
有了AI的视觉识别能力,出国的时候用手机扫一扫你就可以即时翻译那些不懂的异国文字,AI的语音识别也可以帮你在和外国人对话时即时翻译对方说的话,省掉一笔请翻译的费用的同时,更无需担心出国语言不通。目前,高通的第四代AI Engine就可以通过智能语音识别与神经网络自然语言翻译的结合,实现实时语音翻译;此外,高通第四代AI Engine还可以支持实景AR翻译,也就是通过图像识别与神经网络翻译模型技术对原始图像进行翻译,并且翻译的结果还能在原图像的位置上覆盖显示。例如有道翻译就与高通展开合作,推出了基于第四代AI Engine的实时语音翻译与实景AR翻译这两种翻译功能。
这些翻译功能相信大家都有所了解,也多少使用过。其实,人工智能在进入翻译领域前,已经通过神经网络对人类自然语言的习惯、规则、逻辑等进行了深度学习,随着算法的不断改进,AI经验的积累,它将逐渐优化翻译水平,翻译结果会更加贴近人类的自然用语。
AI未来应用的一个重点方向就是要从多维度变革我们的生活体验,虹软、旷视科技、商汤科技等众多软件企业都与高通合作,基于高通第四代AI Engine,通过更为先进的算法支持更多面向语音、拍摄、游戏、XR领域的AI体验,并实现这些AI体验在骁龙855终端上的应用。随着AI技术的进步与发展,AI将更加融入人们的日常生活中,为人们带来更加便利、智能的全新生活方式。
AI时代,同样需要合力实现
AI能够带来什么?用一个比较明显的数据相信更能解释它能够带来的价值:数据显示,到2022年,AI衍生的商业价值将达到3.9万亿美元。这3.9万亿美元背后,必然是消费者全面拥抱AI带来的更多前所未有的体验,享受被AI改善的全新生活方式。我们前文所说的高通AI Engine,可以说是终端侧AI的推行者,并通过与生态系统合作伙伴的共同努力,为用户打造了丰富的用例。当一个产业链的能量被拧到了一根绳上,小编在文章开头畅想的未来场景,或许就会真的到来了。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。