位于英国剑桥的声纹识别技术供应商Audio Analytic公司,正致力于将以人工智能(AI)为核心的声音识别技术应用于消费设备中。就像语音识别可以识别说出的语句一样,这家公司的声音识别技术也可以分辨出狗的叫声和婴儿的哭声。
Audio Analytic首席执行官克里斯·米切尔(Chris Mitchell)表示:“这相当于一种语言模型,但它只适用于声音。”
Audio Analytic公司的声音识别AI系统AuditoryNET具有极其广泛的用途。该公司正与德国耳机制造商Bragi合作,生产拥有AI支持功能的耳机,它可通过识别救护车的警报器,并提醒用户其接近的方向,来优先考虑用户的安全。
米切尔说,这个想法是为了保护用户免受“各种危险情况的伤害,因为人们正让自己在城市里完全失聪”。
Audio Analytic公司还将AuditoryNET嵌入到智能家居设备中,如Hive Home Hub 360,它可以检测烟雾和一氧化碳探测器、吠叫的狗或窗户被打破的声音。AuditoryNET不需要互联网连接就能运行,这对注重隐私的人来说是个好消息。
为了训练AuditoryNET的算法,Audio Analytic公司使用了世界上最大音频数据收集平台Alexandria提供的数据。米切尔说:“我们最近做的事情是绘制出我们整个声音世界的地图。”
▲Audio Analytic公司的声音地图包含600万份音频文件,包括六种类型的餐厅窗户玻璃碎裂的声音。
Audio Analytic公司已经创建了一个包含600多万个音频文件的声音地图。它看起来就像是个彩虹蜂巢:在视觉上代表着相似的声音聚集在一起的彩色块,或称为“色调岛屿”。
米切尔表示,通过调整音量,他们的技术可以识别出有细微差别的声音。比如来自餐厅玻璃的破碎声就有6种,其中由玻璃制成的层压板的碎裂声与其他声音截然不同。
Alexandria的音频样本数据池必须从头开始构建。电影中常见的声音是没有用的,因为它们并不真实。米切尔说:“如果你去看最新的《复仇者联盟》电影,我敢肯定绿巨人会把什么东西掉在车上。”
他说:“那个汽车警报器发出的声音并不是真正的汽车警报器。”这种声音将训练AI面对虚假的现实,通常是灾难性的,比如需要检测是否有人闯入汽车。因此,该公司建立了自己的实验室来捕捉原始声音,并派出团队在各种环境中录制其他声音。
他们甚至依靠志愿者网络进入声音实验室,或者使用录音机捕捉真实世界中的各种声音。
Audio Analytic公司的未来计划依然处于保密之中,但它的目标十分明确,即继续开发识别家庭内外声音的技术,包括那些听起来像警报器的鸟鸣。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。