设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

Rokid Glasses AR+AI 眼镜最新研发进展:提词器翻页自动匹配语速,告别遥控戒指

2025/4/11 18:28:33 来源:IT之家 作者:汪淼 责编:汪淼

IT之家 4 月 11 日消息,Rokid Glasses AR+AI 眼镜于去年 11 月发布,用户通过戒指的轻触即可控制提词翻页。

然而,这种看似炫酷的交互方式仍存在诸多痛点:手动操作分散注意力、固定翻页节奏僵化、演讲者过度依赖提词器等问题。

基于这些使用痛点,Rokid 研发团队宣布近日提交了一份“一种基于智能算法的提词器功能”的专利,可以根据演讲者的语速和演讲节奏自动匹配文稿。其核心技术在于将演讲者的语言表达与文稿滚动实现无缝同步,解决了传统提词系统的顽疾。

Rokid 介绍称,在演讲场景中,提词器的交互方式长期受限于三种模式:手动触控、物理遥控器、固定定时滚动。尽管这些方案在特定场景下有效,但其局限性日益凸显:

  • 人工交互的注意力消耗手动操作眼镜侧面触摸条或使用遥控戒指时,演讲者需在表达内容与控制设备间频繁切换注意力。

  • 滑动眼镜的动作可能被观众误读为紧张或不自信的肢体语言。

  • 固定节奏的定时滚动模式虽然解放了双手,但机械化的翻页速度往往与演讲者的语速脱节。当演讲者因情绪高涨加快语速时,文字滚动可能滞后半句话;而遇到需要停顿强调的环节,文字却仍在机械前滚,这种错位会引发认知混乱。

IT之家从公告获悉,Rokid 的新专利通过三项核心技术构建了智能提词系统:

1. 多模态语音识别引擎系统采用端到端的深度神经网络模型,可实时解析演讲者的语音内容。其创新之处在于:

  • 方言兼容性:除普通话外,也支持多种方言,满足多语言场景需求;

  • 抗干扰能力:在 45 分贝背景噪音下仍保持 98% 的识别准确率;

  • 非线性识别:能精准捕捉重复朗读、跳跃式朗读等非常规表达,如演讲者突然回顾前文或跳读关键段落时,系统能智能判断意图并调整文稿位置。

2. 动态语速适配算法该算法构建了“语速-文本密度”的动态映射模型:

  • 实时语速追踪:每 0.5 秒更新一次语速数据,覆盖 80-200 字 / 分钟的宽泛区间(覆盖 99% 的演讲场景);

  • 弹性缓冲机制:当检测到 5 秒以上停顿时,系统自动暂停并标记当前位置,恢复时通过上下文语义分析定位正确段落。

3. 多场景演讲匹配算法多场景匹配算法结合,满足演讲场景的全方位交互需求

  • 精准匹配算法:演讲者无论是跳词还是漏字,都能精准地匹配到正在阅读的语句;

  • 模糊匹配算法:演讲过程中,演讲者脱稿即兴发挥或与观众无稿交流时,匹配算法将暂停,不影响演讲者的节奏,当演讲者回到演讲稿中,匹配算法会立即识别,继续精准匹配。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

相关文章

软媒旗下网站: IT之家 最会买 - 返利返现优惠券 iPhone之家 Win7之家 Win10之家 Win11之家

软媒旗下软件: 软媒手机APP应用 魔方 最会买 要知