阿里云百炼上线音视频实时互动功能，人人都能创建专属多模态应用

2024/12/20 10:55:53 来源：之家网站作者：- 责编：-

评论：

近日，阿里云百炼上线了全新音视频实时互动功能，用户可在百炼上自由选择文本、语音和视觉理解等 200 多款模型，无需代码，数分钟即可搭建一个能听、能看、会说的专属 AI 助手。阿里云百炼还支持以 sdk 的形式集成到 Web、ioS 和安卓应用，可应用于 AI 虚拟助手、虚拟陪伴和 AI 老师等场景。

用户在百炼上几分钟即可搭建一个能听、能看、会说的专属 AI 助手

过去一年，大模型正在从纯文本模态向语音和视觉等多模态演进，极大地拓宽了大模型应用的想象空间。然而现有单一模型仍旧无法处理复杂的任务，为了进一步加速单一大模型构建成像人一样自然交互的复杂 AI 应用，阿里云百炼提供了 200 多款语言模型 Qwen、视觉语言模型 Qwen2-VL、语音合成模型 CosyVoice 等全模态全尺寸大模型，同时联合阿里云 AI 实时互动方案，在国内率先为用户提供了便捷的工作流应用和智能体编排应用，例如支持构建 RAG 知识库、Prompt 调优、sdk 集成等。

据介绍，在视觉理解模型方面，阿里云 Qwen2-VL 具备强大的视觉智能体能力，例如采用多模态旋转位置嵌入（M-ROPE）方法，能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，模型具备更好地理解和建模复杂的多模态数据，该模型一经推出就成为开源社区最受欢迎的多模态大模型；在音频方面，阿里云语音合成模型 CosyVoice，通过对生成语音的情感、韵律进行细粒度的控制，情感表现力上得到明显提升，阿里云 AI 实时互动方案还可提供化智能降噪、智能打断、智能断句等超拟人对话能力。

以搭建一个视觉能力的 AI 应用为例，用户进入百炼应用控制台后，仅需上传图片知识库、编写提示词、设置音频、调优这四步，数分钟内就能创建一个能完成专属视频交互的 AI 应用，基于 Qwen-VL 强大的视觉推理能力，它不仅能识别物体的种类，还能准确描述物体的风格、特点、位置以及物体上的文字等关键信息。此外搭建好的应用还支持以音视频 sdk 集成到用户的 Web、ioS 或者安卓应用中，帮助企业快速实现业务创新。

据介绍，阿里云百炼上的通义 API 每百万 tokens 价格已降至 0.3 元，一汽、金山、哈啰集团、国家天文台等超 30 万企业和机构在使用阿里云百炼。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

阿里云百炼上线音视频实时互动功能，人人都能创建专属多模态应用

相关文章