在科技飞速发展的当下,人工智能领域的每一次突破都能引发广泛关注。2 月 6 日,字节跳动研究团队正式发布全新 AI 数字人模型 OmniHuman,这一消息瞬间在行业内掀起波澜。
OmniHuman 是一款端到端的多模态模型,其最大亮点在于能够从单张照片生成逼真全身动态视频,可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。OmniHuman 通过引入多模态条件驱动和全条件训练策略,成功解决了人类动画生成领域长期存在的数据扩展和泛化能力问题。
OmniHuman 采用基于 DiT 架构的多模态运动条件混合训练策略,将扩散模型和 Transformer 相结合,实现高质量图像生成和细节精准控制,还能融合文本、音频、姿势等多模态信息。这种“全条件”训练方式,让模型从更广泛的数据集中学习,有效解决了传统数字人模型训练信息单一、泛化能力不足的问题。
从应用层面来看,OmniHuman 有着巨大的潜力。对于个人创作者和 MCN 机构,它极大降低了内容创作门槛,可以快速生成虚拟主播、虚拟偶像、虚拟客服、虚拟教育等各类数字人内容。
随着 OmniHuman 的发布,2 月 7 日,AI 数字人概念股大幅上涨。首都在线盘中大涨 20.03%,每日互动、恒银科技、若羽臣涨幅均超 10%,天娱数科、软通动力等涨幅居前。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。