问:

什么是AI数字人?类似于硅基智能、腾讯智影这些公司推出的数字人24小时直逼,技术使用的是Wav2Lip吗?

答:
AI数字人指的是由人工智能技术生成的虚拟人物形象。它可以进行动态、逼真的表情和口型变化,模拟人类的自然语言表达,给人以真人在现场直播的体验。
目前业界常见的AI数字人技术包括:
1. Wav2Lip:通过机器学习将音频信号匹配到最接近的口型视频序列,实现语音驱动的数字人口型动画。这是腾讯X럭스的核心技术,用于腾讯智影等产品。
2. DeepVideoPortraits:使用GANs将真人视频转化为数字人视频,学习真人的表情动作并生成新的视频。这是硅基智能的代表技术。
3. Neural Voice Puppetry:使用 LSTM网络学习与特定人物相关的语音和视频,根据新的语音生成数字人的高保真度嘴型动画。这是Anthropic开发的技术。
4. Expression cloning:通过机器学习从大量视频数据中学习真人的各种面部表情,并映射到数字人模型上,生成高度逼真的表情动画。这种技术应用于许多研究机构和公司,如Digital Domain等。
与全CG动画人物不同,AI数字人追求使用机器学习技术来模拟真人的自然表达和动作,提供更加逼真的视觉体验。它们可以进行流畅的口语表达,嘴唇同步和情感表现,给人以真人主播在现场的感觉。目前许多公司都在研发自己的AI数字人技术,以服务于直播、广告、影视等领域。
可以说,AI数字人技术代表了数字人物渲染的最新进展,但由于数据和算力的限制,其表现还未达到完全逼真的程度。未来随着技术的进步,AI数字人的视觉质量和表达能力还会有较大提高。