通义实验室开源影视级配音大模型 Fun-CineForge,首次引入时间模态通义实验室发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。

模型基于 CosyVoice3 语音合成底层能力构建,核心技术创新在于首次将"时间模态"引入配音模型,使其在说话人面部缺失等复杂场景下仍可实现音画同步,支持独白、旁白、对话及多说话人等多种影视配音场景,当前支持 30 秒以内视频片段推理。
在独白场景对比测试中,Fun-CineForge 在词错率、唇部同步、时间对齐、音色相似度等指标上均优于 DeepDubber-V1 和 InstructDubber。模型已在 GitHub、HuggingFace 及 ModelScope 三平台同步开源。
通义实验室