
ViiTor AI
一个强大的多语言AI语音合成和视频转译平台
Audiobox是Meta公司推出的多模态AI音频生成模型,支持语音和文本双模态输入,具备环境音效合成、自然语音生成及音频智能编辑功能。
核心功能
– 双模态输入:支持上传参考音频定义音色,或通过自然语言描述生成需求(如“紧张情绪的男性旁白”)。
– 生成多样性:可输出单声道或多声道音频,最长支持10分钟高保真生成。
– 智能编辑:实时调整语音参数(语速、音调),实现音频片段填充与风格化重构。
技术优势
– 音质与准确度优于AudioLDM2、VoiceLDM等模型,噪声环境下语音MOS评分达4.2分(5分制)。
– 集成数字水印技术防止滥用,支持12种语言(含中文、西班牙语)。
应用场景
– 影视/游戏:快速生成场景音效与对话语音。
– 教育/商业:多语言语音内容创作及无障碍辅助。
当前状态
– 测试阶段,需通过API密钥访问,暂未开放本地部署。
– 2024年12月完成多模态交互界面升级,提升非专业用户操作体验。




