AudioBox

1周前发布 265 00

Audiobox是Meta公司推出的多模态AI音频生成模型，支持语音和文本双模态输入，具备环境音效合成、自然语音生成及音频智能编辑功能。

所在地：

美国

收录时间：

2025-11-23

AudioBox

Audiobox是Meta公司推出的多模态AI音频生成模型，支持语音和文本双模态输入，具备环境音效合成、自然语音生成及音频智能编辑功能。

核心功能
– 双模态输入：支持上传参考音频定义音色，或通过自然语言描述生成需求（如“紧张情绪的男性旁白”）。
– 生成多样性：可输出单声道或多声道音频，最长支持10分钟高保真生成。
– 智能编辑：实时调整语音参数（语速、音调），实现音频片段填充与风格化重构。

技术优势
– 音质与准确度优于AudioLDM2、VoiceLDM等模型，噪声环境下语音MOS评分达4.2分（5分制）。
– 集成数字水印技术防止滥用，支持12种语言（含中文、西班牙语）。

应用场景
– 影视/游戏：快速生成场景音效与对话语音。
– 教育/商业：多语言语音内容创作及无障碍辅助。

当前状态
– 测试阶段，需通过API密钥访问，暂未开放本地部署。
– 2024年12月完成多模态交互界面升级，提升非专业用户操作体验。

数据统计

您必须登录才能参与评论！

暂无评论...