MiniMax(语音克隆与 TTS)
概览
MiniMax 在 StoryFlow 中提供两类语音能力:
- Voice Clone:从样本音频克隆音色。
- TTS:把文本合成为语音,可使用系统音色或自定义音色。
1) Voice Clone
输入
prompt:示例文本(必填)reference_audio:音频样本(必填)
音频要求(代码配置)
- 支持 MP3 / M4A / WAV
- 时长约 10 秒到 5 分钟
- 文件大小最大 20MB
常用参数
voice_model(当前为speech-2.5-hd-preview)accuracyneed_noise_reductionneed_volume_normalization
2) MiniMax TTS
输入
prompt:要朗读的文本(必填)
常用参数
voice_model:speech-2.6-turbo/speech-2.6-hdvoice_id:系统音色use_custom_voice+custom_voice_id:使用克隆音色emotion:情绪控制speed/vol/pitch:语速、音量、音高
使用建议
- 克隆前先准备干净的人声样本,避免背景噪音。
- 长文案建议分段合成,后期更好剪辑。
- 同一项目尽量固定音色和参数,保持角色声音一致。