MiniMax（语音克隆与 TTS）

概览

MiniMax 在 StoryFlow 中提供两类语音能力：

Voice Clone：从样本音频克隆音色。
TTS：把文本合成为语音，可使用系统音色或自定义音色。

1) Voice Clone

输入

prompt：示例文本（必填）
reference_audio：音频样本（必填）

音频要求（代码配置）

支持 MP3 / M4A / WAV
时长约 10 秒到 5 分钟
文件大小最大 20MB

常用参数

voice_model（当前为 speech-2.5-hd-preview）
accuracy
need_noise_reduction
need_volume_normalization

2) MiniMax TTS

输入

prompt：要朗读的文本（必填）

常用参数

voice_model：speech-2.6-turbo / speech-2.6-hd
voice_id：系统音色
use_custom_voice + custom_voice_id：使用克隆音色
emotion：情绪控制
speed / vol / pitch：语速、音量、音高

使用建议

克隆前先准备干净的人声样本，避免背景噪音。
长文案建议分段合成，后期更好剪辑。
同一项目尽量固定音色和参数，保持角色声音一致。

Suno V5（音乐）