中文模型能力介绍MiniMax(语音)

MiniMax(语音克隆与 TTS)

概览

MiniMax 在 StoryFlow 中提供两类语音能力:

  1. Voice Clone:从样本音频克隆音色。
  2. TTS:把文本合成为语音,可使用系统音色或自定义音色。

1) Voice Clone

输入

  • prompt:示例文本(必填)
  • reference_audio:音频样本(必填)

音频要求(代码配置)

  • 支持 MP3 / M4A / WAV
  • 时长约 10 秒到 5 分钟
  • 文件大小最大 20MB

常用参数

  • voice_model(当前为 speech-2.5-hd-preview
  • accuracy
  • need_noise_reduction
  • need_volume_normalization

2) MiniMax TTS

输入

  • prompt:要朗读的文本(必填)

常用参数

  • voice_modelspeech-2.6-turbo / speech-2.6-hd
  • voice_id:系统音色
  • use_custom_voice + custom_voice_id:使用克隆音色
  • emotion:情绪控制
  • speed / vol / pitch:语速、音量、音高

使用建议

  • 克隆前先准备干净的人声样本,避免背景噪音。
  • 长文案建议分段合成,后期更好剪辑。
  • 同一项目尽量固定音色和参数,保持角色声音一致。