基于openai的tts与whisper实现的文本转语音、语音转文本,只需要满足openai请求格式即可;
whisper可以在groq中获得免费额度,足够个人日用;
tts可以使用edge-tts转openai api项目,如https://github.com/travisvn/openai-edge-tts
- 文本转语音(TTS)
- 支持openai格式
- 自定义说话人与展示内容
- 支持划词朗读(复制+快捷键,快捷键配置关键词SpeechTTS)
- 语音转录(Whisper,默认使用whisper-large-v3)
- 支持openai格式
- 文件选择、拖拽、复制上传
- TXT Format模式下,语音将根据选择的语言进行转录,语言默认为:None“时自动识别,选择语言后将提高转录准确率,下载文件将保存为TXT格式
- SRT Format模式下,将内容自动转录为英文(Whisper模型原生支持),language选择将不再生效,下载文件将保存为SRT格式
- 文本转语音(默认使用官方api:
https://platform.openai.com/docs/api-reference/audio/createSpeech
)- 点击设置,填入openai的URL与KEY
- 模型/声音列表中列出所有说话人,格式示例如下:
[ {"alloy": "Alloy"}, {"echo": "Echo"}, {"fable": "Fable"}, {"onyx": "Onyx"}, {"nova": "Nova"}, {"shimmer": "Shimmer"} ]
- 保存设置
- 如果配置正确且网络连接允许,可以在输入框中输入内容,并选择对应的说话人,点击转录后将会在“转换”按钮下方展示转录后的音频,可以预览与下载
- 语音转录(默认使用groq的api:
https://console.groq.com/docs/api-reference#audio-transcription
)- 点击设置,填入openai/groq的URL与KEY
- 保存设置
- 如果配置正确且网络连接允许,可以上传文件并预览文件,选择语言、格式后进行转录(Transcribe)或翻译(Translate),可预览结果与保存为文件
- 注意:请求使用标准的openai接口(即url/v1/...),使用groq时注意url为
https://api.groq.com/openai
,详情可查看服务商的api接口文档