有清晰的发音音频 + 对应的文本
用 fastwhisper 。他是自动生成文本的,有些许错误。
用了个 gentle ,但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子,然后对齐?类似歌词那种。
用 fastwhisper 。他是自动生成文本的,有些许错误。
用了个 gentle ,但是他是以单词为基准对齐的。
有没有什么库可以自动切分句子,然后对齐?类似歌词那种。

1 halliday May 4, 2025 via Android Google speech to text api 可以 |
2 NoOneNoBody May 4, 2025 github 有语音 to 字幕生成的,你搜字幕相关 |
3 panhongx May 4, 2025 试过 whisper.cpp 的 large-v3-turbo 模型,自动按句切分效果很好。 |
4 |
5 afkool OP @panhongx 这个能用我提供的文本吗?我看了下文档并问了下 ai,他好像是自己生成文本的。我担心生成的某些单词不太对。(毕竟我已经有文本了,就不需要机器自动识别了) |
6 barnetime May 7, 2025 我也有这个需求, 自己写了个页面 https://repeat-reading-explorer.pages.dev/ |
8 barnetime May 8, 2025 文本是识别的, 音频是出版社网站下载的 |