我用本地语音模型做了个语音输入法，又快又好，不用填 API，完全免费(Windows/macOS)

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 74 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近我开发了一个名为 代体语音输入法 的小工具。它基于本地语音识别模型，无需联网、无需填写 API Key 、完全免费使用。

开发初衷

我最初创建这个工具，是为了更高效地与 AI （如 Claude 、ChatGPT 等）进行对话。
实践发现，语音输入的速度远快于打字，说完后文字几乎瞬时出现，整个交互过程非常流畅。

为何选择本地模型？

我曾尝试过多种语音输入方案，但它们普遍存在延迟高、需配置 Key 、收费昂贵等问题。
我们最初也做过依赖云端识别的版本，但发现实际使用中月成本往往达到一二十元。
因此，我们决定转向本地模型，彻底解决这些问题。

使用体验

我和朋友们已经深度使用了一段时间，体验非常出色：
本地语音识别的响应速度极快，一旦习惯了这种“说完即出字”的零延迟体验，就再也无法忍受云端识别需要等待数秒的滞后感。

支持平台

Windows
macOS

代体语音输入法界面截图

无需联网、无需登录、安装即用。
欢迎试用，并期待您的反馈

获取方式

扫描下方二维码添加我的微信，我会直接发送安装包给您：

微信二维码

请记得备注「语音输入法」

本地语音模型

语音输入法

无需联网

20 条回复 2025-10-22 14:24:15 +08:00

Ericgood

74 天前

大佬用的什么模型呀？

smartmeng

73 天前

@Ericgood 具体模型暂时不方便透露，不过是本地部署的，不联网、识别速度非常快。
后面也会支持多种语音模型切换。
对电脑的要求不高，大部分机器都能流畅运行，准确率接近云端模型。
你可以先体验下效果，后面我们会再公开更多技术细节。

bigtear

73 天前

funasr 系列的模型还是 whisper ？

SayHelloHi

73 天前

感兴趣用的什么模型

victor

73 天前

macOS -> 系统设置 -> 键盘 -> 听写，启用语音输入。延迟低、不收费、无需配置。

smartmeng

73 天前

@bigtear 用的 funasr 系列的模型，whisper 中文效果一般，速度也不行

smartmeng

73 天前

@SayHelloHi 用的 funasr 系列的模型，效果很好，欢迎试用体验

smartmeng

73 天前

@victor 确实，macOS 自带的听写已经挺方便了。
不过我们想做的不只是“语音转文字”我们更希望让 AI 参与输入。

AI 不仅能帮你把语音快速变成文字，还能理解你要表达的意思，帮你优化、润色，甚至结合上下文和你的历史记忆，让输入更智能、更贴合你自己的表达习惯。

我们现在还在早期阶段，功能还不多，但方向是想在“输入”这个场景里，用 AI 做一些新的尝试。
也非常欢迎你来试试，并给我们提提建议

victor

72 天前

@smartmeng 我使用语音输入一般都是去做一些普通的聊天，不想打字的情况。比如现在这段话就是语音输入。它可以帮我补充标点符号，我只需要在输入完成之后简单地调整一下就能发送了。

你的方向是输入一大段没有经过思考的口语化语音文字后，希望 AI 精简和润色再发送。我现在只能是在 ChatGPT 当中做这个操作，再用 Chrome MCP 发送到我们现在的聊天窗口里面来，但是这种跨软件的协作只能局限在有限的几个软件中实现。

可能另外一条时间线上老罗的 TNT 最终版才是我想要的东西吧。

aero99

71 天前

我的 Mac mini 没有话筒，相对来说手机上使用语音输入的频率（场景）感觉更高
有时候回到家里就懒得打开 Mac 了，记事语音输入我是用 iPhone 的侧键调用快捷指令通过 whisper 的方式自动在备忘录产生语音转文字和原始语音文档，定期整理。
缺点是因为网络的原因，偶尔要切换节点，感觉离线的语音模型是我需要的，商店里试了几款准确率都不如 whisper 高

smartmeng

71 天前

@victor 我自己还有一个需求，就是希望语音输入的内容能被记录下来，有一个地方能看到这些数据。因为我觉得 AI 的进步非常大，很快就可以把这些数据可以用来干一些其他事情，甚至是后面可以辅助我更好的输入。

smartmeng

71 天前

@aero99 我们暂时是想先把电脑端做好，我们之前在手机上也做过语音记录相关的产品。甚至我们做了一个非常未来的产品。我们开发了一款 APP ，可以基于标准的蓝牙协议，让任何一个耳机变成记忆耳机。你只是你只要带上耳机，就可以全天候记录你听到的一切声音，并且通过 APP 转成文字，然后也可以让大模型来处理这些数据。但是我们觉得就是他这个全天候的记录的数据太多了，然后暂时没有找到一个好的场景。现在我们想把语音输入法这个场景先做好。我们现在先把电脑端做到极致，后面我们会做手机端。

visper

70 天前

之前测试的话，相对来说 sensevoicesmall 速度和准确率不错。

smartmeng

69 天前

@visper 确实不错

jwh199588

69 天前

如果我想将语音模型通过 js 的方式注入进去，而不需要单独部署，用户打开浏览器就可以直接使用，使用的方式是将文字转语音，请问有哪些模型可以做到

smartmeng

68 天前

@jwh199588 文字转语音这块我们目前涉及得比较少，还没深入研究。

amorhxy

66 天前

软件很好，已经用上了

smartmeng

66 天前

@amorhxy 谢谢鼓励，有什么建议和反馈，随时都可以跟我说。

recobaggio

61 天前

识别速度和准确率都不错
两个小建议：
1 、开机自启不要显示窗口，直接显示托盘就好
2 、增加识别完成后自动 enter 或 ctrl+enter 的选项，以便直接发烧

amorhxy

57 天前 via Android

@smartmeng 目前虽然识别率挺高的，但是还是在一些词和语气上有些不准，希望可以加入更大的模型来让用户自己选择用哪个，现在的模型只占 2g 的内存，我感觉不算很高，希望考虑下