泥潭日报 uscardforum · 内容汇总

【吼蛙】Vibe了一个 Mac 听写转文字LLM后处理的App (新增选中文本一键处理)

内容摘要

HoAh作者回应DIY功能杂乱未分发,社区持续探讨断句与竞品差异。

1. 关键信息

  • 项目名称:HoAh(吼蛙)
  • 官网/下载链接:https://hoah.app/(Mac App Store 已签名 notarized)【#1】【#11
  • 核心功能
  • 本地 Whisper 语音转文字(离线,无网络请求)【#1】【#57
  • 可选 AI 后处理(润色、翻译、改写等),支持自定义 Prompt【#1】【#7
  • 多语言混合识别,支持 Hindi、Telugu、Klingon 等【#1
  • 选中文本“一键处理”功能(复制‑>AI‑>粘贴)【#96
  • 支持多家云 streaming API(OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming)【#96
  • 支持 Ollama 本地模型、Groq、Cerebras、Bedrock、Gemini 等后端【#1】【#81】【#86
  • 新增 Local Streaming 转写(较吃硬件)【#115
  • 默认转写模型已升级为千问(Qwen)【#113
  • 作者回应断句问题:Qwen3 训练数据多为 10 秒以内短句,Parakeet 训练数据约为 30 秒,导致断句表现差异【#118
  • 作者回应竞品对比:认为其他同类产品效果千差万别,只有 Handy 做得较好,HoAh 目前性能优于 Handy 才考虑收费【#120
  • 作者回应断句差异原因:具体取决于用户使用的模型版本及管线,HoAh 未关注竞品具体管线【#120
  • 新增 Regex 替换 功能(从 Context 进入效果一般,主要依赖 Regex)【#123
  • 作者回应 Cursor 索引:不确定是否通过 LLM 实现,因需大量侵入用户 accessibility 且研究不深入,暂不优先开发【#123
  • 作者回应 Super Whisper:用户询问公司用 Super Whisper 与 HoAh 对比,作者未直接回答,仅表示当前内容通过听写加 AI Action 效果不错【#124
  • 作者回应替换逻辑(#125):替换是在文本识别出来之后进行的(STT 后替换),非语言识别时直接替换;针对 STT 后别字问题,作者表示目前主要依赖 Regex 处理,若用户有特定别字需求可反馈【#125
  • 新增回应与豆包对比(#126:针对用户询问 HoAh 相比豆包语音输入法的增量优势,作者未直接展开详细技术对比,但隐含强调 HoAh 在增量处理(Incremental)隐私保护(本地运行/无云端上传)及自定义管线方面的差异化价值;指出豆包虽准确率高,但 HoAh 更适合对隐私敏感或需深度定制 AI 后处理的场景。
  • 新增回应豆包实时上屏特性(#127:针对用户 @Chao 询问 HoAh 能否像豆包输入法那样“说话时字直接冒在输入光标处”(IME 行为),作者未提供具体实现方案,暗示当前架构主要依赖 AI Action 或系统听写接口,尚未支持直接模拟 IME 实时上屏。
  • 新增回应会议转录需求(#128:针对用户 @狂魔哥 询问 HoAh 是否能转录在线会议(online meeting)文字,作者未在提供的文本中直接回复此条,但结合此前功能描述,HoAh 主要依赖系统听写或麦克风输入,未明确提及直接捕获应用内音频流的能力。
  • 新增回应 DIY 功能分发问题(#133:针对用户 @kokosilly 提到的内部功能,作者确认目前包含大量个人定制的 DIY 功能,因逻辑过于杂乱且不适合标准化分发,暂时未整合进公开版本。

  • 使用场景示例:浴缸 coding、客服回复润色、同事小语种悄悄话翻译、节日母语祝福等【#1

  • 资源占用:本地 Whisper 大模型(large‑v3)体积大,CPU 运行慢,推荐使用 GPU/Apple Silicon 加速;不启用 AI 时仅是本地软件【#3】【#30
  • 开源情况:项目原本开源,但因误提交凭证未清理历史,现为闭源发布【#48
  • 兼容性:不支持 macOS Ventura 以上的部分用户【#77
  • 其他功能尝试:曾计划上传音频文件、读取当前 App 信息、Ollama 本地模型等,但因体积或权限问题被舍弃【#62】【#70
  • 版本更新历史:因有人联系 rebrand 做付费版,HoAh 仅更新到 3.8.3【#120
  • 性能优化数据(作者声称):
  • 常用听写长度下,Qwen、GLM、Parakeet 延迟从 300-500ms 稳定压至 100ms-200ms,极端可达 50ms【#120
  • Whisper 延迟从 1 秒压至 500ms【#120
  • 优化了冷启动、内存管理、AI Action 延迟(常态 500ms 以内)及本地流式听写【#120
  • 竞品功能提及:Wispr Flow 提供九十天免费试用【#122】;支持添加自定义关键词词典以听写特定常用词汇【#122】;声称可 index Cursor 文件与变量名实现自动听写【#122

2. 羊毛/优惠信息

  • Wispr Flow 提供 90 天 免费试用【#122

3. 最新动态

  • 新增 Ollama 本地模型 支持【#81
  • 引入 实时 streaming 转写能力(需配置 API Key)【#96
  • 增强 Selection AI Action,实现选中文本即时 AI 处理【#96
  • 修复 UI 下载按钮颜色问题【#56】【#58
  • 计划加入 DeepSeek API(社区建议)【#101
  • 收到用户反馈:与 Handy 对比,HoAh 的 transcribing + apply AI action 两步速度较慢【#111
  • 作者回应:apply AI action 速度完全取决于 API provider;transcribing 已升级默认模型为千问(Qwen),系统资源正常时稳定 < 500ms【#113
  • 新增 Local Streaming 转写功能,但较吃硬件【#115
  • 用户 @smallhead 称赞产品比闪电说更方便【#112
  • 用户 @China.No.1 表示将用 M1 Max 尝试【#116
  • 用户 @Pizza 反馈中英文混用效果好,但纯英文测试 Qwen3 和 Parakeet V3 在实时转录中有气口时断句不佳,对比 altic.dev/fluid 表现正常【#117
  • 作者 @hoah 回应断句问题:Qwen3 训练数据多为 10 秒以内短句,Parakeet 训练数据约为 30 秒,导致断句表现差异【#118
  • 用户 @Pizza 补充:自己在 FluidVoice 中也使用 Parakeet V3,理论上模型版本应一致,截图对比显示效果不同【#119
  • 作者 @hoah 回应竞品与断句:认为其他同类产品效果千差万别,具体取决于模型版本及管线;HoAh 性能已优化至 SOTA(Qwen/GLM/Parakeet 延迟 100-200ms,极端 50ms;Whisper 500ms),常态 AI Action 延迟 500ms 以内,若今年收费版不赚钱则直接开源【#120
  • 用户 @Pizza 回复作者:吼蛙吼蛙【#121
  • 用户 @交大梁朝伟 分享 Wispr Flow 体验:发现其自定义关键词词典功能好用,可放入特定常用词汇;声称可 index Cursor 文件与变量名实现自动听写【#122
  • 作者 @hoah 回应 Regex 与 Context:新增 Regex 替换功能,从 Context 进入效果一般,因需大量侵入用户 accessibility 且研究不深入,暂不深入开发【#123
  • 用户 @佩洛西 提问:公司使用 Super Whisper,询问与 HoAh 哪个更好用【#124
  • 作者 @hoah 回应替换逻辑:确认替换发生在 STT 识别出文本之后,针对别字问题主要依赖 Regex 处理【#125
  • 用户 @hahaand
原始内容
--- 第 1 楼来自 hoah 的回复 (2026-01-30 17:13:44 PST) ---

链接: 吼蛙 https://hoah.app/

是干什么的:

以下流程一键完成:

第一步本地语音 → 文字。
第二步API call 把文字 → AI 润色 / 后处理。
处理过的文字自动进当前的输入框和剪贴板。本地保存录音和转写的历史记录。

简而言之就是把 ChatGPT / Cursor 的语音输入体验提升,并且带到所有的文字输入框中。

为什么要自己做(vibe) 一个:

很多同类产品需要付费,看广告,或者收集数据。我觉得这个功能不值得付费,我需要一个自备 apikey 的免费,干净的版本。
开源干净的项目,比如著名的 https://handy.computer/ 不能实现 API 后处理这一步。我说话比较磕吧,原始的转录文字很难直接用,需要LLM进行后处理。而且我对语法也不是很注意,需要LLM自动纠正语法。
目前没找到任何项目默认就是多语言混合语音转写。虽然底层都是用whisper的变种,模型能理解多语言混合输入,但是输出往往被统一成单一的语言。上面流行的 handy 就是。
预设了一些 LLM 后处理的 prompts ,也支持你微调和新增自己的 prompts 。比如翻译模式可以让你翻译去到任何语言,比如Hindi, ,Klingon等。我现在Slack 和讲 Hindi 的同事发 Hindi, 和讲 Telugu的发Telugu。
因为彻底的干净,所以也可以安装在工作电脑上。如果不开启AI后处理,就和一个计算器没有区别。针对特定的公司,目前为和家都专门做了bedrock和gemini的支持。

我发现暂时没有人 vibe 一个对非拉丁语族友好,免费,干净,而且还有AI后处理的项目,于是决定vibe 一个。我后面意外的发现翻译功能其实非常实用,有兴趣的可以体验一下。

我自己的观察是,我的朋友们本来就有这个需求的用了就很沉迷,没有这个需求的就不理解为什么要 speech to text.

我的一些使用场景:

一遍泡澡一边嘴炮vibe coding
使用高情商模式嘴炮处理ticket 把骂他们SB变成LP拉满的回复
偷偷翻译讲小语种的同事的悄悄话
新年给同事发ta的母语祝福

其他 Q & A

为什么多此一举搞语音转文字?打字不是更快。

Mac上的语音输入事实上提升了大脑的 output rate。你在切换视图甚至玩手机的时候都不影响你张嘴说进行输出。纯打字的话,你的输出会经常性的被迫中断(比如切换网页)。

为什么需要一个app专心只做这一件事?

因为每个app(比如vscode, cursor, antigravitiy) 都搞一个自己的听写下载一遍模型,我觉得完全不合理。而且很多都不会照顾到非母语者的体验。考虑到 App 的体积,一般也不会给你用满血的 whisper。

API KEY 也要钱啊

因为只做文字后处理,所以token消耗很少。高强度也用不了一两分钱每天。
白嫖一个GROQ或者Cerebras的 API KEY,每个月的免费额度足够日常使用了。

如果有大佬觉得好用,感觉帮助到你解决了一些痛点。我最近在找工,求个内推 。

--- 第 2 楼来自 kokosilly 的回复 (2026-01-30 17:19:16 PST) ---

最近也想vibe个类似的,实时转写mac内声音成字幕,提供大模型优化和翻译;

btw: lz用的是啥工作流?

--- 第 3 楼来自 hoah 的回复 (2026-01-30 17:21:42 PST) ---

语音转文字是本地的 whisper 我尝试搞成 streaming 但是发现这样要么太贵了要么太耗电影响macbook 续航。(主要还是准确率下降了很多

--- 第 4 楼来自 kokosilly 的回复 (2026-01-30 17:29:22 PST) ---

不知道zoom和腾讯会议里的实时转写是怎么做的,我感觉准确率还可以接受,毕竟就是要面对不同口音或者语言实时理解一下用,mac本地的那个实时字幕准确率和他们比差多了

--- 第 5 楼来自 qqwrv 的回复 (2026-01-30 17:32:14 PST) ---
--- 第 6 楼来自 hoah 的回复 (2026-01-30 17:33:08 PST) ---

你懂的

--- 第 7 楼来自 hoah 的回复 (2026-01-30 17:35:39 PST) ---

其实就是你说的,需求不同。你说的这种场景可以用小模型(100多MB) 粗略翻译一下大意即可,不需要追求极致的准确性。这里的需求是,作为输出辅助,准确率必须要高,甚至可以牺牲latency。不然输出需要经常性的手动介入纠错的话,对效率提升就无了。

--- 第 8 楼来自 kokosilly 的回复 (2026-01-30 17:37:17 PST) ---

确实是zszs

--- 第 9 楼来自 hoah 的回复 (2026-01-30 17:37:19 PST) ---

前排自己占个坑预留一下 Demo 的位置。

--- 第 10 楼来自 deepbluenight 的回复 (2026-01-30 17:39:10 PST) ---

【引用自 hoah】:
吼蛙 https://hoah.app/
published to mac appstore ? the github dmg is not signed, right ?

--- 第 11 楼来自 hoah 的回复 (2026-01-30 17:40:17 PST) ---

The dmg is signed and notarized by Apple. I installed it on my work laptop .

--- 第 12 楼来自 up9080 的回复 (2026-01-30 17:41:15 PST) ---

Is there an approval software list in your company ? I can try it in my personal laptop but abs can’t do it in work mac

--- 第 13 楼来自 hoah 的回复 (2026-01-30 17:42:08 PST) ---

So if you don’t enable the AI action, it works just like local software, making no internet request.

--- 第 15 楼来自 皮皮虾 的回复 (2026-01-30 17:43:14 PST) ---

可以给llm提供context么?比如放在一个workdir里让它能知道我在说哪些class name之类的

--- 第 16 楼来自 hoah 的回复 (2026-01-30 17:45:29 PST) ---

我一开始是有类似的功能,比如读取当前app的一些信息(比如直接做一个截图),但是需要向用户申请更多的权限。

原型也跑通了,但是这些行为让这个app看起来非常可疑。我觉得不太值得,就删掉没有继续了。

--- 第 17 楼来自 皮皮虾 的回复 (2026-01-30 17:48:19 PST) ---

make sense,加了不就成了某司 copilot 了

也许可以加一个类似 Skill/init 的模块让 llm 可以读。把是否挂载的控制权留给用户?语音转文字对我来说一大痛点是有很多 abbrev 没办法正确理解

--- 第 18 楼来自 hoah 的回复 (2026-01-30 17:51:04 PST) ---

【引用自 皮皮虾】:
abbrev 没办法正确理解
这个我看到很多流行的做法是加一个用户的自定义字典,然后全部喂给LLM。付费的 whspr flow 好像就是这么做的。我感觉这似乎不是很好的解,用户体验也没有提升太多。

我的办法是遇到abbrev就一个一个拼出来

--- 第 19 楼来自 uscard1024 的回复 (2026-01-30 17:55:28 PST) ---

我之前做了一个类似的玩具 区别是可以跨平台 还有一些其他小众的奇怪feature

请问这个whisper模型是从哪里下载的 hugging face吗

可以允许用户自己加载或者设置目录吗

本地已经下载好几份了 每个App都要下载一份

--- 第 20 楼来自 hoah 的回复 (2026-01-30 17:59:27 PST) ---

只能再下一份了 你这是高玩的需求 绝大多数人应该会卡在api key 这一步

还有印度哥们page我让我教他安装 给我气坏了

--- 第 21 楼来自 agamer 的回复 (2026-01-30 18:05:40 PST) ---

一直也想vibe一个类似的,楼主这个能识别语音文件中的不同的人吗?我之前看到一个魔改的whisper模型可以简单的识别,但是效果不大好我就放弃了。

--- 第 22 楼来自 hoah 的回复 (2026-01-30 18:06:41 PST) ---

不能区分人。但是都能转录出来。我用这个app偷偷翻译我的印度同事们的悄悄话,效果奇佳。下载完整的 whisper large v3 还是有很大意义的。

--- 第 23 楼来自 icework 的回复 (2026-01-30 18:09:40 PST) ---

支持下,目前我在 mac 上用的最好的中英文混用的免费语音输入法,是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了

--- 第 24 楼来自 bbtjoejoe 的回复 (2026-01-30 18:11:02 PST) ---

准备试试谢谢!

--- 第 25 楼来自 hoah 的回复 (2026-01-30 18:12:05 PST) ---

是的 开源的只有whisper对中国体质宝宝比较友好 parakeet 就是为欧美区而生的

--- 第 26 楼来自 uscard1024 的回复 (2026-01-30 18:12:23 PST) ---

Speaker Diarization 需要付费

--- 第 27 楼来自 agamer 的回复 (2026-01-30 18:13:41 PST) ---

哈哈,刚刚看了下这个魔改模型还更新了: GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

识别烙印说悄悄话应该不错的,特别是如果是固定的几个,它可以把他们标成烙印P1,P2,P3

--- 第 28 楼来自 hoah 的回复 (2026-01-30 18:15:17 PST) ---

上来一个 cuda installation 给我干懵了 我只有一个 macbook m4 pro

--- 第 29 楼来自 agamer 的回复 (2026-01-30 18:17:56 PST) ---

他也支持CPU的

--- 第 30 楼来自 hoah 的回复 (2026-01-30 18:34:15 PST) ---

我估计 mac 靠CPU带不动这个

--- 第 31 楼来自 郁小南 的回复 (2026-01-31 22:07:41 PST) ---

我现在在用https://lazytyper.com/ 可以本地模型 也可以API

LZ这个有什么区别?

--- 第 32 楼来自 蚀心酸菜鱼 的回复 (2026-01-31 23:03:23 PST) ---

typeless.com

Typeless | AI Voice Dictation That's Actually Intelligent

Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them.

同类产品挺多的 最近在用typeless,好处是有iOS键盘方便手机用

--- 第 33 楼来自 xuexuekan 的回复 (2026-01-31 23:52:35 PST) ---

不知道楼主这个对轻声说话(不用声带)的识别效果怎么样?在办公室的使用场景。目前看到的对这个场景优化过的似乎有 wispr flow 和 typeless

--- 第 34 楼来自 hahaandhehe 的回复 (2026-02-01 00:03:58 PST) ---

haha, 前几天我也 vibe 了一个 web app. 因为自用,用量低,不怕 api cost.

大厂的模型的确好 (gpt/gemini), 无论大声小声,无论任何语言胡乱mix,效果都很好,自定义,后处理也很方便。

语音的确好,很多时候语音比打字快多了。很多时候 语音能一边想一边输出,但是打字不行。

--- 第 35 楼来自 tty17 的回复 (2026-02-01 00:04:07 PST) ---

考虑开源吗

--- 第 36 楼来自 tty17 的回复 (2026-02-01 00:07:39 PST) ---

【引用自 hoah】:
语音转文字是本地的 whisper 我尝试搞成 streaming
我感觉gpt的语音识别已经特别强了,中英混杂都没问题,当然缺陷是得手动复制出来,没法自动填充,也许可以vibe code一个chrome插件来解决

--- 第 37 楼来自 hahaandhehe 的回复 (2026-02-01 00:09:14 PST) ---

以前网上看过别人分享,他vibe的是说话直接到苹果的粘贴版里。

--- 第 39 楼来自 tty17 的回复 (2026-02-01 00:15:48 PST) ---

是不是和这个开源工具类似呢?epicenter/apps/whispering at main · EpicenterHQ/epicenter · GitHub

--- 第 40 楼来自 hoodl 的回复 (2026-02-01 01:07:56 PST) ---

这个我知道,直接shortcuts就完事了。

--- 第 41 楼来自 LucidAir 的回复 (2026-02-01 01:09:53 PST) ---

我用的是plaude,非常好用,当然价格确实很冤大头,但是好处是随时随地一键开始嘴炮

--- 第 42 楼来自 Puyi 的回复 (2026-02-01 01:11:01 PST) ---

这个要钱吧?

--- 第 43 楼来自 affasfUHNUH124 的回复 (2026-02-01 01:52:11 PST) ---

用cpu跑会很慢

--- 第 44 楼来自 agamer 的回复 (2026-02-01 10:36:58 PST) ---

cpu我没跑过,GPU跑还挺快的,CPU可能跑小一点的模型会好点吧

--- 第 45 楼来自 xuexuekan 的回复 (2026-02-01 10:50:37 PST) ---

这个项目可能是你想要的 https://github.com/herrkaefer/micpipe

--- 第 46 楼来自 wanmson 的回复 (2026-02-01 12:25:58 PST) ---

啥时候上线用显卡的windows版哈哈

--- 第 47 楼来自 hoah 的回复 (2026-02-10 09:21:13 PST) ---

我没有试用这个。我这个是完全不盈利的个人项目,极致干净,在公司也可以安全用。

--- 第 48 楼来自 hoah 的回复 (2026-02-10 09:22:00 PST) ---

本来是开源的 但是我不小心commit 了一些 credentials 然后又懒得去清 git history 就先这么着吧

--- 第 49 楼来自 hoah 的回复 (2026-02-10 09:23:02 PST) ---

typeless和同类型的产品让我注册我就直接删了,你没法在公司电脑用这种产品。以及我觉得这种东西没有付费的必要,你的mac已经很贵了。

--- 第 50 楼来自 hoah 的回复 (2026-02-10 09:25:00 PST) ---

在办公室的使用场景最大的痛点其实是能装在工作电脑上,这俩直接被一票否决了。

--- 第 51 楼来自 索马里二当家 的回复 (2026-02-10 10:17:33 PST) ---

【引用自 hoah】:
polish 模式
这个是什么东西?

--- 第 52 楼来自 miracle 的回复 (2026-02-10 16:37:24 PST) ---

来个windows版本的吧

--- 第 53 楼来自 xxxyyy 的回复 (2026-02-10 16:52:54 PST) ---

为啥不用本地模型?mac应该可以支持

--- 第 54 楼来自 xxxyyy 的回复 (2026-02-10 16:53:01 PST) ---

windows系统里自带一个,用的NPU跑的本地模型。只要CPU支持就可以直接用了,这两年新的CPU基本都支持
【引用自 未知】:
【测评】旅行开会神器 - Copilot+ PC的AI降噪效果堪称完美 好物推荐
[image]
[image]
Voice Access里看到了这个功能。第一次用voice access感觉还挺神奇的,可以完全靠说话来控制电脑,应该是给残疾人用的。
Fluid Dictation语音纠正我也试了,还可以,如图,纠正了我的语法。
[image]
不过有个问题是,貌似有点太灵敏了,会把远处说话的人的声音录进去,不过这个可以结合主楼提到的定向麦克风解决。
运行的时候…

--- 第 55 楼来自 xxxyyy 的回复 (2026-02-10 17:02:09 PST) ---

【引用自 hoah】:
办公室的使用场景最大的痛点
不是一直说话导致边上同事有意见吗

--- 第 56 楼来自 Frankkkkk 的回复 (2026-02-10 17:50:37 PST) ---

楼主太强了!我有一个小建议:可以考虑给Download按钮换个颜色,第一眼看上去像是无法点击/下载的感觉:

Screenshot 2026-02-11 at 09.47.181402×452 59 KB

--- 第 57 楼来自 hoah 的回复 (2026-02-11 16:12:23 PST) ---

speech to text是用的本地whisper模型

--- 第 58 楼来自 hoah 的回复 (2026-02-11 16:14:00 PST) ---

感谢feedback。这个是onboarding流程里的下载吧。那一块儿UI我测的比较少 改了改了

--- 第 59 楼来自 hoah 的回复 (2026-02-11 16:18:07 PST) ---

我去办公室主要是开会。干活主要在家里。我最多的使用场景是浴缸泡澡时vibe coding

--- 第 60 楼来自 hoah 的回复 (2026-02-12 06:53:04 PST) ---

SUNO搞了一个HoAh theme song

suno.com

HoAh の Genesis

Listen and make your own on Suno.

--- 第 61 楼来自 KanShu 的回复 (2026-02-12 07:26:13 PST) ---

看起来很有意思的一个项目!一个小建议,能不能加一个上传音频文件的功能?工作原因经常需要采访一些人,如果能直接处理录音(而不只是听写),效率能提升很多。

--- 第 62 楼来自 hoah 的回复 (2026-02-12 09:37:31 PST) ---

我其实本来有这个功能。但是引入的依赖会让安装包体积暴增到30MB左右。我给拿掉了。我试试有没有更轻量的。

btw 直接用whisper处理录音对格式有严格要求,所以没法支持任意音频上传。

--- 第 63 楼来自 credit_addiction 的回复 (2026-02-26 05:38:46 PST) ---

真是个好东西啊,所以楼主是纯靠Vibe Programming 搞出这么个东西的吗?真是强大,以后我得好好学学了。 (本条回帖由由楼主开发的HoAh语音生成 )

--- 第 64 楼来自 hoah 的回复 (2026-02-26 12:05:07 PST) ---

纯vibe 不过过程也是比较曲折 疯狂vibe框架的时候很快就失控了 后面refactor了好几次

--- 第 65 楼来自 credit_addiction 的回复 (2026-02-26 14:12:01 PST) ---

太牛逼了,我想学习学习,对于没有太多基础的人有啥合适的教程吗?

个人有一定的编程基础,但是从来没有设计过任何产品,充其量也就学过数据结构,写点算法题之类的

--- 第 66 楼来自 sam1 的回复 (2026-02-26 20:30:15 PST) ---

楼主牛的!Superwhisper 不算主要竞品吗,公司买单整了一个,还挺爽的

--- 第 67 楼来自 polyhedron 的回复 (2026-02-27 10:54:30 PST) ---

厉害, 刚想在本地部署一个这样的speech to text。 lz考虑移动端吗

--- 第 68 楼来自 大沙雕 的回复 (2026-02-27 11:03:48 PST) ---

给大家安利一个和楼主的产品类似的开会写总结app: meetily

同样是本地whisper STT, 然后用任意指定模型来把text总结成会议记录,如果使用ollama可以做到完全本地运行

--- 第 69 楼来自 hoah 的回复 (2026-03-01 09:04:23 PST) ---

我觉得其实付费的都不算吧 这种功能不需要付费

--- 第 70 楼来自 hoah 的回复 (2026-03-01 09:09:43 PST) ---

我一开始是有ollama的 体验不好直接砍了

绝大多数设备本地能跑的模型能力相对弱

占用过多本地资源,并且latency反而更高

需要一定配置流程,想做到随时随地开箱即用很难。

--- 第 71 楼来自 discrete123 的回复 (2026-03-01 09:11:35 PST) ---

今天用了 Spokenly 觉得有点牛逼,尤其是还有 agent mode

--- 第 72 楼来自 hoah 的回复 (2026-03-01 10:38:27 PST) ---

【引用自 discrete123】:
Spokenly
确实看起来不错

感觉应该加把劲 上线app store的一直懒得没做

不过我个人觉得加太多功能是画蛇添足 我不喜欢微信那种巨大的单体app

听写是一个非常适合单独拆分出来的功能

--- 第 73 楼来自 baobao 的回复 (2026-03-01 10:49:41 PST) ---

【引用自 icework】:
目前我在 mac 上用的最好的中英文混用的免费语音输入法,是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了
豆包语音输入法什么时候上线 桌面端呀。。或者能从豆包 mac app 里 奇技淫巧搞出 豆包语音输入法吗

--- 第 74 楼来自 colo7r 的回复 (2026-03-01 18:57:18 PST) ---

openai 对于 oauth 的使用管理没有那么严格,我觉得可以加个对 openai oauth 的支持? 总之很感恩

--- 第 75 楼来自 icework 的回复 (2026-03-01 20:50:33 PST) ---

豆包 mac 里一直有语音输入法的 你设置里找到快捷键设置下就能在所有的输入框里用了。现在 mac 上 glm 也出语音输入法了 也可以试试

--- 第 76 楼来自 大沙雕 的回复 (2026-03-01 20:57:22 PST) ---

做个会议总结并不需要非常大的模型,一个8B甚至3B的模型都能做的很好

会议总结最多也就半小时做一次,本地模型总结一次也就20s以内对我来说完全无感

ollama的配置对于程序员来说已经不能更简单了,非程序员在AI指导下应该也能轻松搞定

--- 第 77 楼来自 polyhedron 的回复 (2026-03-02 00:30:08 PST) ---

才发现不支持Ventura

--- 第 78 楼来自 Chao 的回复 (2026-03-02 01:04:54 PST) ---

感谢。跑通了。
用 Fn 键一键切换豆包语音输入(直接替代Typeless)

首先,设定豆包桌面端的语音输入流程是:激活 → 说话 → 回车确认。每次都要按两个不同的快捷键,不太顺手。这里激活的快捷键可以自己设定,我用了Cmd+1。

用 Karabiner-Elements 可以把 Fn 键改成一个状态切换键:

第一次按 Fn → Cmd+1(激活豆包输入)
第二次按 Fn → 发送 Enter(确认输入),注意,这个应该是所有东西都输入完了之后再按。

这样只用一个键就能完成整个语音输入流程,体验接近原生输入法切换。而且这个和typeless就完全match了。
配置方法
1. 安装 Karabiner-Elements
brew install --cask karabiner-elements

安装后首次打开,需要在系统设置中授权辅助功能和输入监控权限。
2. 添加配置文件

将以下内容保存到 ~/.config/karabiner/assets/complex_modifications/doubao-fn-toggle.json:
{
"title": "Doubao Voice Input Toggle",
"rules": [
{
"description": "Fn toggles Doubao: first press = Cmd+1 (activate), second press = Enter (confirm)",
"manipulators": [
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 0
}
],
"to": [
{
"key_code": "1",
"modifiers": ["left_command"]
},
{
"set_variable": {
"name": "doubao_active",
"value": 1
}
}
]
},
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 1
}
],
"to": [
{
"key_code": "return_or_enter"
},
{
"set_variable": {
"name": "doubao_active",
"value": 0
}
}
]
}
]
}
]
}

3. 启用规则

打开 Karabiner-Elements → Complex Modifications → Add Rule → 找到 “Doubao Voice Input Toggle” → 启用。
注意事项

新款 Mac 的 Fn 键同时也是 Globe 键。如果 Karabiner 无法拦截 Fn,需要在系统设置 → 键盘 → “按下 fn

键时"改为"不执行任何操作”,这样 Karabiner 才能接管这个键。
原理

Karabiner 的 complex modifications 支持通过变量(set_variable / variable_if)实现有状态的按键映射。这里用 doubao_active

变量在 0 和 1 之间切换,让同一个 Fn 键在两次按下时分别发送不同的按键。

--- 第 79 楼来自 baobao 的回复 (2026-03-05 12:45:58 PST) ---

【引用自 icework】:
豆包 mac 里一直有语音输入法的 你设置里找到快捷键设置下就能在所有的输入框里用了
Screenshot 2026-03-05 at 12.45.47 PM1273×566 33.7 KB

设置在这里。感谢!

--- 第 80 楼来自 地瓜土豆 的回复 (2026-03-05 14:01:47 PST) ---

没windows吗

--- 第 81 楼来自 hoah 的回复 (2026-03-22 10:59:44 PDT) ---

更新

增加了ollama作为 AI Action选项

支持以下云streaming dictation: elevenlabs, OpenAI, Amazon Transcribe

--- 第 82 楼来自 terryz08 的回复 (2026-03-22 19:06:21 PDT) ---

截屏2026-03-22 22.05.41826×388 12.6 KB

用了几天typeless,其实还挺好用的

中英文混杂识别率还挺高, 方便和cc头脑风暴讨论idea, 就是订阅有点贵

--- 第 83 楼来自 hoah 的回复 (2026-03-23 06:05:54 PDT) ---

那么考虑一下免费的HoAh吗

--- 第 84 楼来自 Hali 的回复 (2026-03-23 06:33:14 PDT) ---

跪求windows 笔记本是windows 家里是mac mini

完美避开使用场景

--- 第 85 楼来自 hoah 的回复 (2026-03-23 07:58:54 PDT) ---

我也想做 但是我没有windows设备 我晚上研究一下有没有什么办法

--- 第 86 楼来自 snpxdus 的回复 (2026-03-23 08:59:25 PDT) ---

测试了几段中英混杂,加上AI之后比不带AI的MacWhisper好很多,尤其是专业术语方面。不加AI的话和MacWhisper一模一样,感觉之前的钱白花了hhh

一个问题是加上AI的Hoah有时候转录时间过长(用的是推荐的免费Groq)想问一下单纯从速度方面考虑,建议换其他的API供应商吗

--- 第 87 楼来自 hoah 的回复 (2026-03-23 10:51:25 PDT) ---

感谢喜欢! 泥潭精神就是能免费不要付费!

其实Groq和cerebras 就是速度最快的两家 别的以及ollama还要慢 我周末再看看有没有更合适的模型选择 这个任务不需要太多thinking

--- 第 88 楼来自 Static 的回复 (2026-03-23 11:05:03 PDT) ---

试用了一下,好用,推荐!

--- 第 89 楼来自 awash 的回复 (2026-03-23 11:19:40 PDT) ---

蒸蚌!

有没有人和OpenWhisper对比一下?乍一听感觉功能是差不多的

--- 第 90 楼来自 hoah 的回复 (2026-03-23 12:17:32 PDT) ---

一看 Whisper 估计都是基于 whisper 模型 但是HoAh完全不付费 我不太了解 OpenWhisper 为什么还有订阅?

--- 第 91 楼来自 Hali 的回复 (2026-03-23 12:19:41 PDT) ---

lz用什么microphone,没macbook的话

Mac mini带着AirPods也挺难受的一次几小时

我问了ai说手机和电脑可以一个wifi下可以当speaker microphone什么的 但我还没弄明白

直接handoff就行了,然后买个支架 手机挂上去 摆在电脑前,旧iPhone当microphone用,调用的时候自动亮起

--- 第 92 楼来自 awash 的回复 (2026-03-23 20:48:07 PDT) ---

【引用自 hoah】:
我不太了解 OpenWhisper 为什么还有订阅?
貌似是用他们的远程API的话要,本地跑不用付费

--- 第 93 楼来自 hoah 的回复 (2026-03-23 22:12:39 PDT) ---

哈哈哈 日期那个一直没修复 我以为没人用

Claude 告诉我 “The root cause is a known macOS SwiftUI rendering bug where the GPU compositor can horizontally flip view layers during desktop/space transitions, especially when implicit .animation() modifiers are involved.”

繁体字没办法 各个模型都训进去了大量的繁中

--- 第 94 楼来自 Stubhub 的回复 (2026-03-24 15:02:03 PDT) ---

求windows版本!

--- 第 95 楼来自 attention 的回复 (2026-03-26 17:33:37 PDT) ---

mac上装了好几天了,求手机版本

--- 第 96 楼来自 hoah 的回复 (2026-03-27 10:43:43 PDT) ---

最近发布了几个小版本

HoAh 主要新增了 Ollama 本地模型支持、实时 streaming 流式转写能力(需要配置APIKEY),以及更完善的 Selection AI Action 选中文本智能处理体验;

streaming:

是实时流式转写。开始录音后,识别结果会一边说一边持续返回,不用等整段结束才出全文,适合会议、口述和低延迟输入。当前这类能力对应 OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming 这类实时转写提供商。

Selection AI Action:

先在任意应用里选中一段文字,然后触发对应快捷键,HoAh 会自动复制当前选区,把文本交给你配置好的 AI Action 处理,比如润色、翻译、改写、问答,最后把结果回贴到原位置。它本质上是“对当前选中文本直接做 AI 处理”,比手动复制粘贴更顺。

--- 第 97 楼来自 hoah 的回复 (2026-03-27 10:44:11 PDT) ---

iOS键盘开发比较困难 你能接受只做成一个记事本的状态吗

--- 第 98 楼来自 hoah 的回复 (2026-03-27 10:44:27 PDT) ---

没有windows设备

--- 第 99 楼来自 China.No.1 的回复 (2026-04-04 10:35:47 PDT) ---

感谢楼主推荐,我不需要llm所以用了handy,感觉给agent派活儿效率直接拉爆,主要是prompt可以讲的非常详细了。

--- 第 100 楼来自 aiwandedx 的回复 (2026-04-09 16:20:28 PDT) ---

好用, 蛮好的。楼主搞个公司, 去拉投资

--- 第 101 楼来自 aiwandedx 的回复 (2026-04-14 06:13:27 PDT) ---

建议楼主加入deepseek APIkey的选择。

--- 第 102 楼来自 Onvon 的回复 (2026-04-18 19:54:54 PDT) ---

好用 lz可以在app里开个打赏 iOS版我觉得可以做成一个custom shortcut 这样可以直接用siri启动 简单方便 还可以调用灵动岛的录音widget 而且shortcut可以直接粘贴处理好的文本 进剪贴板 也不会有什么权限的问题

--- 第 103 楼来自 Onvon 的回复 (2026-04-18 20:09:28 PDT) ---

另外windows的朋友可以考虑 light whisper

--- 第 104 楼来自 hoah 的回复 (2026-04-22 17:33:18 PDT) ---

Onvon: 开个打赏 求个内推就好

--- 第 105 楼来自 hoah 的回复 (2026-04-22 17:33:40 PDT) ---

有空研究一下 iOS 真的搞得心累

--- 第 106 楼来自 AppleMusic 的回复 (2026-04-22 17:50:03 PDT) ---

话说typeless在ios上面也是url跳转实现的吧 这是他们的核心竞争力吗

--- 第 107 楼来自 hoah 的回复 (2026-04-22 17:53:17 PDT) ---

算是的吧 我尝试做过 他们估计是动态维护了一张巨大的常用app跳转的表 所以冷门小众app无法跳转 这个直接远超我一人力所能及的范围

--- 第 108 楼来自 China.No.1 的回复 (2026-04-23 12:16:07 PDT) ---

虽然我不用LLM,但是我今天发现handy也有LLM post processing的选项了。

--- 第 109 楼来自 donk666 的回复 (2026-04-30 00:17:26 PDT) ---

https://github.com/EpicenterHQ/epicenter https://github.com/EpicenterHQ/epicenter Open-source, local-first apps. 我之前一直用这个小众宝藏开源版,有llm后处理

--- 第 110 楼来自 volibear 的回复 (2026-04-30 05:56:40 PDT) ---

hoah: LP拉满

--- 第 111 楼来自 letix 的回复 (2026-04-30 20:03:25 PDT) ---

这个做得非常棒啊,感觉LZ花了不少心思,一个观察:现在handy也有post processing,两边同时试了一下用同一个groq的model,hoah感觉transcribing + apply AI action这两步速度还是有点慢,而handy感觉相对较快,一个小小feedback

--- 第 112 楼来自 smallhead 的回复 (2026-05-02 14:58:29 PDT) ---

作者这个产品做得真棒!我本来用闪电说的,发现不如你这个方便。

--- 第 113 楼来自 hoah 的回复 (2026-05-02 15:35:20 PDT) ---

apply AI action 这个完全取决于api provider没办法 transcribing 最近升级换默认模型为千问之后快多了 系统资源没问题的时候稳定 < 500ms

--- 第 114 楼来自 hoah 的回复 (2026-05-02 15:35:33 PDT) ---

吼蛙吼蛙

--- 第 115 楼来自 hoah 的回复 (2026-05-02 15:36:14 PDT) ---

吼蛙最新版更新了Local Streaming 不过可以想像比较吃硬件

--- 第 116 楼来自 China.No.1 的回复 (2026-05-02 20:11:25 PDT) ---

666 我回头用我尊贵的m1max 试试

--- 第 117 楼来自 Pizza 的回复 (2026-05-27 12:08:01 PDT) ---

用了一段时间了,中英文混用好用的!赞! 纯英文的时候试了Qwen3和Parakeet V3,感觉实时转录的时候如果有气口都没法很好地断句 Just. Think about it. For now. We don’t need to run any experiment. Yet. Just theoretical. 同样的句子拿https://altic.dev/fluid 试了一下感觉没有问题,不知道lz有没有遇到过类似情况 Just think about it for now. We don’t need to run any experiment yet. Just theoretical.

--- 第 118 楼来自 hoah 的回复 (2026-05-27 17:59:53 PDT) ---

模型选择不一样 QWen3 我记得训练用了很多10秒以内的短句 Parakeet 应该也差不多 Whisper 用的是 30秒

--- 第 119 楼来自 Pizza 的回复 (2026-05-27 18:53:07 PDT) ---

但是我在FluidVoice里面也是选的Parakeet V3,所以理论上模型是一样? /uploads/short-url/vj9hm3uFShFWlQVoC67hExlVbap.png?dl=1

--- 第 120 楼来自 hoah 的回复 (2026-05-27 22:59:36 PDT) ---

其实不一定,因为具体他用的是哪个版本的模型,其实是还有用的是什么管线,可能是不一样的。我其实没有怎么去关注过这个项目,因为我对他的印象就是比较粗制滥造的垃圾。 就是很神奇,我最开始做之前,我也以为,嗯,这个东西其实就是模型套壳就可以了,但是发现就是大家做出来的效果,其实还是千差万别的。 btw 吼蛙很可耻的只更新到 3.8.3 因为有人联系rebrand了一下在做付费版 从3.8.3到现在我自己也没想到能优化这么多 目前各种工况下都有点sota 比如常用的听写长度 QWen, GLM, Parakeet 都从300 - 500ms 稳定压到了100ms - 200ms 极端可以到50ms Whisper 也从 1秒压到了 500ms 优化了很多冷启动 内存管理 AI Action 延迟也做到了常态 500ms 以内 我还优化了非常多本地流式听写,我不记得3.8.3有没有这个功能了。 /uploads/short-url/lOssz5i0vO99FmZ8KGcevldvqkN.jpeg?dl=1 我试了一圈,这个同类型的产品。我觉得好像只有,Handy 是做的比较好的,其他的我感觉都不咋地。我也是觉得做到了,好像比 handy 还要好的时候,我觉得可以开始做收费的版本。就是,如果今年,收费版的不咋赚钱,没什么人用,我就直接开源,我觉得可以把很多同类型产品的骨灰都给扬了。

--- 第 121 楼来自 Pizza 的回复 (2026-05-28 06:33:44 PDT) ---

吼蛙吼蛙

--- 第 122 楼来自 交大梁朝伟 的回复 (2026-06-01 08:51:24 PDT) ---

最近薅了一个 Wispr Flow 的免费试用九十天。我发现 Wispr Flow 有两个非常好用的功能: 添加自定义的关键词词典,这样的话就可以在听写的过程中放进去一些特定的常用词汇。 Wispr Flow 声称自己可以 index Cursor 里面的文件和变量名,这样可以自动听写出来文件名和变量名。 但第二个功能我目前用的比较少,我还是习惯手敲。不知道这两个是否容易实现。

--- 第 123 楼来自 hoah 的回复 (2026-06-02 01:44:31 PDT) ---

有两类,一类是通过 Regex 替换,一类是从 Context 进去。但是不是所有的模型都支持从 Context。目前我做了 Regex,但是从 Context 的方法效果比较一般。最近我比较忙,没有空研究得太深入。 这一个主要是需要对用户的 accessibility 有比较多的侵入,我觉得不是特别值得做。而且我不确定它是不是通过 LLM 来做到的。 以上内容都是通过听写加上 AI Action 得到的,我觉得效果也还不错。

--- 第 124 楼来自 佩洛西 的回复 (2026-06-02 03:26:22 PDT) ---

公司让用super whisper。这个和它哪个好用?

--- 第 125 楼来自 索马里二当家 的回复 (2026-06-02 07:21:22 PDT) ---

这种替换是直接语言识别的时候就替换了 还是文本识别出来之后再进行文本替换啊 STT后替换的话我发现有很多词会有相当概率的别字 不知道这种怎么处理

--- 第 126 楼来自 hahaandhehe 的回复 (2026-06-03 05:10:47 PDT) ---

懒人伸手一下: 如果只需要中英文, 说的话没啥隐私的, 这个比豆包语音输入法有啥incremental 好处吗? 个人经验,豆包准确性还是挺不错的了,够用.

--- 第 127 楼来自 Chao 的回复 (2026-06-05 00:10:00 PDT) ---

最近尝试了豆包输入法,发现它竟然可以说话的时候字就在输入的地方冒出来(而不是在什么其他地方显示),和真的IME一样呢。然后停下来它再会做一次update。 Hoah有没有办法做到这样?

--- 第 128 楼来自 狂魔哥 的回复 (2026-06-23 19:36:39 PDT) ---

你这能转录会议里面的文字不 比如online meeting

--- 第 129 楼来自 美卡小白用户 的回复 (2026-06-23 19:48:33 PDT) ---

软件的核心能力其实是销售能力,typeless和genspark speak,几乎一模一样的体验,为啥大家全都用typeless

--- 第 130 楼来自 kokosilly 的回复 (2026-06-23 19:52:50 PDT) ---

后来vibe成功了,还是主要面向实时性的,可以在弹窗或者字幕查看所选窗口或者屏幕的电脑内声音,也可以加上麦克风,可以选一些主流的AST模型或者本地的,可以实时总结当前内容,也可以在转写完成后可以再做主动的ai总结润色和后处理,也可以通过mcp让外部的agent来调用后处理的文件

--- 第 131 楼来自 狂魔哥 的回复 (2026-06-23 21:00:34 PDT) ---

可以分享下不

--- 第 132 楼来自 georgezc2003 的回复 (2026-06-23 21:02:43 PDT) ---

看到王祖泽老师赶紧来打个招呼

--- 第 133 楼来自 kokosilly 的回复 (2026-06-24 05:10:03 PDT) ---

里面有很多我自己用的diy的功能 暂时还不适合分发,太乱了