【吼蛙】Vibe了一个 Mac 听写转文字LLM后处理的App (新增选中文本一键处理)

📈 搬砖作者 hoah 2026-01-30 17:13 PST 原帖 #479787 ↗

内容摘要

Mac 语音转文字 App HoAh 免费本地 Whisper + 可选 LLM 后处理，支持多语言与选中文本一键 AI。

1. 关键信息

项目名称：HoAh（吼蛙）
官网/下载链接：https://hoah.app/（Mac App Store 已签名 notarized）【#1】【#11】
核心功能
本地 Whisper 语音转文字（离线，无网络请求）【#1】【#57】
可选 AI 后处理（润色、翻译、改写等），支持自定义 Prompt【#1】【#7】
多语言混合识别，支持 Hindi、Telugu、Klingon 等【#1】
选中文本“一键处理”功能（复制‑>AI‑>粘贴）【#96】
支持多家云 streaming API（OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming）【#96】
支持 Ollama 本地模型、Groq、Cerebras、Bedrock、Gemini 等后端【#1】【#81】【#86】
新增 Local Streaming 转写（较吃硬件）【#115】
使用场景示例：浴缸 coding、客服回复润色、同事小语种悄悄话翻译、节日母语祝福等【#1】
资源占用：本地 Whisper 大模型（large‑v3）体积大，CPU 运行慢，推荐使用 GPU/Apple Silicon 加速；不启用 AI 时仅是本地软件【#3】【#30】
开源情况：项目原本开源，但因误提交凭证未清理历史，现为闭源发布【#48】
兼容性：不支持 macOS Ventura 以上的部分用户【#77】
其他功能尝试：曾计划上传音频文件、读取当前 App 信息、Ollama 本地模型等，但因体积或权限问题被舍弃【#62】【#70】

2. 羊毛/优惠信息

无

3. 最新动态

新增 Ollama 本地模型 支持【#81】
引入 实时 streaming 转写能力（需配置 API Key）【#96】
增强 Selection AI Action，实现选中文本即时 AI 处理【#96】
修复 UI 下载按钮颜色问题【#56】【#58】
计划加入 DeepSeek API（社区建议）【#101】
收到用户反馈：与 Handy 对比，HoAh 的 transcribing + apply AI action 两步速度较慢【#111】
作者回应：apply AI action 速度完全取决于 API provider；transcribing 已升级默认模型为千问（Qwen），系统资源正常时稳定 < 500ms【#113】
新增 Local Streaming 转写功能，但较吃硬件【#115】
用户 @smallhead 称赞产品比闪电说更方便【#112】
用户 @China.No.1 表示将用 M1 Max 尝试【#116】

4. 争议或不同意见

部分用户担心 隐私/权限：读取当前 App 信息会触发额外权限请求，被作者认为“可疑”而放弃【#16】
模型体积与性能：本地 Whisper 大模型在 CPU 上慢，部分用户认为不适合实时转写【#30】【#44】
收费 vs 免费：多数用户赞同免费本地方案，认为付费产品（Typeless、Spokenly 等）性价比低【#49】【#71】
跨平台需求：多位用户请求 Windows、iOS、Android 版本，作者表示暂无 Windows 设备，iOS 开发难度大【#85】【#97】
API 供应商选择：使用 Groq 时转录延迟较高，用户询问是否换供应商，作者回复 Groq 与 Cerebras 为最快选项【#86】【#87】
速度对比：有用户反馈 HoAh 的 transcribing + apply AI action 两步整体速度慢于 Handy（同一 Groq 模型）【#111】；作者回应已升级默认模型为千问，稳定 < 500ms【#113】

5. 行动建议

下载并试用：在个人 Mac 上安装 HoAh（已签名），先关闭 AI Action 验证本地 Whisper 性能【#11】【#13】。
配置后端：根据使用频率选择免费额度较高的 Groq 或 Cerebras；若对延迟敏感，可尝试 OpenAI Realtime 或 ElevenLabs【#86】。
自定义 Prompt：利用内置 Prompt 编辑器添加常用 abbrev、专业术语或特定语言翻译模板，提高后处理准确度【#7】【#18】。
权限管理：仅在需要读取当前 App 信息时授予额外权限，避免不必要的安全警报【#16】。
关注更新：留意作者后续发布的 Ollama 本地模型与 streaming 功能更新，尤其是对 macOS Ventura 的兼容性修复【#81】【#96】。
社区贡献：若有 Windows/跨平台需求，可在 GitHub 提交需求或自行移植 WhisperX/WhisperX‑Diarization 等开源实现【#27】【#103】。
速度对比测试：若在意实时性，可同时试用 Handy 对比 HoAh 的转写+AI 速度，结合自身需求选择【#111】；注意 HoAh 已升级默认模型为千问，转写速度有提升【#113】。
尝试 Local Streaming：若硬件配置较高（Apple Silicon），可体验最新 Local Streaming 转写功能，但注意资源占用【#115】。
M1 Max 用户可优先测试：@China.No.1 已表示将用 M1 Max 尝试，建议同配置用户跟进反馈性能表现【#116】。

原始内容

--- 第 1 楼来自 hoah 的回复 (2026-01-30 17:13:44 PST) ---

链接：吼蛙 https://hoah.app/

是干什么的：

以下流程一键完成：

第一步本地语音 → 文字。
第二步API call 把文字 → AI 润色 / 后处理。
处理过的文字自动进当前的输入框和剪贴板。本地保存录音和转写的历史记录。

简而言之就是把 ChatGPT / Cursor 的语音输入体验提升，并且带到所有的文字输入框中。

为什么要自己做（vibe) 一个：

很多同类产品需要付费，看广告，或者收集数据。我觉得这个功能不值得付费，我需要一个自备 apikey 的免费，干净的版本。
开源干净的项目，比如著名的 https://handy.computer/ 不能实现 API 后处理这一步。我说话比较磕吧，原始的转录文字很难直接用，需要LLM进行后处理。而且我对语法也不是很注意，需要LLM自动纠正语法。
目前没找到任何项目默认就是多语言混合语音转写。虽然底层都是用whisper的变种，模型能理解多语言混合输入，但是输出往往被统一成单一的语言。上面流行的 handy 就是。
预设了一些 LLM 后处理的 prompts ，也支持你微调和新增自己的 prompts 。比如翻译模式可以让你翻译去到任何语言，比如Hindi, ，Klingon等。我现在Slack 和讲 Hindi 的同事发 Hindi, 和讲 Telugu的发Telugu。
因为彻底的干净，所以也可以安装在工作电脑上。如果不开启AI后处理，就和一个计算器没有区别。针对特定的公司，目前为和家都专门做了bedrock和gemini的支持。

我发现暂时没有人 vibe 一个对非拉丁语族友好，免费，干净，而且还有AI后处理的项目，于是决定vibe 一个。我后面意外的发现翻译功能其实非常实用，有兴趣的可以体验一下。

我自己的观察是，我的朋友们本来就有这个需求的用了就很沉迷，没有这个需求的就不理解为什么要 speech to text.

我的一些使用场景：

一遍泡澡一边嘴炮vibe coding
使用高情商模式嘴炮处理ticket 把骂他们SB变成LP拉满的回复
偷偷翻译讲小语种的同事的悄悄话
新年给同事发ta的母语祝福

其他 Q & A

为什么多此一举搞语音转文字？打字不是更快。

Mac上的语音输入事实上提升了大脑的 output rate。你在切换视图甚至玩手机的时候都不影响你张嘴说进行输出。纯打字的话，你的输出会经常性的被迫中断（比如切换网页）。

为什么需要一个app专心只做这一件事？

因为每个app（比如vscode, cursor, antigravitiy) 都搞一个自己的听写下载一遍模型，我觉得完全不合理。而且很多都不会照顾到非母语者的体验。考虑到 App 的体积，一般也不会给你用满血的 whisper。

API KEY 也要钱啊

因为只做文字后处理，所以token消耗很少。高强度也用不了一两分钱每天。
白嫖一个GROQ或者Cerebras的 API KEY，每个月的免费额度足够日常使用了。

如果有大佬觉得好用，感觉帮助到你解决了一些痛点。我最近在找工，求个内推。

--- 第 2 楼来自 kokosilly 的回复 (2026-01-30 17:19:16 PST) ---

最近也想vibe个类似的，实时转写mac内声音成字幕，提供大模型优化和翻译；

btw: lz用的是啥工作流？

--- 第 3 楼来自 hoah 的回复 (2026-01-30 17:21:42 PST) ---

语音转文字是本地的 whisper 我尝试搞成 streaming 但是发现这样要么太贵了要么太耗电影响macbook 续航。（主要还是准确率下降了很多

--- 第 4 楼来自 kokosilly 的回复 (2026-01-30 17:29:22 PST) ---

不知道zoom和腾讯会议里的实时转写是怎么做的，我感觉准确率还可以接受，毕竟就是要面对不同口音或者语言实时理解一下用，mac本地的那个实时字幕准确率和他们比差多了

--- 第 5 楼来自 qqwrv 的回复 (2026-01-30 17:32:14 PST) ---

--- 第 6 楼来自 hoah 的回复 (2026-01-30 17:33:08 PST) ---

你懂的

--- 第 7 楼来自 hoah 的回复 (2026-01-30 17:35:39 PST) ---

其实就是你说的，需求不同。你说的这种场景可以用小模型（100多MB) 粗略翻译一下大意即可，不需要追求极致的准确性。这里的需求是，作为输出辅助，准确率必须要高，甚至可以牺牲latency。不然输出需要经常性的手动介入纠错的话，对效率提升就无了。

--- 第 8 楼来自 kokosilly 的回复 (2026-01-30 17:37:17 PST) ---

确实是zszs

--- 第 9 楼来自 hoah 的回复 (2026-01-30 17:37:19 PST) ---

前排自己占个坑预留一下 Demo 的位置。

--- 第 10 楼来自 deepbluenight 的回复 (2026-01-30 17:39:10 PST) ---

【引用自 hoah】:
吼蛙 https://hoah.app/
published to mac appstore ? the github dmg is not signed, right ?

--- 第 11 楼来自 hoah 的回复 (2026-01-30 17:40:17 PST) ---

The dmg is signed and notarized by Apple. I installed it on my work laptop .

--- 第 12 楼来自 up9080 的回复 (2026-01-30 17:41:15 PST) ---

Is there an approval software list in your company ? I can try it in my personal laptop but abs can’t do it in work mac

--- 第 13 楼来自 hoah 的回复 (2026-01-30 17:42:08 PST) ---

So if you don’t enable the AI action, it works just like local software, making no internet request.

--- 第 15 楼来自皮皮虾的回复 (2026-01-30 17:43:14 PST) ---

可以给llm提供context么？比如放在一个workdir里让它能知道我在说哪些class name之类的

--- 第 16 楼来自 hoah 的回复 (2026-01-30 17:45:29 PST) ---

我一开始是有类似的功能，比如读取当前app的一些信息（比如直接做一个截图），但是需要向用户申请更多的权限。

原型也跑通了，但是这些行为让这个app看起来非常可疑。我觉得不太值得，就删掉没有继续了。

--- 第 17 楼来自皮皮虾的回复 (2026-01-30 17:48:19 PST) ---

make sense，加了不就成了某司 copilot 了

也许可以加一个类似 Skill/init 的模块让 llm 可以读。把是否挂载的控制权留给用户？语音转文字对我来说一大痛点是有很多 abbrev 没办法正确理解

--- 第 18 楼来自 hoah 的回复 (2026-01-30 17:51:04 PST) ---

【引用自皮皮虾】:
abbrev 没办法正确理解
这个我看到很多流行的做法是加一个用户的自定义字典，然后全部喂给LLM。付费的 whspr flow 好像就是这么做的。我感觉这似乎不是很好的解，用户体验也没有提升太多。

我的办法是遇到abbrev就一个一个拼出来

--- 第 19 楼来自 uscard1024 的回复 (2026-01-30 17:55:28 PST) ---

我之前做了一个类似的玩具区别是可以跨平台还有一些其他小众的奇怪feature

请问这个whisper模型是从哪里下载的 hugging face吗

可以允许用户自己加载或者设置目录吗

本地已经下载好几份了每个App都要下载一份

--- 第 20 楼来自 hoah 的回复 (2026-01-30 17:59:27 PST) ---

只能再下一份了你这是高玩的需求绝大多数人应该会卡在api key 这一步

还有印度哥们page我让我教他安装给我气坏了

--- 第 21 楼来自 agamer 的回复 (2026-01-30 18:05:40 PST) ---

一直也想vibe一个类似的，楼主这个能识别语音文件中的不同的人吗？我之前看到一个魔改的whisper模型可以简单的识别，但是效果不大好我就放弃了。

--- 第 22 楼来自 hoah 的回复 (2026-01-30 18:06:41 PST) ---

不能区分人。但是都能转录出来。我用这个app偷偷翻译我的印度同事们的悄悄话，效果奇佳。下载完整的 whisper large v3 还是有很大意义的。

--- 第 23 楼来自 icework 的回复 (2026-01-30 18:09:40 PST) ---

支持下，目前我在 mac 上用的最好的中英文混用的免费语音输入法，是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了

--- 第 24 楼来自 bbtjoejoe 的回复 (2026-01-30 18:11:02 PST) ---

准备试试谢谢！

--- 第 25 楼来自 hoah 的回复 (2026-01-30 18:12:05 PST) ---

是的开源的只有whisper对中国体质宝宝比较友好 parakeet 就是为欧美区而生的

--- 第 26 楼来自 uscard1024 的回复 (2026-01-30 18:12:23 PST) ---

Speaker Diarization 需要付费

--- 第 27 楼来自 agamer 的回复 (2026-01-30 18:13:41 PST) ---

哈哈，刚刚看了下这个魔改模型还更新了: GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

识别烙印说悄悄话应该不错的，特别是如果是固定的几个，它可以把他们标成烙印P1，P2，P3

--- 第 28 楼来自 hoah 的回复 (2026-01-30 18:15:17 PST) ---

上来一个 cuda installation 给我干懵了我只有一个 macbook m4 pro

--- 第 29 楼来自 agamer 的回复 (2026-01-30 18:17:56 PST) ---

他也支持CPU的

--- 第 30 楼来自 hoah 的回复 (2026-01-30 18:34:15 PST) ---

我估计 mac 靠CPU带不动这个

--- 第 31 楼来自郁小南的回复 (2026-01-31 22:07:41 PST) ---

我现在在用https://lazytyper.com/ 可以本地模型也可以API

LZ这个有什么区别？

--- 第 32 楼来自蚀心酸菜鱼的回复 (2026-01-31 23:03:23 PST) ---

typeless.com

Typeless | AI Voice Dictation That's Actually Intelligent

Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them.

同类产品挺多的最近在用typeless，好处是有iOS键盘方便手机用

--- 第 33 楼来自 xuexuekan 的回复 (2026-01-31 23:52:35 PST) ---

不知道楼主这个对轻声说话（不用声带）的识别效果怎么样？在办公室的使用场景。目前看到的对这个场景优化过的似乎有 wispr flow 和 typeless

--- 第 34 楼来自 hahaandhehe 的回复 (2026-02-01 00:03:58 PST) ---

haha, 前几天我也 vibe 了一个 web app. 因为自用，用量低，不怕 api cost.

大厂的模型的确好 (gpt/gemini), 无论大声小声，无论任何语言胡乱mix，效果都很好，自定义，后处理也很方便。

语音的确好，很多时候语音比打字快多了。很多时候语音能一边想一边输出，但是打字不行。

--- 第 35 楼来自 tty17 的回复 (2026-02-01 00:04:07 PST) ---

考虑开源吗

--- 第 36 楼来自 tty17 的回复 (2026-02-01 00:07:39 PST) ---

【引用自 hoah】:
语音转文字是本地的 whisper 我尝试搞成 streaming
我感觉gpt的语音识别已经特别强了，中英混杂都没问题，当然缺陷是得手动复制出来，没法自动填充，也许可以vibe code一个chrome插件来解决

--- 第 37 楼来自 hahaandhehe 的回复 (2026-02-01 00:09:14 PST) ---

以前网上看过别人分享，他vibe的是说话直接到苹果的粘贴版里。

--- 第 39 楼来自 tty17 的回复 (2026-02-01 00:15:48 PST) ---

是不是和这个开源工具类似呢？epicenter/apps/whispering at main · EpicenterHQ/epicenter · GitHub

--- 第 40 楼来自 hoodl 的回复 (2026-02-01 01:07:56 PST) ---

这个我知道，直接shortcuts就完事了。

--- 第 41 楼来自 LucidAir 的回复 (2026-02-01 01:09:53 PST) ---

我用的是plaude,非常好用，当然价格确实很冤大头，但是好处是随时随地一键开始嘴炮

--- 第 42 楼来自 Puyi 的回复 (2026-02-01 01:11:01 PST) ---

这个要钱吧？

--- 第 43 楼来自 affasfUHNUH124 的回复 (2026-02-01 01:52:11 PST) ---

用cpu跑会很慢

--- 第 44 楼来自 agamer 的回复 (2026-02-01 10:36:58 PST) ---

cpu我没跑过，GPU跑还挺快的，CPU可能跑小一点的模型会好点吧

--- 第 45 楼来自 xuexuekan 的回复 (2026-02-01 10:50:37 PST) ---

这个项目可能是你想要的 https://github.com/herrkaefer/micpipe

--- 第 46 楼来自 wanmson 的回复 (2026-02-01 12:25:58 PST) ---

啥时候上线用显卡的windows版哈哈

--- 第 47 楼来自 hoah 的回复 (2026-02-10 09:21:13 PST) ---

我没有试用这个。我这个是完全不盈利的个人项目，极致干净，在公司也可以安全用。

--- 第 48 楼来自 hoah 的回复 (2026-02-10 09:22:00 PST) ---

本来是开源的但是我不小心commit 了一些 credentials 然后又懒得去清 git history 就先这么着吧

--- 第 49 楼来自 hoah 的回复 (2026-02-10 09:23:02 PST) ---

typeless和同类型的产品让我注册我就直接删了，你没法在公司电脑用这种产品。以及我觉得这种东西没有付费的必要，你的mac已经很贵了。

--- 第 50 楼来自 hoah 的回复 (2026-02-10 09:25:00 PST) ---

在办公室的使用场景最大的痛点其实是能装在工作电脑上，这俩直接被一票否决了。

--- 第 51 楼来自索马里二当家的回复 (2026-02-10 10:17:33 PST) ---

【引用自 hoah】:
polish 模式
这个是什么东西？

--- 第 52 楼来自 miracle 的回复 (2026-02-10 16:37:24 PST) ---

来个windows版本的吧

--- 第 53 楼来自 xxxyyy 的回复 (2026-02-10 16:52:54 PST) ---

为啥不用本地模型？mac应该可以支持

--- 第 54 楼来自 xxxyyy 的回复 (2026-02-10 16:53:01 PST) ---

windows系统里自带一个，用的NPU跑的本地模型。只要CPU支持就可以直接用了，这两年新的CPU基本都支持
【引用自未知】:
【测评】旅行开会神器 - Copilot+ PC的AI降噪效果堪称完美好物推荐
[image]
[image]
Voice Access里看到了这个功能。第一次用voice access感觉还挺神奇的，可以完全靠说话来控制电脑，应该是给残疾人用的。
Fluid Dictation语音纠正我也试了，还可以，如图，纠正了我的语法。
[image]
不过有个问题是，貌似有点太灵敏了，会把远处说话的人的声音录进去，不过这个可以结合主楼提到的定向麦克风解决。
运行的时候…

--- 第 55 楼来自 xxxyyy 的回复 (2026-02-10 17:02:09 PST) ---

【引用自 hoah】:
办公室的使用场景最大的痛点
不是一直说话导致边上同事有意见吗

--- 第 56 楼来自 Frankkkkk 的回复 (2026-02-10 17:50:37 PST) ---

楼主太强了！我有一个小建议：可以考虑给Download按钮换个颜色，第一眼看上去像是无法点击/下载的感觉：

Screenshot 2026-02-11 at 09.47.181402×452 59 KB

--- 第 57 楼来自 hoah 的回复 (2026-02-11 16:12:23 PST) ---

speech to text是用的本地whisper模型

--- 第 58 楼来自 hoah 的回复 (2026-02-11 16:14:00 PST) ---

感谢feedback。这个是onboarding流程里的下载吧。那一块儿UI我测的比较少改了改了

--- 第 59 楼来自 hoah 的回复 (2026-02-11 16:18:07 PST) ---

我去办公室主要是开会。干活主要在家里。我最多的使用场景是浴缸泡澡时vibe coding

--- 第 60 楼来自 hoah 的回复 (2026-02-12 06:53:04 PST) ---

SUNO搞了一个HoAh theme song

suno.com

HoAh の Genesis

Listen and make your own on Suno.

--- 第 61 楼来自 KanShu 的回复 (2026-02-12 07:26:13 PST) ---

看起来很有意思的一个项目！一个小建议，能不能加一个上传音频文件的功能？工作原因经常需要采访一些人，如果能直接处理录音（而不只是听写），效率能提升很多。

--- 第 62 楼来自 hoah 的回复 (2026-02-12 09:37:31 PST) ---

我其实本来有这个功能。但是引入的依赖会让安装包体积暴增到30MB左右。我给拿掉了。我试试有没有更轻量的。

btw 直接用whisper处理录音对格式有严格要求，所以没法支持任意音频上传。

--- 第 63 楼来自 credit_addiction 的回复 (2026-02-26 05:38:46 PST) ---

真是个好东西啊，所以楼主是纯靠Vibe Programming 搞出这么个东西的吗？真是强大，以后我得好好学学了。 (本条回帖由由楼主开发的HoAh语音生成 )

--- 第 64 楼来自 hoah 的回复 (2026-02-26 12:05:07 PST) ---

纯vibe 不过过程也是比较曲折疯狂vibe框架的时候很快就失控了后面refactor了好几次

--- 第 65 楼来自 credit_addiction 的回复 (2026-02-26 14:12:01 PST) ---

太牛逼了，我想学习学习，对于没有太多基础的人有啥合适的教程吗？

个人有一定的编程基础，但是从来没有设计过任何产品，充其量也就学过数据结构，写点算法题之类的

--- 第 66 楼来自 sam1 的回复 (2026-02-26 20:30:15 PST) ---

楼主牛的！Superwhisper 不算主要竞品吗，公司买单整了一个，还挺爽的

--- 第 67 楼来自 polyhedron 的回复 (2026-02-27 10:54:30 PST) ---

厉害, 刚想在本地部署一个这样的speech to text。 lz考虑移动端吗

--- 第 68 楼来自大沙雕的回复 (2026-02-27 11:03:48 PST) ---

给大家安利一个和楼主的产品类似的开会写总结app: meetily

同样是本地whisper STT，然后用任意指定模型来把text总结成会议记录，如果使用ollama可以做到完全本地运行

--- 第 69 楼来自 hoah 的回复 (2026-03-01 09:04:23 PST) ---

我觉得其实付费的都不算吧这种功能不需要付费

--- 第 70 楼来自 hoah 的回复 (2026-03-01 09:09:43 PST) ---

我一开始是有ollama的体验不好直接砍了

绝大多数设备本地能跑的模型能力相对弱

占用过多本地资源，并且latency反而更高

需要一定配置流程，想做到随时随地开箱即用很难。

--- 第 71 楼来自 discrete123 的回复 (2026-03-01 09:11:35 PST) ---

今天用了 Spokenly 觉得有点牛逼，尤其是还有 agent mode

--- 第 72 楼来自 hoah 的回复 (2026-03-01 10:38:27 PST) ---

【引用自 discrete123】:
Spokenly
确实看起来不错

感觉应该加把劲上线app store的一直懒得没做

不过我个人觉得加太多功能是画蛇添足我不喜欢微信那种巨大的单体app

听写是一个非常适合单独拆分出来的功能

--- 第 73 楼来自 baobao 的回复 (2026-03-01 10:49:41 PST) ---

【引用自 icework】:
目前我在 mac 上用的最好的中英文混用的免费语音输入法，是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了
豆包语音输入法什么时候上线桌面端呀。。或者能从豆包 mac app 里奇技淫巧搞出豆包语音输入法吗

--- 第 74 楼来自 colo7r 的回复 (2026-03-01 18:57:18 PST) ---

openai 对于 oauth 的使用管理没有那么严格，我觉得可以加个对 openai oauth 的支持? 总之很感恩

--- 第 75 楼来自 icework 的回复 (2026-03-01 20:50:33 PST) ---

豆包 mac 里一直有语音输入法的你设置里找到快捷键设置下就能在所有的输入框里用了。现在 mac 上 glm 也出语音输入法了也可以试试

--- 第 76 楼来自大沙雕的回复 (2026-03-01 20:57:22 PST) ---

做个会议总结并不需要非常大的模型，一个8B甚至3B的模型都能做的很好

会议总结最多也就半小时做一次，本地模型总结一次也就20s以内对我来说完全无感

ollama的配置对于程序员来说已经不能更简单了，非程序员在AI指导下应该也能轻松搞定

--- 第 77 楼来自 polyhedron 的回复 (2026-03-02 00:30:08 PST) ---

才发现不支持Ventura

--- 第 78 楼来自 Chao 的回复 (2026-03-02 01:04:54 PST) ---

感谢。跑通了。
用 Fn 键一键切换豆包语音输入（直接替代Typeless）

首先，设定豆包桌面端的语音输入流程是：激活 → 说话 → 回车确认。每次都要按两个不同的快捷键，不太顺手。这里激活的快捷键可以自己设定，我用了Cmd+1。

用 Karabiner-Elements 可以把 Fn 键改成一个状态切换键：

第一次按 Fn → Cmd+1（激活豆包输入）
第二次按 Fn → 发送 Enter（确认输入），注意，这个应该是所有东西都输入完了之后再按。

这样只用一个键就能完成整个语音输入流程，体验接近原生输入法切换。而且这个和typeless就完全match了。
配置方法
1. 安装 Karabiner-Elements
brew install --cask karabiner-elements

安装后首次打开，需要在系统设置中授权辅助功能和输入监控权限。
2. 添加配置文件

将以下内容保存到 ~/.config/karabiner/assets/complex_modifications/doubao-fn-toggle.json：
{
"title": "Doubao Voice Input Toggle",
"rules": [
{
"description": "Fn toggles Doubao: first press = Cmd+1 (activate), second press = Enter (confirm)",
"manipulators": [
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 0
}
],
"to": [
{
"key_code": "1",
"modifiers": ["left_command"]
},
{
"set_variable": {
"name": "doubao_active",
"value": 1
}
}
]
},
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 1
}
],
"to": [
{
"key_code": "return_or_enter"
},
{
"set_variable": {
"name": "doubao_active",
"value": 0
}
}
]
}
]
}
]
}

3. 启用规则

打开 Karabiner-Elements → Complex Modifications → Add Rule → 找到 “Doubao Voice Input Toggle” → 启用。
注意事项

新款 Mac 的 Fn 键同时也是 Globe 键。如果 Karabiner 无法拦截 Fn，需要在系统设置 → 键盘 → “按下 fn

键时"改为"不执行任何操作”，这样 Karabiner 才能接管这个键。
原理

Karabiner 的 complex modifications 支持通过变量（set_variable / variable_if）实现有状态的按键映射。这里用 doubao_active

变量在 0 和 1 之间切换，让同一个 Fn 键在两次按下时分别发送不同的按键。

--- 第 79 楼来自 baobao 的回复 (2026-03-05 12:45:58 PST) ---

【引用自 icework】:
豆包 mac 里一直有语音输入法的你设置里找到快捷键设置下就能在所有的输入框里用了
Screenshot 2026-03-05 at 12.45.47 PM1273×566 33.7 KB

设置在这里。感谢！

--- 第 80 楼来自地瓜土豆的回复 (2026-03-05 14:01:47 PST) ---

没windows吗

--- 第 81 楼来自 hoah 的回复 (2026-03-22 10:59:44 PDT) ---

更新

增加了ollama作为 AI Action选项

支持以下云streaming dictation: elevenlabs, OpenAI, Amazon Transcribe

--- 第 82 楼来自 terryz08 的回复 (2026-03-22 19:06:21 PDT) ---

截屏2026-03-22 22.05.41826×388 12.6 KB

用了几天typeless,其实还挺好用的

中英文混杂识别率还挺高, 方便和cc头脑风暴讨论idea, 就是订阅有点贵

--- 第 83 楼来自 hoah 的回复 (2026-03-23 06:05:54 PDT) ---

那么考虑一下免费的HoAh吗

--- 第 84 楼来自 Hali 的回复 (2026-03-23 06:33:14 PDT) ---

跪求windows 笔记本是windows 家里是mac mini

完美避开使用场景

--- 第 85 楼来自 hoah 的回复 (2026-03-23 07:58:54 PDT) ---

我也想做但是我没有windows设备我晚上研究一下有没有什么办法

--- 第 86 楼来自 snpxdus 的回复 (2026-03-23 08:59:25 PDT) ---

测试了几段中英混杂，加上AI之后比不带AI的MacWhisper好很多，尤其是专业术语方面。不加AI的话和MacWhisper一模一样，感觉之前的钱白花了hhh

一个问题是加上AI的Hoah有时候转录时间过长（用的是推荐的免费Groq）想问一下单纯从速度方面考虑，建议换其他的API供应商吗

--- 第 87 楼来自 hoah 的回复 (2026-03-23 10:51:25 PDT) ---

感谢喜欢! 泥潭精神就是能免费不要付费！

其实Groq和cerebras 就是速度最快的两家别的以及ollama还要慢我周末再看看有没有更合适的模型选择这个任务不需要太多thinking

--- 第 88 楼来自 Static 的回复 (2026-03-23 11:05:03 PDT) ---

试用了一下，好用，推荐！

--- 第 89 楼来自 awash 的回复 (2026-03-23 11:19:40 PDT) ---

蒸蚌！

有没有人和OpenWhisper对比一下？乍一听感觉功能是差不多的

--- 第 90 楼来自 hoah 的回复 (2026-03-23 12:17:32 PDT) ---

一看 Whisper 估计都是基于 whisper 模型但是HoAh完全不付费我不太了解 OpenWhisper 为什么还有订阅？

--- 第 91 楼来自 Hali 的回复 (2026-03-23 12:19:41 PDT) ---

lz用什么microphone，没macbook的话

Mac mini带着AirPods也挺难受的一次几小时

我问了ai说手机和电脑可以一个wifi下可以当speaker microphone什么的但我还没弄明白

直接handoff就行了，然后买个支架手机挂上去摆在电脑前，旧iPhone当microphone用，调用的时候自动亮起

--- 第 92 楼来自 awash 的回复 (2026-03-23 20:48:07 PDT) ---

【引用自 hoah】:
我不太了解 OpenWhisper 为什么还有订阅？
貌似是用他们的远程API的话要，本地跑不用付费

--- 第 93 楼来自 hoah 的回复 (2026-03-23 22:12:39 PDT) ---

哈哈哈日期那个一直没修复我以为没人用

Claude 告诉我 “The root cause is a known macOS SwiftUI rendering bug where the GPU compositor can horizontally flip view layers during desktop/space transitions, especially when implicit .animation() modifiers are involved.”

繁体字没办法各个模型都训进去了大量的繁中

--- 第 94 楼来自 Stubhub 的回复 (2026-03-24 15:02:03 PDT) ---

求windows版本！

--- 第 95 楼来自 attention 的回复 (2026-03-26 17:33:37 PDT) ---

mac上装了好几天了，求手机版本

--- 第 96 楼来自 hoah 的回复 (2026-03-27 10:43:43 PDT) ---

最近发布了几个小版本

HoAh 主要新增了 Ollama 本地模型支持、实时 streaming 流式转写能力（需要配置APIKEY)，以及更完善的 Selection AI Action 选中文本智能处理体验；

streaming：

是实时流式转写。开始录音后，识别结果会一边说一边持续返回，不用等整段结束才出全文，适合会议、口述和低延迟输入。当前这类能力对应 OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming 这类实时转写提供商。

Selection AI Action：

先在任意应用里选中一段文字，然后触发对应快捷键，HoAh 会自动复制当前选区，把文本交给你配置好的 AI Action 处理，比如润色、翻译、改写、问答，最后把结果回贴到原位置。它本质上是“对当前选中文本直接做 AI 处理”，比手动复制粘贴更顺。

--- 第 97 楼来自 hoah 的回复 (2026-03-27 10:44:11 PDT) ---

iOS键盘开发比较困难你能接受只做成一个记事本的状态吗

--- 第 98 楼来自 hoah 的回复 (2026-03-27 10:44:27 PDT) ---

没有windows设备

--- 第 99 楼来自 China.No.1 的回复 (2026-04-04 10:35:47 PDT) ---

感谢楼主推荐，我不需要llm所以用了handy，感觉给agent派活儿效率直接拉爆，主要是prompt可以讲的非常详细了。

--- 第 100 楼来自 aiwandedx 的回复 (2026-04-09 16:20:28 PDT) ---

好用，蛮好的。楼主搞个公司，去拉投资

--- 第 101 楼来自 aiwandedx 的回复 (2026-04-14 06:13:27 PDT) ---

建议楼主加入deepseek APIkey的选择。

--- 第 102 楼来自 Onvon 的回复 (2026-04-18 19:54:54 PDT) ---

好用 lz可以在app里开个打赏 iOS版我觉得可以做成一个custom shortcut 这样可以直接用siri启动简单方便还可以调用灵动岛的录音widget 而且shortcut可以直接粘贴处理好的文本进剪贴板也不会有什么权限的问题

--- 第 103 楼来自 Onvon 的回复 (2026-04-18 20:09:28 PDT) ---

另外windows的朋友可以考虑 light whisper

--- 第 104 楼来自 hoah 的回复 (2026-04-22 17:33:18 PDT) ---

Onvon: 开个打赏求个内推就好

--- 第 105 楼来自 hoah 的回复 (2026-04-22 17:33:40 PDT) ---

有空研究一下 iOS 真的搞得心累

--- 第 106 楼来自 AppleMusic 的回复 (2026-04-22 17:50:03 PDT) ---

话说typeless在ios上面也是url跳转实现的吧这是他们的核心竞争力吗

--- 第 107 楼来自 hoah 的回复 (2026-04-22 17:53:17 PDT) ---

算是的吧我尝试做过他们估计是动态维护了一张巨大的常用app跳转的表所以冷门小众app无法跳转这个直接远超我一人力所能及的范围

--- 第 108 楼来自 China.No.1 的回复 (2026-04-23 12:16:07 PDT) ---

虽然我不用LLM，但是我今天发现handy也有LLM post processing的选项了。

--- 第 109 楼来自 donk666 的回复 (2026-04-30 00:17:26 PDT) ---

https://github.com/EpicenterHQ/epicenter https://github.com/EpicenterHQ/epicenter Open-source, local-first apps. 我之前一直用这个小众宝藏开源版，有llm后处理

--- 第 110 楼来自 volibear 的回复 (2026-04-30 05:56:40 PDT) ---

hoah: LP拉满

--- 第 111 楼来自 letix 的回复 (2026-04-30 20:03:25 PDT) ---

这个做得非常棒啊，感觉LZ花了不少心思，一个观察：现在handy也有post processing，两边同时试了一下用同一个groq的model，hoah感觉transcribing + apply AI action这两步速度还是有点慢，而handy感觉相对较快，一个小小feedback

--- 第 112 楼来自 smallhead 的回复 (2026-05-02 14:58:29 PDT) ---

作者这个产品做得真棒！我本来用闪电说的，发现不如你这个方便。

--- 第 113 楼来自 hoah 的回复 (2026-05-02 15:35:20 PDT) ---

apply AI action 这个完全取决于api provider没办法 transcribing 最近升级换默认模型为千问之后快多了系统资源没问题的时候稳定 < 500ms

--- 第 114 楼来自 hoah 的回复 (2026-05-02 15:35:33 PDT) ---

吼蛙吼蛙

--- 第 115 楼来自 hoah 的回复 (2026-05-02 15:36:14 PDT) ---

吼蛙最新版更新了Local Streaming 不过可以想像比较吃硬件

--- 第 116 楼来自 China.No.1 的回复 (2026-05-02 20:11:25 PDT) ---

666 我回头用我尊贵的m1max 试试

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
Meta又来？ 💬 661
Meta内部大规模裁员与AI成本压力引发连锁反应。
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴
年底将至，赠送潭友 LinkedIn Premium 💬 477
年底赠送 LinkedIn Premium 助求职者与毕业生

← 返回 📈 搬砖