泥潭日报 uscardforum · 每日精选

【吼蛙】Vibe了一个 Mac 听写转文字LLM后处理的App (新增选中文本一键处理)

内容摘要

Mac 语音转文字 App HoAh 免费本地 Whisper + 可选 LLM 后处理,支持多语言与选中文本一键 AI。

1. 关键信息

  • 项目名称:HoAh(吼蛙)
  • 官网/下载链接:https://hoah.app/(Mac App Store 已签名 notarized)【#1】【#11】
  • 核心功能
  • 本地 Whisper 语音转文字(离线,无网络请求)【#1】【#57】
  • 可选 AI 后处理(润色、翻译、改写等),支持自定义 Prompt【#1】【#7】
  • 多语言混合识别,支持 Hindi、Telugu、Klingon 等【#1】
  • 选中文本“一键处理”功能(复制‑>AI‑>粘贴)【#96】
  • 支持多家云 streaming API(OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming)【#96】
  • 支持 Ollama 本地模型、Groq、Cerebras、Bedrock、Gemini 等后端【#1】【#81】【#86】
  • 新增 Local Streaming 转写(较吃硬件)【#115】
  • 使用场景示例:浴缸 coding、客服回复润色、同事小语种悄悄话翻译、节日母语祝福等【#1】
  • 资源占用:本地 Whisper 大模型(large‑v3)体积大,CPU 运行慢,推荐使用 GPU/Apple Silicon 加速;不启用 AI 时仅是本地软件【#3】【#30】
  • 开源情况:项目原本开源,但因误提交凭证未清理历史,现为闭源发布【#48】
  • 兼容性:不支持 macOS Ventura 以上的部分用户【#77】
  • 其他功能尝试:曾计划上传音频文件、读取当前 App 信息、Ollama 本地模型等,但因体积或权限问题被舍弃【#62】【#70】

2. 羊毛/优惠信息

3. 最新动态

  • 新增 Ollama 本地模型 支持【#81】
  • 引入 实时 streaming 转写能力(需配置 API Key)【#96】
  • 增强 Selection AI Action,实现选中文本即时 AI 处理【#96】
  • 修复 UI 下载按钮颜色问题【#56】【#58】
  • 计划加入 DeepSeek API(社区建议)【#101】
  • 收到用户反馈:与 Handy 对比,HoAh 的 transcribing + apply AI action 两步速度较慢【#111】
  • 作者回应:apply AI action 速度完全取决于 API provider;transcribing 已升级默认模型为千问(Qwen),系统资源正常时稳定 < 500ms【#113】
  • 新增 Local Streaming 转写功能,但较吃硬件【#115】
  • 用户 @smallhead 称赞产品比闪电说更方便【#112】
  • 用户 @China.No.1 表示将用 M1 Max 尝试【#116】

4. 争议或不同意见

  • 部分用户担心 隐私/权限:读取当前 App 信息会触发额外权限请求,被作者认为“可疑”而放弃【#16】
  • 模型体积与性能:本地 Whisper 大模型在 CPU 上慢,部分用户认为不适合实时转写【#30】【#44】
  • 收费 vs 免费:多数用户赞同免费本地方案,认为付费产品(Typeless、Spokenly 等)性价比低【#49】【#71】
  • 跨平台需求:多位用户请求 Windows、iOS、Android 版本,作者表示暂无 Windows 设备,iOS 开发难度大【#85】【#97】
  • API 供应商选择:使用 Groq 时转录延迟较高,用户询问是否换供应商,作者回复 Groq 与 Cerebras 为最快选项【#86】【#87】
  • 速度对比:有用户反馈 HoAh 的 transcribing + apply AI action 两步整体速度慢于 Handy(同一 Groq 模型)【#111】;作者回应已升级默认模型为千问,稳定 < 500ms【#113】

5. 行动建议

  1. 下载并试用:在个人 Mac 上安装 HoAh(已签名),先关闭 AI Action 验证本地 Whisper 性能【#11】【#13】。
  2. 配置后端:根据使用频率选择免费额度较高的 Groq 或 Cerebras;若对延迟敏感,可尝试 OpenAI Realtime 或 ElevenLabs【#86】。
  3. 自定义 Prompt:利用内置 Prompt 编辑器添加常用 abbrev、专业术语或特定语言翻译模板,提高后处理准确度【#7】【#18】。
  4. 权限管理:仅在需要读取当前 App 信息时授予额外权限,避免不必要的安全警报【#16】。
  5. 关注更新:留意作者后续发布的 Ollama 本地模型与 streaming 功能更新,尤其是对 macOS Ventura 的兼容性修复【#81】【#96】。
  6. 社区贡献:若有 Windows/跨平台需求,可在 GitHub 提交需求或自行移植 WhisperX/WhisperX‑Diarization 等开源实现【#27】【#103】。
  7. 速度对比测试:若在意实时性,可同时试用 Handy 对比 HoAh 的转写+AI 速度,结合自身需求选择【#111】;注意 HoAh 已升级默认模型为千问,转写速度有提升【#113】。
  8. 尝试 Local Streaming:若硬件配置较高(Apple Silicon),可体验最新 Local Streaming 转写功能,但注意资源占用【#115】。
  9. M1 Max 用户可优先测试:@China.No.1 已表示将用 M1 Max 尝试,建议同配置用户跟进反馈性能表现【#116】。
原始内容
--- 第 1 楼来自 hoah 的回复 (2026-01-30 17:13:44 PST) ---

链接: 吼蛙 https://hoah.app/

是干什么的:

以下流程一键完成:

第一步本地语音 → 文字。
第二步API call 把文字 → AI 润色 / 后处理。
处理过的文字自动进当前的输入框和剪贴板。本地保存录音和转写的历史记录。

简而言之就是把 ChatGPT / Cursor 的语音输入体验提升,并且带到所有的文字输入框中。

为什么要自己做(vibe) 一个:

很多同类产品需要付费,看广告,或者收集数据。我觉得这个功能不值得付费,我需要一个自备 apikey 的免费,干净的版本。
开源干净的项目,比如著名的 https://handy.computer/ 不能实现 API 后处理这一步。我说话比较磕吧,原始的转录文字很难直接用,需要LLM进行后处理。而且我对语法也不是很注意,需要LLM自动纠正语法。
目前没找到任何项目默认就是多语言混合语音转写。虽然底层都是用whisper的变种,模型能理解多语言混合输入,但是输出往往被统一成单一的语言。上面流行的 handy 就是。
预设了一些 LLM 后处理的 prompts ,也支持你微调和新增自己的 prompts 。比如翻译模式可以让你翻译去到任何语言,比如Hindi, ,Klingon等。我现在Slack 和讲 Hindi 的同事发 Hindi, 和讲 Telugu的发Telugu。
因为彻底的干净,所以也可以安装在工作电脑上。如果不开启AI后处理,就和一个计算器没有区别。针对特定的公司,目前为和家都专门做了bedrock和gemini的支持。

我发现暂时没有人 vibe 一个对非拉丁语族友好,免费,干净,而且还有AI后处理的项目,于是决定vibe 一个。我后面意外的发现翻译功能其实非常实用,有兴趣的可以体验一下。

我自己的观察是,我的朋友们本来就有这个需求的用了就很沉迷,没有这个需求的就不理解为什么要 speech to text.

我的一些使用场景:

一遍泡澡一边嘴炮vibe coding
使用高情商模式嘴炮处理ticket 把骂他们SB变成LP拉满的回复
偷偷翻译讲小语种的同事的悄悄话
新年给同事发ta的母语祝福

其他 Q & A

为什么多此一举搞语音转文字?打字不是更快。

Mac上的语音输入事实上提升了大脑的 output rate。你在切换视图甚至玩手机的时候都不影响你张嘴说进行输出。纯打字的话,你的输出会经常性的被迫中断(比如切换网页)。

为什么需要一个app专心只做这一件事?

因为每个app(比如vscode, cursor, antigravitiy) 都搞一个自己的听写下载一遍模型,我觉得完全不合理。而且很多都不会照顾到非母语者的体验。考虑到 App 的体积,一般也不会给你用满血的 whisper。

API KEY 也要钱啊

因为只做文字后处理,所以token消耗很少。高强度也用不了一两分钱每天。
白嫖一个GROQ或者Cerebras的 API KEY,每个月的免费额度足够日常使用了。

如果有大佬觉得好用,感觉帮助到你解决了一些痛点。我最近在找工,求个内推 。

--- 第 2 楼来自 kokosilly 的回复 (2026-01-30 17:19:16 PST) ---

最近也想vibe个类似的,实时转写mac内声音成字幕,提供大模型优化和翻译;

btw: lz用的是啥工作流?

--- 第 3 楼来自 hoah 的回复 (2026-01-30 17:21:42 PST) ---

语音转文字是本地的 whisper 我尝试搞成 streaming 但是发现这样要么太贵了要么太耗电影响macbook 续航。(主要还是准确率下降了很多

--- 第 4 楼来自 kokosilly 的回复 (2026-01-30 17:29:22 PST) ---

不知道zoom和腾讯会议里的实时转写是怎么做的,我感觉准确率还可以接受,毕竟就是要面对不同口音或者语言实时理解一下用,mac本地的那个实时字幕准确率和他们比差多了

--- 第 5 楼来自 qqwrv 的回复 (2026-01-30 17:32:14 PST) ---
--- 第 6 楼来自 hoah 的回复 (2026-01-30 17:33:08 PST) ---

你懂的

--- 第 7 楼来自 hoah 的回复 (2026-01-30 17:35:39 PST) ---

其实就是你说的,需求不同。你说的这种场景可以用小模型(100多MB) 粗略翻译一下大意即可,不需要追求极致的准确性。这里的需求是,作为输出辅助,准确率必须要高,甚至可以牺牲latency。不然输出需要经常性的手动介入纠错的话,对效率提升就无了。

--- 第 8 楼来自 kokosilly 的回复 (2026-01-30 17:37:17 PST) ---

确实是zszs

--- 第 9 楼来自 hoah 的回复 (2026-01-30 17:37:19 PST) ---

前排自己占个坑预留一下 Demo 的位置。

--- 第 10 楼来自 deepbluenight 的回复 (2026-01-30 17:39:10 PST) ---

【引用自 hoah】:
吼蛙 https://hoah.app/
published to mac appstore ? the github dmg is not signed, right ?

--- 第 11 楼来自 hoah 的回复 (2026-01-30 17:40:17 PST) ---

The dmg is signed and notarized by Apple. I installed it on my work laptop .

--- 第 12 楼来自 up9080 的回复 (2026-01-30 17:41:15 PST) ---

Is there an approval software list in your company ? I can try it in my personal laptop but abs can’t do it in work mac

--- 第 13 楼来自 hoah 的回复 (2026-01-30 17:42:08 PST) ---

So if you don’t enable the AI action, it works just like local software, making no internet request.

--- 第 15 楼来自 皮皮虾 的回复 (2026-01-30 17:43:14 PST) ---

可以给llm提供context么?比如放在一个workdir里让它能知道我在说哪些class name之类的

--- 第 16 楼来自 hoah 的回复 (2026-01-30 17:45:29 PST) ---

我一开始是有类似的功能,比如读取当前app的一些信息(比如直接做一个截图),但是需要向用户申请更多的权限。

原型也跑通了,但是这些行为让这个app看起来非常可疑。我觉得不太值得,就删掉没有继续了。

--- 第 17 楼来自 皮皮虾 的回复 (2026-01-30 17:48:19 PST) ---

make sense,加了不就成了某司 copilot 了

也许可以加一个类似 Skill/init 的模块让 llm 可以读。把是否挂载的控制权留给用户?语音转文字对我来说一大痛点是有很多 abbrev 没办法正确理解

--- 第 18 楼来自 hoah 的回复 (2026-01-30 17:51:04 PST) ---

【引用自 皮皮虾】:
abbrev 没办法正确理解
这个我看到很多流行的做法是加一个用户的自定义字典,然后全部喂给LLM。付费的 whspr flow 好像就是这么做的。我感觉这似乎不是很好的解,用户体验也没有提升太多。

我的办法是遇到abbrev就一个一个拼出来

--- 第 19 楼来自 uscard1024 的回复 (2026-01-30 17:55:28 PST) ---

我之前做了一个类似的玩具 区别是可以跨平台 还有一些其他小众的奇怪feature

请问这个whisper模型是从哪里下载的 hugging face吗

可以允许用户自己加载或者设置目录吗

本地已经下载好几份了 每个App都要下载一份

--- 第 20 楼来自 hoah 的回复 (2026-01-30 17:59:27 PST) ---

只能再下一份了 你这是高玩的需求 绝大多数人应该会卡在api key 这一步

还有印度哥们page我让我教他安装 给我气坏了

--- 第 21 楼来自 agamer 的回复 (2026-01-30 18:05:40 PST) ---

一直也想vibe一个类似的,楼主这个能识别语音文件中的不同的人吗?我之前看到一个魔改的whisper模型可以简单的识别,但是效果不大好我就放弃了。

--- 第 22 楼来自 hoah 的回复 (2026-01-30 18:06:41 PST) ---

不能区分人。但是都能转录出来。我用这个app偷偷翻译我的印度同事们的悄悄话,效果奇佳。下载完整的 whisper large v3 还是有很大意义的。

--- 第 23 楼来自 icework 的回复 (2026-01-30 18:09:40 PST) ---

支持下,目前我在 mac 上用的最好的中英文混用的免费语音输入法,是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了

--- 第 24 楼来自 bbtjoejoe 的回复 (2026-01-30 18:11:02 PST) ---

准备试试谢谢!

--- 第 25 楼来自 hoah 的回复 (2026-01-30 18:12:05 PST) ---

是的 开源的只有whisper对中国体质宝宝比较友好 parakeet 就是为欧美区而生的

--- 第 26 楼来自 uscard1024 的回复 (2026-01-30 18:12:23 PST) ---

Speaker Diarization 需要付费

--- 第 27 楼来自 agamer 的回复 (2026-01-30 18:13:41 PST) ---

哈哈,刚刚看了下这个魔改模型还更新了: GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

识别烙印说悄悄话应该不错的,特别是如果是固定的几个,它可以把他们标成烙印P1,P2,P3

--- 第 28 楼来自 hoah 的回复 (2026-01-30 18:15:17 PST) ---

上来一个 cuda installation 给我干懵了 我只有一个 macbook m4 pro

--- 第 29 楼来自 agamer 的回复 (2026-01-30 18:17:56 PST) ---

他也支持CPU的

--- 第 30 楼来自 hoah 的回复 (2026-01-30 18:34:15 PST) ---

我估计 mac 靠CPU带不动这个

--- 第 31 楼来自 郁小南 的回复 (2026-01-31 22:07:41 PST) ---

我现在在用https://lazytyper.com/ 可以本地模型 也可以API

LZ这个有什么区别?

--- 第 32 楼来自 蚀心酸菜鱼 的回复 (2026-01-31 23:03:23 PST) ---

typeless.com

Typeless | AI Voice Dictation That's Actually Intelligent

Speak naturally, and Typeless will turn your words into polished messages, emails, and documents that read like you carefully typed them.

同类产品挺多的 最近在用typeless,好处是有iOS键盘方便手机用

--- 第 33 楼来自 xuexuekan 的回复 (2026-01-31 23:52:35 PST) ---

不知道楼主这个对轻声说话(不用声带)的识别效果怎么样?在办公室的使用场景。目前看到的对这个场景优化过的似乎有 wispr flow 和 typeless

--- 第 34 楼来自 hahaandhehe 的回复 (2026-02-01 00:03:58 PST) ---

haha, 前几天我也 vibe 了一个 web app. 因为自用,用量低,不怕 api cost.

大厂的模型的确好 (gpt/gemini), 无论大声小声,无论任何语言胡乱mix,效果都很好,自定义,后处理也很方便。

语音的确好,很多时候语音比打字快多了。很多时候 语音能一边想一边输出,但是打字不行。

--- 第 35 楼来自 tty17 的回复 (2026-02-01 00:04:07 PST) ---

考虑开源吗

--- 第 36 楼来自 tty17 的回复 (2026-02-01 00:07:39 PST) ---

【引用自 hoah】:
语音转文字是本地的 whisper 我尝试搞成 streaming
我感觉gpt的语音识别已经特别强了,中英混杂都没问题,当然缺陷是得手动复制出来,没法自动填充,也许可以vibe code一个chrome插件来解决

--- 第 37 楼来自 hahaandhehe 的回复 (2026-02-01 00:09:14 PST) ---

以前网上看过别人分享,他vibe的是说话直接到苹果的粘贴版里。

--- 第 39 楼来自 tty17 的回复 (2026-02-01 00:15:48 PST) ---

是不是和这个开源工具类似呢?epicenter/apps/whispering at main · EpicenterHQ/epicenter · GitHub

--- 第 40 楼来自 hoodl 的回复 (2026-02-01 01:07:56 PST) ---

这个我知道,直接shortcuts就完事了。

--- 第 41 楼来自 LucidAir 的回复 (2026-02-01 01:09:53 PST) ---

我用的是plaude,非常好用,当然价格确实很冤大头,但是好处是随时随地一键开始嘴炮

--- 第 42 楼来自 Puyi 的回复 (2026-02-01 01:11:01 PST) ---

这个要钱吧?

--- 第 43 楼来自 affasfUHNUH124 的回复 (2026-02-01 01:52:11 PST) ---

用cpu跑会很慢

--- 第 44 楼来自 agamer 的回复 (2026-02-01 10:36:58 PST) ---

cpu我没跑过,GPU跑还挺快的,CPU可能跑小一点的模型会好点吧

--- 第 45 楼来自 xuexuekan 的回复 (2026-02-01 10:50:37 PST) ---

这个项目可能是你想要的 https://github.com/herrkaefer/micpipe

--- 第 46 楼来自 wanmson 的回复 (2026-02-01 12:25:58 PST) ---

啥时候上线用显卡的windows版哈哈

--- 第 47 楼来自 hoah 的回复 (2026-02-10 09:21:13 PST) ---

我没有试用这个。我这个是完全不盈利的个人项目,极致干净,在公司也可以安全用。

--- 第 48 楼来自 hoah 的回复 (2026-02-10 09:22:00 PST) ---

本来是开源的 但是我不小心commit 了一些 credentials 然后又懒得去清 git history 就先这么着吧

--- 第 49 楼来自 hoah 的回复 (2026-02-10 09:23:02 PST) ---

typeless和同类型的产品让我注册我就直接删了,你没法在公司电脑用这种产品。以及我觉得这种东西没有付费的必要,你的mac已经很贵了。

--- 第 50 楼来自 hoah 的回复 (2026-02-10 09:25:00 PST) ---

在办公室的使用场景最大的痛点其实是能装在工作电脑上,这俩直接被一票否决了。

--- 第 51 楼来自 索马里二当家 的回复 (2026-02-10 10:17:33 PST) ---

【引用自 hoah】:
polish 模式
这个是什么东西?

--- 第 52 楼来自 miracle 的回复 (2026-02-10 16:37:24 PST) ---

来个windows版本的吧

--- 第 53 楼来自 xxxyyy 的回复 (2026-02-10 16:52:54 PST) ---

为啥不用本地模型?mac应该可以支持

--- 第 54 楼来自 xxxyyy 的回复 (2026-02-10 16:53:01 PST) ---

windows系统里自带一个,用的NPU跑的本地模型。只要CPU支持就可以直接用了,这两年新的CPU基本都支持
【引用自 未知】:
【测评】旅行开会神器 - Copilot+ PC的AI降噪效果堪称完美 好物推荐
[image]
[image]
Voice Access里看到了这个功能。第一次用voice access感觉还挺神奇的,可以完全靠说话来控制电脑,应该是给残疾人用的。
Fluid Dictation语音纠正我也试了,还可以,如图,纠正了我的语法。
[image]
不过有个问题是,貌似有点太灵敏了,会把远处说话的人的声音录进去,不过这个可以结合主楼提到的定向麦克风解决。
运行的时候…

--- 第 55 楼来自 xxxyyy 的回复 (2026-02-10 17:02:09 PST) ---

【引用自 hoah】:
办公室的使用场景最大的痛点
不是一直说话导致边上同事有意见吗

--- 第 56 楼来自 Frankkkkk 的回复 (2026-02-10 17:50:37 PST) ---

楼主太强了!我有一个小建议:可以考虑给Download按钮换个颜色,第一眼看上去像是无法点击/下载的感觉:

Screenshot 2026-02-11 at 09.47.181402×452 59 KB

--- 第 57 楼来自 hoah 的回复 (2026-02-11 16:12:23 PST) ---

speech to text是用的本地whisper模型

--- 第 58 楼来自 hoah 的回复 (2026-02-11 16:14:00 PST) ---

感谢feedback。这个是onboarding流程里的下载吧。那一块儿UI我测的比较少 改了改了

--- 第 59 楼来自 hoah 的回复 (2026-02-11 16:18:07 PST) ---

我去办公室主要是开会。干活主要在家里。我最多的使用场景是浴缸泡澡时vibe coding

--- 第 60 楼来自 hoah 的回复 (2026-02-12 06:53:04 PST) ---

SUNO搞了一个HoAh theme song

suno.com

HoAh の Genesis

Listen and make your own on Suno.

--- 第 61 楼来自 KanShu 的回复 (2026-02-12 07:26:13 PST) ---

看起来很有意思的一个项目!一个小建议,能不能加一个上传音频文件的功能?工作原因经常需要采访一些人,如果能直接处理录音(而不只是听写),效率能提升很多。

--- 第 62 楼来自 hoah 的回复 (2026-02-12 09:37:31 PST) ---

我其实本来有这个功能。但是引入的依赖会让安装包体积暴增到30MB左右。我给拿掉了。我试试有没有更轻量的。

btw 直接用whisper处理录音对格式有严格要求,所以没法支持任意音频上传。

--- 第 63 楼来自 credit_addiction 的回复 (2026-02-26 05:38:46 PST) ---

真是个好东西啊,所以楼主是纯靠Vibe Programming 搞出这么个东西的吗?真是强大,以后我得好好学学了。 (本条回帖由由楼主开发的HoAh语音生成 )

--- 第 64 楼来自 hoah 的回复 (2026-02-26 12:05:07 PST) ---

纯vibe 不过过程也是比较曲折 疯狂vibe框架的时候很快就失控了 后面refactor了好几次

--- 第 65 楼来自 credit_addiction 的回复 (2026-02-26 14:12:01 PST) ---

太牛逼了,我想学习学习,对于没有太多基础的人有啥合适的教程吗?

个人有一定的编程基础,但是从来没有设计过任何产品,充其量也就学过数据结构,写点算法题之类的

--- 第 66 楼来自 sam1 的回复 (2026-02-26 20:30:15 PST) ---

楼主牛的!Superwhisper 不算主要竞品吗,公司买单整了一个,还挺爽的

--- 第 67 楼来自 polyhedron 的回复 (2026-02-27 10:54:30 PST) ---

厉害, 刚想在本地部署一个这样的speech to text。 lz考虑移动端吗

--- 第 68 楼来自 大沙雕 的回复 (2026-02-27 11:03:48 PST) ---

给大家安利一个和楼主的产品类似的开会写总结app: meetily

同样是本地whisper STT, 然后用任意指定模型来把text总结成会议记录,如果使用ollama可以做到完全本地运行

--- 第 69 楼来自 hoah 的回复 (2026-03-01 09:04:23 PST) ---

我觉得其实付费的都不算吧 这种功能不需要付费

--- 第 70 楼来自 hoah 的回复 (2026-03-01 09:09:43 PST) ---

我一开始是有ollama的 体验不好直接砍了

绝大多数设备本地能跑的模型能力相对弱

占用过多本地资源,并且latency反而更高

需要一定配置流程,想做到随时随地开箱即用很难。

--- 第 71 楼来自 discrete123 的回复 (2026-03-01 09:11:35 PST) ---

今天用了 Spokenly 觉得有点牛逼,尤其是还有 agent mode

--- 第 72 楼来自 hoah 的回复 (2026-03-01 10:38:27 PST) ---

【引用自 discrete123】:
Spokenly
确实看起来不错

感觉应该加把劲 上线app store的一直懒得没做

不过我个人觉得加太多功能是画蛇添足 我不喜欢微信那种巨大的单体app

听写是一个非常适合单独拆分出来的功能

--- 第 73 楼来自 baobao 的回复 (2026-03-01 10:49:41 PST) ---

【引用自 icework】:
目前我在 mac 上用的最好的中英文混用的免费语音输入法,是豆包 mac app 自带的。中国的模型对于中英混用的识别比国外模型好多了
豆包语音输入法什么时候上线 桌面端呀。。或者能从豆包 mac app 里 奇技淫巧搞出 豆包语音输入法吗

--- 第 74 楼来自 colo7r 的回复 (2026-03-01 18:57:18 PST) ---

openai 对于 oauth 的使用管理没有那么严格,我觉得可以加个对 openai oauth 的支持? 总之很感恩

--- 第 75 楼来自 icework 的回复 (2026-03-01 20:50:33 PST) ---

豆包 mac 里一直有语音输入法的 你设置里找到快捷键设置下就能在所有的输入框里用了。现在 mac 上 glm 也出语音输入法了 也可以试试

--- 第 76 楼来自 大沙雕 的回复 (2026-03-01 20:57:22 PST) ---

做个会议总结并不需要非常大的模型,一个8B甚至3B的模型都能做的很好

会议总结最多也就半小时做一次,本地模型总结一次也就20s以内对我来说完全无感

ollama的配置对于程序员来说已经不能更简单了,非程序员在AI指导下应该也能轻松搞定

--- 第 77 楼来自 polyhedron 的回复 (2026-03-02 00:30:08 PST) ---

才发现不支持Ventura

--- 第 78 楼来自 Chao 的回复 (2026-03-02 01:04:54 PST) ---

感谢。跑通了。
用 Fn 键一键切换豆包语音输入(直接替代Typeless)

首先,设定豆包桌面端的语音输入流程是:激活 → 说话 → 回车确认。每次都要按两个不同的快捷键,不太顺手。这里激活的快捷键可以自己设定,我用了Cmd+1。

用 Karabiner-Elements 可以把 Fn 键改成一个状态切换键:

第一次按 Fn → Cmd+1(激活豆包输入)
第二次按 Fn → 发送 Enter(确认输入),注意,这个应该是所有东西都输入完了之后再按。

这样只用一个键就能完成整个语音输入流程,体验接近原生输入法切换。而且这个和typeless就完全match了。
配置方法
1. 安装 Karabiner-Elements
brew install --cask karabiner-elements

安装后首次打开,需要在系统设置中授权辅助功能和输入监控权限。
2. 添加配置文件

将以下内容保存到 ~/.config/karabiner/assets/complex_modifications/doubao-fn-toggle.json:
{
"title": "Doubao Voice Input Toggle",
"rules": [
{
"description": "Fn toggles Doubao: first press = Cmd+1 (activate), second press = Enter (confirm)",
"manipulators": [
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 0
}
],
"to": [
{
"key_code": "1",
"modifiers": ["left_command"]
},
{
"set_variable": {
"name": "doubao_active",
"value": 1
}
}
]
},
{
"type": "basic",
"from": {
"key_code": "fn",
"modifiers": { "optional": ["any"] }
},
"conditions": [
{
"type": "variable_if",
"name": "doubao_active",
"value": 1
}
],
"to": [
{
"key_code": "return_or_enter"
},
{
"set_variable": {
"name": "doubao_active",
"value": 0
}
}
]
}
]
}
]
}

3. 启用规则

打开 Karabiner-Elements → Complex Modifications → Add Rule → 找到 “Doubao Voice Input Toggle” → 启用。
注意事项

新款 Mac 的 Fn 键同时也是 Globe 键。如果 Karabiner 无法拦截 Fn,需要在系统设置 → 键盘 → “按下 fn

键时"改为"不执行任何操作”,这样 Karabiner 才能接管这个键。
原理

Karabiner 的 complex modifications 支持通过变量(set_variable / variable_if)实现有状态的按键映射。这里用 doubao_active

变量在 0 和 1 之间切换,让同一个 Fn 键在两次按下时分别发送不同的按键。

--- 第 79 楼来自 baobao 的回复 (2026-03-05 12:45:58 PST) ---

【引用自 icework】:
豆包 mac 里一直有语音输入法的 你设置里找到快捷键设置下就能在所有的输入框里用了
Screenshot 2026-03-05 at 12.45.47 PM1273×566 33.7 KB

设置在这里。感谢!

--- 第 80 楼来自 地瓜土豆 的回复 (2026-03-05 14:01:47 PST) ---

没windows吗

--- 第 81 楼来自 hoah 的回复 (2026-03-22 10:59:44 PDT) ---

更新

增加了ollama作为 AI Action选项

支持以下云streaming dictation: elevenlabs, OpenAI, Amazon Transcribe

--- 第 82 楼来自 terryz08 的回复 (2026-03-22 19:06:21 PDT) ---

截屏2026-03-22 22.05.41826×388 12.6 KB

用了几天typeless,其实还挺好用的

中英文混杂识别率还挺高, 方便和cc头脑风暴讨论idea, 就是订阅有点贵

--- 第 83 楼来自 hoah 的回复 (2026-03-23 06:05:54 PDT) ---

那么考虑一下免费的HoAh吗

--- 第 84 楼来自 Hali 的回复 (2026-03-23 06:33:14 PDT) ---

跪求windows 笔记本是windows 家里是mac mini

完美避开使用场景

--- 第 85 楼来自 hoah 的回复 (2026-03-23 07:58:54 PDT) ---

我也想做 但是我没有windows设备 我晚上研究一下有没有什么办法

--- 第 86 楼来自 snpxdus 的回复 (2026-03-23 08:59:25 PDT) ---

测试了几段中英混杂,加上AI之后比不带AI的MacWhisper好很多,尤其是专业术语方面。不加AI的话和MacWhisper一模一样,感觉之前的钱白花了hhh

一个问题是加上AI的Hoah有时候转录时间过长(用的是推荐的免费Groq)想问一下单纯从速度方面考虑,建议换其他的API供应商吗

--- 第 87 楼来自 hoah 的回复 (2026-03-23 10:51:25 PDT) ---

感谢喜欢! 泥潭精神就是能免费不要付费!

其实Groq和cerebras 就是速度最快的两家 别的以及ollama还要慢 我周末再看看有没有更合适的模型选择 这个任务不需要太多thinking

--- 第 88 楼来自 Static 的回复 (2026-03-23 11:05:03 PDT) ---

试用了一下,好用,推荐!

--- 第 89 楼来自 awash 的回复 (2026-03-23 11:19:40 PDT) ---

蒸蚌!

有没有人和OpenWhisper对比一下?乍一听感觉功能是差不多的

--- 第 90 楼来自 hoah 的回复 (2026-03-23 12:17:32 PDT) ---

一看 Whisper 估计都是基于 whisper 模型 但是HoAh完全不付费 我不太了解 OpenWhisper 为什么还有订阅?

--- 第 91 楼来自 Hali 的回复 (2026-03-23 12:19:41 PDT) ---

lz用什么microphone,没macbook的话

Mac mini带着AirPods也挺难受的一次几小时

我问了ai说手机和电脑可以一个wifi下可以当speaker microphone什么的 但我还没弄明白

直接handoff就行了,然后买个支架 手机挂上去 摆在电脑前,旧iPhone当microphone用,调用的时候自动亮起

--- 第 92 楼来自 awash 的回复 (2026-03-23 20:48:07 PDT) ---

【引用自 hoah】:
我不太了解 OpenWhisper 为什么还有订阅?
貌似是用他们的远程API的话要,本地跑不用付费

--- 第 93 楼来自 hoah 的回复 (2026-03-23 22:12:39 PDT) ---

哈哈哈 日期那个一直没修复 我以为没人用

Claude 告诉我 “The root cause is a known macOS SwiftUI rendering bug where the GPU compositor can horizontally flip view layers during desktop/space transitions, especially when implicit .animation() modifiers are involved.”

繁体字没办法 各个模型都训进去了大量的繁中

--- 第 94 楼来自 Stubhub 的回复 (2026-03-24 15:02:03 PDT) ---

求windows版本!

--- 第 95 楼来自 attention 的回复 (2026-03-26 17:33:37 PDT) ---

mac上装了好几天了,求手机版本

--- 第 96 楼来自 hoah 的回复 (2026-03-27 10:43:43 PDT) ---

最近发布了几个小版本

HoAh 主要新增了 Ollama 本地模型支持、实时 streaming 流式转写能力(需要配置APIKEY),以及更完善的 Selection AI Action 选中文本智能处理体验;

streaming:

是实时流式转写。开始录音后,识别结果会一边说一边持续返回,不用等整段结束才出全文,适合会议、口述和低延迟输入。当前这类能力对应 OpenAI Realtime、ElevenLabs Realtime、Amazon Transcribe Streaming 这类实时转写提供商。

Selection AI Action:

先在任意应用里选中一段文字,然后触发对应快捷键,HoAh 会自动复制当前选区,把文本交给你配置好的 AI Action 处理,比如润色、翻译、改写、问答,最后把结果回贴到原位置。它本质上是“对当前选中文本直接做 AI 处理”,比手动复制粘贴更顺。

--- 第 97 楼来自 hoah 的回复 (2026-03-27 10:44:11 PDT) ---

iOS键盘开发比较困难 你能接受只做成一个记事本的状态吗

--- 第 98 楼来自 hoah 的回复 (2026-03-27 10:44:27 PDT) ---

没有windows设备

--- 第 99 楼来自 China.No.1 的回复 (2026-04-04 10:35:47 PDT) ---

感谢楼主推荐,我不需要llm所以用了handy,感觉给agent派活儿效率直接拉爆,主要是prompt可以讲的非常详细了。

--- 第 100 楼来自 aiwandedx 的回复 (2026-04-09 16:20:28 PDT) ---

好用, 蛮好的。楼主搞个公司, 去拉投资

--- 第 101 楼来自 aiwandedx 的回复 (2026-04-14 06:13:27 PDT) ---

建议楼主加入deepseek APIkey的选择。

--- 第 102 楼来自 Onvon 的回复 (2026-04-18 19:54:54 PDT) ---

好用 lz可以在app里开个打赏 iOS版我觉得可以做成一个custom shortcut 这样可以直接用siri启动 简单方便 还可以调用灵动岛的录音widget 而且shortcut可以直接粘贴处理好的文本 进剪贴板 也不会有什么权限的问题

--- 第 103 楼来自 Onvon 的回复 (2026-04-18 20:09:28 PDT) ---

另外windows的朋友可以考虑 light whisper

--- 第 104 楼来自 hoah 的回复 (2026-04-22 17:33:18 PDT) ---

Onvon: 开个打赏 求个内推就好

--- 第 105 楼来自 hoah 的回复 (2026-04-22 17:33:40 PDT) ---

有空研究一下 iOS 真的搞得心累

--- 第 106 楼来自 AppleMusic 的回复 (2026-04-22 17:50:03 PDT) ---

话说typeless在ios上面也是url跳转实现的吧 这是他们的核心竞争力吗

--- 第 107 楼来自 hoah 的回复 (2026-04-22 17:53:17 PDT) ---

算是的吧 我尝试做过 他们估计是动态维护了一张巨大的常用app跳转的表 所以冷门小众app无法跳转 这个直接远超我一人力所能及的范围

--- 第 108 楼来自 China.No.1 的回复 (2026-04-23 12:16:07 PDT) ---

虽然我不用LLM,但是我今天发现handy也有LLM post processing的选项了。

--- 第 109 楼来自 donk666 的回复 (2026-04-30 00:17:26 PDT) ---

https://github.com/EpicenterHQ/epicenter https://github.com/EpicenterHQ/epicenter Open-source, local-first apps. 我之前一直用这个小众宝藏开源版,有llm后处理

--- 第 110 楼来自 volibear 的回复 (2026-04-30 05:56:40 PDT) ---

hoah: LP拉满

--- 第 111 楼来自 letix 的回复 (2026-04-30 20:03:25 PDT) ---

这个做得非常棒啊,感觉LZ花了不少心思,一个观察:现在handy也有post processing,两边同时试了一下用同一个groq的model,hoah感觉transcribing + apply AI action这两步速度还是有点慢,而handy感觉相对较快,一个小小feedback

--- 第 112 楼来自 smallhead 的回复 (2026-05-02 14:58:29 PDT) ---

作者这个产品做得真棒!我本来用闪电说的,发现不如你这个方便。

--- 第 113 楼来自 hoah 的回复 (2026-05-02 15:35:20 PDT) ---

apply AI action 这个完全取决于api provider没办法 transcribing 最近升级换默认模型为千问之后快多了 系统资源没问题的时候稳定 < 500ms

--- 第 114 楼来自 hoah 的回复 (2026-05-02 15:35:33 PDT) ---

吼蛙吼蛙

--- 第 115 楼来自 hoah 的回复 (2026-05-02 15:36:14 PDT) ---

吼蛙最新版更新了Local Streaming 不过可以想像比较吃硬件

--- 第 116 楼来自 China.No.1 的回复 (2026-05-02 20:11:25 PDT) ---

666 我回头用我尊贵的m1max 试试