OpenClaw 么看图听音?白嫖多模态 (Vision/Audio) API 路子
OpenClaw 集成本地语音实现“能听能说”,并引发大模型隐私安全热议。
1. 关键信息
- 语音方案实测:用户 @catkinkk 在 OpenClaw 中通过
faster-whisper实现语音输入,输出端对比后认为 Edge TTS (Xiaoxiao) 效果最自然,优于 Piper 和 XTTS v2。 - 硬件门槛:Whisper 大模型(约 10GB 内存)推荐在 Mac M 系列芯片上运行,利用 Unified Memory(统一内存)优势;旧笔记本性能匮乏。
- 隐私警示:严禁上传 SSN、密码等敏感截图。Reply 中讨论了数据被用于模型训练或遭遇 Leak 的风险。
2. 羊毛/优惠信息
- Google AI Pro:网页版学生身份可白嫖一年。
- OpenRouter:Xiaomi 新模型限时免费(截止周三)。
- ChatGPT Team:存在 $0~$1 拼位开通的“败家”路子。
- 多模态资源:利用 Google Cloud $300 试用金、SiliconFlow 赠金获取 Vision/Audio API。
3. 最新动态
- 硬核库推荐:@LiquidSnake 汇总了包含 Groq(极速吐字)在内的 LLM API 白嫖路子,适配 OpenClaw。
- TG 集成:用户成功在 Telegram 端通过 OpenClaw 实现语音交互。
4. 争议或不同意见
- 安全性怀疑:用户对低价 API 代理池及国产模型的隐私保护持怀疑态度;有用户(@jnnksn)对误传个性化敏感信息表示担忧。
- 性价比博弈:部分用户(@BryanZhao)认为比起折腾白嫖路子,直接订阅 Codex 会员更省心省力。
- 风险意识:@茶颜悦色 吐槽坛内利用 AI 自动化处理 Bank 转账的行为存在极高安全风险。
5. 行动建议
- 语音配置:建议在 OpenClaw 中组合使用
faster-whisper和Edge TTS提升交互体验。 - 隐私红线:绝不向在线 AI 发送包含 SSN、密码或银行信息的截图。
- 硬件选择:如需本地流畅运行多模态,优先考虑高内存 Mac Mini。
- 白嫖优先:学生党优先激活 Google AI Studio 一年期权限。
隔壁 @LiquidSnake 大佬写了一篇非常硬核的 API 汇总:一些白嫖获取LLM API的路子, 可用于OpenClaw, 帖子里提到的Groq吐字极快等各种白嫖路子非常实用。
在实际折腾OpenClaw的时候,经常会也想玩玩图片视频等,这必须得上多模态(Multimodal - Image/Audio/Video)API 了。
多模态极其烧算力,所以能大方让你零撸的厂家不多。作为原帖的补充,我重新核查了目前市面上真正能看图 / 听音 / 读视频 的硬核渠道,主打一个挂壁白嫖。
1. Google Cloud Vertex AI ($300 试用金大羊毛) 原贴提到了Google AI Pro自带的 $10 credit。还有Google Cloud (GCP)注册直接送 $300 的Free Trial Credit(有效期 90 天)。
这笔钱可以直接在Vertex AI里调用满血版的 gemini-2.5-pro 和 gemini-2.5-flash。Gemini的多模态是原生底层的,不仅能吃高分辨率图片,你甚至可以直接扔长音频和旅游视频进去分析,识别能力很强的。这 $300刀对于个人玩玩,三个月内根本用不完。用完了怎么办?你知道的
2. Google AI Studio(纯免费层) ,直接去 aistudio.google.com 拿纯免费的开发者 API。
白嫖力度:
Gemini 2.5 Pro ≈ 100 次/天
Gemini 2.5 Flash ≈ 250 次/天
Flash-Lite 可达更高(~1000 次/天)
进去直接生成Key,信用卡不用绑。日常传几张截图让Agent 解析,这个额度跟无限火力没区别。
**3. SiliconFlow(硅基流动) - 国内开发者圈子现在很火的是硅基流动。它托管了大量开源的多模态模型(比如 Qwen-VL-72B 等)。
优势:对付中文图片,国产模型的图文理解貌似不错的。
白嫖力度:新注册直接送14元人民币左右的配额(按视觉token够跑非常久了),而且平台上有部分小参数Vision模型是永久免费无限调用的。
4. Mistral La Plateforme (欧洲大善人) Mistral也有非常慷慨的免费测试层(Experiment plan),极其适合拿来跑他们的开源多模态模型 pixtral-12b。
优势:Pixtral这个模型对图文交织的上下文理解得特别好,适合让Agent分析带有大量图表和排版的文档截图。
白嫖力度:虽然限制了并发速率,但每个月给了惊人的10亿tokens 额度,主打一个管够。注册需要验证手机号(手里的接码卡或者挂壁套餐可以派上用场了)。
5. Hugging Face Inference API(极客开源超市) Hugging Face的Serverless接口(现在整合叫 Inference Providers)是一个容易被忽视的羊毛,里面躺着成千上万个开源模型。
优势:如果你只是单纯想让Agent提取一下截图里的文字或者框选特定的物体,不需要长篇大论的对话,HF上有大量体积小但专精OCR或检测的模型(比如微软的 Florence-2 系列),又快又准。
白嫖力度:免费注册账号就能白嫖。虽然官方对免费账号有严格的Rate Limit(每小时几百次请求),且高峰期可能需要排队,但对于个人测试和轻量自动化来说完全白给。去个人设置里弄个 hf_ 开头的Token就能在OpenClaw里走自定义接入了。
最后的避坑与防反撸提示 玩多模态最忌讳的一点:千万别把敏感截图乱传给不知名的低价 API 代理池。
大家还有啥好用的野路子,欢迎补充!
【引用自 catkinkk】:
千万别把敏感截图乱传给不知名的低价 API 代理池。
传给一楼这五个问题大吗
OpenClaw自带多模态呀。我用的是codex的反正可以看图的。
读视频可以用whisper本地部署抓出来字幕
蚌埠住了,最近一个月泥潭的AI羊毛版茁壮成长起来了
哪天出个白嫖Claude Pro 20刀会员 我直接报告管理员升钛金
直接开codex会员应该是性价比最高的了吧
【引用自 xxxyyy】:
whisper本地部
你的whisper是的mac mini上跑吧,需要的资源多吗? 我没mac mini,废物利用了一个老笔记本
【引用自 xxxyyy】:
codex的反正可以看图的
OpenClaw是自带多模态,免费的chatgpt给的貌似限制比较多。
当然如果愿意每个月花点时间的话这个很划算
【引用自 未知】:
[half dead] 0 or 1美金5人头的ChatGPT Team 败家
Update: 新用户有机会0元开通,没有的直接开个新账号
Update2: 更新新用户0元开通的流程以及截图
Update3: 更新开通链接
Update4: 可以使用CPA通过codex的额度把pro转成API使用
Update5: 提前取消会直接被cancel trial
old
薅完记得取消订阅 不能提早取消 确定提前取消会直接整个trial cancel
提前取消会被…
只能说信息被盗用的可能性不大 但是不排除会拿你的data去训练模型
很敏感的个人信息(比如密码, SSN这些)一般最好不要传给在线的大模型
主要是他们可能会长期储存你的prompt 信息泄露的风险不为0
到星期三为止openrouter上面Xiaomi的新模型都是免费的
手一抖传上去了是不是没办法了,改名能改ssn吗
【引用自 xjx】:
Xiaomi的新模型
是不是隐私问题更大
这有啥隐私问题。。。只是限时免费活动
没用过国产的
不是吧大哥你对SSN也是这么草率的吗?随手?
【引用自 catkinkk】:
你的whisper是的mac mini上跑吧,需要的资源多吗? 我没mac mini,废物利用了一个老笔记本
最大的模型也就10GB内存,够跑。老笔记本不行。必须是mac的M系列芯片,因为是一致内存可以当显存用
问下家人们,一般文字生成图片也是用google的$300白嫖nano banana?看到xhs很多人生成流程图、架构图,不知道用的是啥
网页上用nano banana直接白嫖一年学生google ai pro就行
lz的教程是针对ai agent的
来跟新一下实操让openclaw能听能说,比想象更简单,上面的都还没用上
接了telegram以后,我就在tg里面操作了。
能听:本地 faster-whisper + ffmpeg
跟它说安装上面的东西用来处理语音输入。 过了一会儿就回复说好了,测试中英文都没问题。
能说:最后选了了Edge TTS甜妹
现在开始我都用语言输入了,问它需要什么才能用语言回复。
给了3个方案,本地Piper,Edge TTS和XTTS v2。逐个测试
Piper还是明显不太流畅,在不该停顿的地方停顿。现在我知道有些YouTube的语言为什么那么烂了,估计就是这个生成的。
Edge TTS很好也快,有不少声音选择,我选了Xiaoxiao声音挺甜的。好像也没什么延迟。
XTTS v2比较大,安装也慢,好处是可以自己给它几秒语言来training,但是我感觉效果不太好,而且也慢。我的机器应该也不太差 Intel Core i7-7700HQ,16GB DDR4,256GB SSD。 要是能用这个training个林志玲类似的也不错
能薅到个便宜的mac mini就好了,temu都不给我高返现
坛里还有帖子用龙虾来自动处理跟银行转钱有关的操作,都是不怕死的人