【开源分享】信噪比危机:我写了个开源工具,把视频播客榨成可溯源的信号
开源工具Stream-Reduce实现播客结构化摘要与溯源,助力投资叙事追踪
关键信息
- 项目介绍:作者LeeKuanYew开源了名为
stream-reducer的工具(GitHub: hmumixaM/stream-reducer),旨在解决音视频内容信噪比低、同质化解读泛滥的问题。支持YouTube/Bilibili/播客等多源批量处理,无需GPU,可自建或在线试用。 - 核心功能:
- 应用场景:作者认为该工具对投资判断有独特价值,通过横向对比不同时期同一主题的访谈,观察“叙事随时间的漂移”,从而提前于市场价格变化发现信号 #1。
经验与数据点
- 成本估算:实测一小时播客处理成本仅几分钱,Token消耗可控 #1。
- 模型建议:用户@堕落的猴子推荐尝试Claude Opus 4.6(注:当前实际版本为Opus或Sonnet系列,此处引用楼主原话),认为其保留真知灼见能力强,尽管价格较高 #5。
- 信息筛选策略:
争议或不同意见
- 信息价值判断分歧:
- 摘要形式偏好:部分用户(如@tomandjerry)认为传统长文本总结啰嗦,更适应LLM时代的短平快阅读习惯,但也承认浏览器自带Summarize功能有时也显得冗长 #4。
值得跟进
#p-8381416-tldr-1tl;dr 一个开源软件提供各种视频或者音频节目的内容概括,来快速了解重要的信息,点击下面的链接可以注册自己添加想要概括的内容: https://reducer.xgoose.org/browse https://reducer.xgoose.org/browse /uploads/short-url/3zamYa3BsBGfp29JWNIp9YvSF46.jpeg?dl=1 先把话说在前面: 这是我自己写的一个开源项目,今天来泥潭交个作业、顺便分享一下背后的想法。 代码全在 GitHub,能在线试用,也能自己 self-host,链接我放在文章中间和文末。它不卖钱、没有任何商业目的,纯粹是我自己的痒点驱动出来的东西,发出来一是想听听大家的意见,二是看看有没有同道能一起折腾。 至于为什么要做这么个东西,得从我这两年的一个烦躁说起。 #p-8381416-h-2一、被「喂」出来的烦躁 不知道泥潭各位有没有同感:这两年的节目、视频、推文,情绪浓度肉眼可见地变高了。今天一个财报、一句大佬发言,几个小时内就有几十个博主出来解读,配乐、表情、惊叹号一个不少,但你看完三个,会发现它们说的是同一件事,只是换了张脸、换了个语气。 更要命的是 AI 把这件事 加速 了。复述的成本趋近于零,于是同质内容像 DDoS 一样糊到你脸上。被动刷下去,你以为自己在「了解世界」,其实只是在反复消费当下的热点情绪。 刷久了我有种生理性的烦躁,开始有一种强迫欲:能不能绕开这些二手解读,直接去看 primary source? #p-8381416-primary-source-3二、可惜 primary source 也不省心 真去找一手信息,又会撞上另一个问题。现在的 primary source 很大一部分是长访谈、播客。一期两小时的对谈,信息密度其实低得惊人——大量篇幅是成功学、嘉宾的人生履历、商业互吹、寒暄。 我个人是越来越不在乎「这人是谁、做过什么丰功伟绩」这类背景叙事了。真正有价值的,是他不经意间漏出来的那一两个判断、一个数据、一个还没被反复传播的观点。可这些 signal 经常埋在一小时的废话里,靠人肉一句句听,性价比太低。 #p-8381416-h-4三、工具放大了接触面,也放大了噪音 好处是,现在的工具(yt-dlp、各种 Whisper 转写、LLM、agent)能把我接触信息的触角 expand 到以前够不着的地方。以前一天顶多认真听两期播客,现在理论上能扫几十上百个。 但接触面一大, 信噪比(signal-to-noise) 立刻成了主要矛盾。量上来了,垃圾也上来了。这时候真正稀缺的不是「获取信息的能力」,而是 一套属于自己的筛选标准 :先判断什么是好内容、什么是噪音,再把有限的注意力投到值得精读的那一小撮上。 换句话说,瓶颈从「找得到」变成了「筛得动」。我没找到顺手的现成工具,索性自己写了一个,并把它开源了。 #p-8381416-stream-reduce-5四、正题:我开源的这个项目,stream-reduce https://reducer.xgoose.org https://reducer.xgoose.org https://github.com/hmumixaM/stream-reducer https://github.com/hmumixaM/stream-reducer Public, multi-user media summarizer on Cloudflare (Workers + D1 + Vectorize + R2 + Queues + Containers) 它解决的就是「怎么从一堆音视频里高效筛信号」。一句话介绍: 把视频/播客转成可溯源的结构化摘要,攒进一个能语义搜索、能连成知识图谱的库。 开源、可自建、不需要 GPU。 先把项目信息摆出来,方便直接上手: 在线试用(已开放注册) :https://reducer.xgoose.org 只读公开镜像(免登录随便逛) :https://stream-reduce-mirror.pages.dev 源码 / 自建(GitHub) :https://github.com/hmumixaM/stream-reducer 项目主页 :https://hmumixam.github.io/stream-reduce/ 设计上就一个核心信念: 我不信任那种丢给你一段 AI 概括就拉倒的总结 。总结可以,但每句话都得能跳回原文,让我自己复核。下面挑几个我自己最在意的点说说(截图都在文末 grid)。 多源、可批量。 丢一个 YouTube / Bilibili / Apple Podcasts / 小宇宙的链接进去,甚至整张播放列表、整个播客都能一次吞下。所有人添加过的内容进到一个公共库里,按平台分类,谁都能逛。 可溯源、不偷懒。 处理完给你的不是一句话,而是一份分层的结构化摘要:背景、TL;DR、整体氛围、关键要点。每一条结论都挂着 [HH:MM:SS] 时间戳,点一下直接跳回原片那一秒。右边还老实写着这篇转写覆盖了多少、跑下来花了几分钱、烧了多少 token——我自己实测,一小时的播客也就几分钱。 保留原味。 我特意没让它把内容压成干巴巴几条 bullet,而是按时间顺序写一份详细走读,把具体数字、故事、说话人的语气都留着,读起来还是原来那个味儿,而不是一篇 AI 八股。金句和提到的人/公司/产品也单独拎出来。 知识图谱。 这是我自己最上头的功能:把每段摘要当节点,用 embedding 相似度连边(Obsidian 那味儿,外加 Louvain 社区上色),看到的是不同内容之间真正的内在关联,而不是平台想推给你的表面热点。公开镜像里这张图已经长到 4000 多个节点、2 万多条边,像一张内容星图。 #p-8381416-h-6五、这套东西怎么帮我做投资判断 聊回应用——除了治信息焦虑,我觉得这套筛法对投资也有点用,而且是被低估的那种用法。 被动摄取的最大问题:你看到的永远是 当下的热点 ,是「现在大家在聊什么」。这种信息天然让人 FOMO,跟着情绪追涨杀跌。 但如果你把同一主题的内容 沉淀下来、持续观察它随时间的变化 ,就能看出 historical trends ,这才是对判断有用的东西。举个我自己常干的小例子:把几个月内不同人聊同一个宏观叙事、同一个行业风向的访谈拉出来横向对比—— 几个月前大家还信誓旦旦的某套逻辑,过段时间口径悄悄漂移了; 同一份数据,不同阵营的解释随时间分化了; 某个词从「没人提」到「人人都在提」,本身就是一个信号。 单期访谈里那点 anecdote 价值有限,但 叙事随时间的漂移 往往提前于价格。可溯源 + 可检索 + 能连边,让这种纵向对比第一次变得不那么费劲。 #p-8381416-h-7六、碎碎念 开源出来主要是想交流。这套筛选标准说到底很个人: 对我有用的信号,未必是你的 ;这个工具也远没到完善,bug 肯定有,功能也还在加。如果你觉得哪里设计得蠢、或者有想要的功能,尽管在 GitHub 提 issue,或者直接在楼下开喷,我都收。 也顺便好奇:泥潭里大家平时靠什么筛 primary source?有没有自己判断「好内容」的一套标准?评论区蹲一波,互相抄作业。 照例叠个甲:项目纯属个人开源练手,以上也不构成投资建议。 #p-8381416-h-8附:几张实拍截图 /uploads/short-url/gRrYaONWVmiiQ1Eg1X075v7uTzL.png?dl=1 /uploads/short-url/t9jmmjTUOAoP6KUlAbyFfQmaIR4.png?dl=1 /uploads/short-url/inVWRRKmJ8TcPCcv16TIhwRbauM.png?dl=1 /uploads/short-url/mB9AaiXXug8zrlZXKbfXh859dRj.png?dl=1 /uploads/short-url/x6VXk5u0Qdtza4xjp51Xn1NZS7v.jpeg?dl=1 /uploads/short-url/39o3Q19uF2dWrrXkdiAkeOswaZ1.jpeg?dl=1
tldr, 开源工具:解决视频播客信噪比危机,生成可溯源的结构化摘要 • 作者开发了一个开源工具,旨在解决当前视频和播客内容中信息过载、情绪化解读泛滥的问题。 • 该工具可以将视频和播客内容转化为可溯源的结构化摘要,用户可以点击摘要直接跳转到原文对应的时间点。 • 与简单的AI总结不同,该工具保留了原文的细节、语气和数据,并能生成知识图谱,展示内容间的内在关联。 • 该项目支持多源批量处理,且用户可以自行部署,不依赖GPU,运行成本低廉。 • 作者希望通过此工具帮助用户筛选信息,减少信息焦虑,并探索内容随时间变化的趋势。
啰嗦的软件简介最严厉的父亲来了
我觉得浏览器自带的summarize也很啰嗦,llm时代我看不下去这么长的话了
summary模型我建议试试看Claude系列的,尤其是Opus 4.6(的确贵,但是保留真知灼见的能力是真的强)
为什么不是 4.8
不能多说,trust me bro
LeeKuanYew: 同质内容像 DDoS 一样糊到你脸上 我觉得我大量了解这么多播主之后获得的某种技能点是点开标题之前就知道他要讲啥了,也就不用点开了;或者说能在点开之前就准确的预判某个视频里有没有、有多少自己需要的信息。但是需要筛出什么对不同用户是不同的,一千名观众就有一千种提取信息所需的filter logic,个性化的提取总结也很重要。我自己用AI总结视频时都要加上一段“去掉xx,去掉xx,去掉xx,直接假定读者已经知道xx和xx方向的专业知识”。(正因为99%的视频被这么去掉之后发现啥都没了,逼我train出了提前预判一个博主/一段视频有没有filter后的信息…) LeeKuanYew: 现在的工具(yt-dlp、各种 Whisper 转写、LLM、agent)能把我接触信息的触角 expand 到以前够不着的地方 确实,算力极大丰富之后可以更暴力的吸取整理信息。最近我也干了这种事,接触到一位有信息量有内涵的新博主之后直接把她炼了。一天内把她自己发的所有内容加上别人访谈她的内容几百小时全部asr然后提取成有内涵的信息。然后就可以快速丢掉跟我平行的分量,再去读和吸收正交的分量。 LeeKuanYew: 知识图谱。 这是我自己最上头的功能:把每段摘要当节点,用 embedding 相似度连边(Obsidian 那味儿,外加 Louvain 社区上色),看到的是不同内容之间真正的内在关联,而不是平台想推给你的表面热点。公开镜像里这张图已经长到 4000 多个节点、2 万多条边,像一张内容星图。 LeeKuanYew: 花了几分钱、烧了多少 token 我觉得不用太关注那些处于信息下游的复读机博主,除非是为了你这种投资目的研究“叙事在大众当中的传播”。直接找那些真的有内涵、有原创新信息新知识的来源就行。大部分博主就是为了流量,没活硬整,目的就是吸引观众无意义消遣时间当电子榨菜,在他们身上浪费注意力或者AI算力都不划算,哪怕一分钱的算力我都不想花在上面。分析几万名没活硬整的博主,看上去得到了完整“图谱”,其实也都是知识排泄链/排泄网(请自行脑补meme图),把99%都扔了、只保留源头节点,不会损失信息的。当然,有这张图也是很重要的,有你这些数据之后能更好的分析找出谁是源头节点、谁是信息传播第一跳就会到的聚合节点(值得关注),谁直接归类到机器之心量子位新智元那一类。
Wi-Fi: 但是需要筛出什么对不同用户是不同的,一千名观众就有一千种提取信息所需的filter logic,个性化的提取总结也很重要。我自己用AI总结视频时都要加上一段“去掉xx,去掉xx,去掉xx,直接假定读者已经知道xx和xx方向的专业知识”。(正因为99%的视频被这么去掉之后发现啥都没了,逼我train出了提前预判一个博主/一段视频有没有filter后的信息…) 这个其实是目标,概括不仅仅是获取信息,更应该有目的地阅读,所以就是 文本+user context+目的 三合一的概括,暂时 context 这一步太难获取了,但是如果自己 deploy 还是可以把各种地方的 memory 集成进来,然后优化 prompt。 后续计划是基于笔记和 highlight 做在这个平台的 prompt,然后可以二次过滤。
Wi-Fi: 分析几万名没活硬整的博主,看上去得到了完整“图谱”,其实也都是知识排泄链/排泄网(请自行脑补meme图),把99%都扔了、只保留源头节点,不会损失信息的。 我原本其实对于吃二手是无所谓的,因为原本的计算机技术问题不懂行的人不会乱说,评论反而有自己的价值筛选和强调信息,但是 AI 时代太多乱流,不得不看 primary source。