文言文省Token:LLM编码是不是还有很大提升空间

📈 搬砖作者 skywing 2026-03-29 12:47 PST 原帖 #494921 ↗

内容摘要

用文言文或高效编码降低LLM Token消耗的探讨。

1. 关键信息

讨论围绕文言文及高效编码能否减少LLM Token消耗，本质是编码效率问题（#8）。
提出多embedding动态路由、隐空间Token接FC解码等技术方案（#1）。
训练数据差异影响performance，中文信息密度高有助于省Token（#2、#12）。
Embedding的contrastive alignment至关重要，多链路Emb后需统一空间（#6）。
无关语言本身，可让LLM自行学习映射（#13）。
输出侧使用latent Token在L维度解码的设想（#14）。
Adaptive tokenizer方向被提及（#16）。
Vocabulary size与Token节省需权衡，极端情况每句话可一Token（#17）。
Kolmogorov复杂度指出文言文代价是模糊性（#19）。

2. 羊毛/优惠信息

无

3. 最新动态

无

4. 争议或不同意见

文言文是否真省Token存在分歧，歧义可能降低准确率（#1、#17、#18）。
省Token依赖训练数据匹配，中文天然优势（#2、#12）。
有人认为无需语言载体，直接学映射即可（#13）。
对Embedding多链路与contrastive learning效果看法不一（#6）。

5. 行动建议

研究Adaptive tokenizer与contrastive learning结合。
探索隐空间Token与动态路由方案。
验证不同编码在特定任务上的Token效率与准确率权衡。

原始内容

--- 第 1 楼来自 skywing 的回复 (2026-03-29 12:47:40 PDT) ---

如题，xhs刷到一条搞笑向的帖子，说可以拿文言文省token，下面还有人评论说老外专门用中文省token。仔细琢磨了一下，除了文言文会增加歧义降低准确率的情况以外，很多时候模型performance确实一样，这是不是意味着embedding的效率远没有达到最优?

speculative decoding在某种意义上就是做这个的，但解决思路也还是比较生硬。除此以外，拍脑袋一想，有没有可能做多embedding动态路由到其中一个来实现L上的降维?

此外，AR的时候能不能生成隐空间token接一个FC在L维度上解码?

对voc和embedding没怎么专门研究，抛砖引玉，请研究这个的朋友们指点一下)

--- 第 2 楼来自 rongday 的回复 (2026-03-29 12:51:40 PDT) ---

我觉得是不是跟训练数据差距越大 performance也会越差啊

你想要有节约token的表达方式也得有这种训练数据..？

--- 第 3 楼来自 tomandjerry 的回复 (2026-03-29 12:52:07 PDT) ---

看看 deepseek 那个把信息写入图片省 context

--- 第 4 楼来自 skywing 的回复 (2026-03-29 12:53:03 PDT) ---

训练数据小问题吧，多语言任务也不是每种语言都获取等量数据训出来的

--- 第 5 楼来自 258 的回复 (2026-03-29 12:53:25 PDT) ---

现代中文把助词去了也一样 token!=字词数量

--- 第 6 楼来自 voe 的回复 (2026-03-29 12:53:50 PDT) ---

Embedding 最重要的是contrastive alignment 多链路emb后contrastive learning的结果就是把各个链路摊缩到一个空间上去了感觉这个idea不太行

--- 第 7 楼来自浅吟低唱的回复 (2026-03-29 12:53:56 PDT) ---

【引用自 skywing】:
文言文
在训练素材里尤其是和coding有关的有多少

--- 第 8 楼来自 skywing 的回复 (2026-03-29 12:53:57 PDT) ---

本质上和语言已经没关系了，往下深究是编码效率的问题

--- 第 9 楼来自 Wechat 的回复 (2026-03-29 12:54:07 PDT) ---

你老板2小时的发言稿，换我2分钟给你讲完。

提升空间在人，不在编码

--- 第 10 楼来自 258 的回复 (2026-03-29 12:54:29 PDT) ---

【引用自 258】:
胡渊鸣 | 我给 10 个 Claude Code 打工
有没有可能自然语言也不是agent最好的沟通方式最后为了性能会变成一堆难以解释的token 从语言学角度也不是不可能
已经有很多人在做了吧

但是本来ai是服务人的之后人只能看得明白首尾两端中间都是锟斤拷是很可怕的

--- 第 11 楼来自 awaken01641 的回复 (2026-03-29 12:54:30 PDT) ---

【引用自 skywing】:
文言文会增加歧义
应该没有吧？

--- 第 12 楼来自 rongday 的回复 (2026-03-29 12:54:43 PDT) ---

对呀我的意思是中文节约token那是因为有中文这种自然存在的信息密度高的语言虽然训练数据相对少但是多少也是有的

如果想要进一步节约token 那得发明一个信息密度更高的语言..？

--- 第 13 楼来自 skywing 的回复 (2026-03-29 12:55:24 PDT) ---

不需要吧，语言只是表征载体，或许可以直接让LLM自己学一个映射

--- 第 14 楼来自 skywing 的回复 (2026-03-29 12:56:23 PDT) ---

那如果在输出侧用latent token在L方向上解码呢?

--- 第 15 楼来自咸鱼orz 的回复 (2026-03-29 12:59:13 PDT) ---

快进到文言文统治llm届

就像游戏速通大部分都用中文

--- 第 16 楼来自 AlveROsT 的回复 (2026-03-29 13:08:46 PDT) ---

前几天还截图跟朋友吹水来着。

IMG_07771290×2796 244 KB

感觉像是研究某种 adaptive tokenizer 之类的感觉。

--- 第 17 楼来自 cfevhbptwh 的回复 (2026-03-29 14:21:06 PDT) ---

文言文不一定省token的，字少不等于token少，而且省token这个描述更多是从使用者角度来说，模型层面还要考虑vocabulary size，极端情况如果有无穷vocabulary那每句话都能用一个token表述

--- 第 18 楼来自 skywing 的回复 (2026-03-29 20:32:45 PDT) ---

是这样的，但是整体来说肯定还是省很多的，甚至如果考虑训练语料进一步扩充的话。其实这个话题不限于文言文，本质上是不同编码方式的效率

--- 第 19 楼来自 Alila 的回复 (2026-03-30 08:10:34 PDT) ---

本质上是Kolmogorov复杂度问题，文言文省token的代价是模糊性强，以及很多词无法表示

--- 第 20 楼来自 Yen-Hsiang 的回复 (2026-03-30 08:36:35 PDT) ---

https://thetokencompany.com/

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
Meta又来？ 💬 661
Meta内部大规模裁员与AI成本压力引发连锁反应。
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴
年底将至，赠送潭友 LinkedIn Premium 💬 477
年底赠送 LinkedIn Premium 助求职者与毕业生

← 返回 📈 搬砖