泥潭日报 uscardforum · 每日精选

文言文省Token:LLM编码是不是还有很大提升空间

内容摘要

用文言文或高效编码降低LLM Token消耗的探讨。

1. 关键信息

  • 讨论围绕文言文及高效编码能否减少LLM Token消耗,本质是编码效率问题(#8)。
  • 提出多embedding动态路由、隐空间Token接FC解码等技术方案(#1)。
  • 训练数据差异影响performance,中文信息密度高有助于省Token(#2、#12)。
  • Embedding的contrastive alignment至关重要,多链路Emb后需统一空间(#6)。
  • 无关语言本身,可让LLM自行学习映射(#13)。
  • 输出侧使用latent Token在L维度解码的设想(#14)。
  • Adaptive tokenizer方向被提及(#16)。
  • Vocabulary size与Token节省需权衡,极端情况每句话可一Token(#17)。
  • Kolmogorov复杂度指出文言文代价是模糊性(#19)。

2. 羊毛/优惠信息

3. 最新动态

4. 争议或不同意见

  • 文言文是否真省Token存在分歧,歧义可能降低准确率(#1、#17、#18)。
  • 省Token依赖训练数据匹配,中文天然优势(#2、#12)。
  • 有人认为无需语言载体,直接学映射即可(#13)。
  • 对Embedding多链路与contrastive learning效果看法不一(#6)。

5. 行动建议

  • 研究Adaptive tokenizer与contrastive learning结合。
  • 探索隐空间Token与动态路由方案。
  • 验证不同编码在特定任务上的Token效率与准确率权衡。
原始内容
--- 第 1 楼来自 skywing 的回复 (2026-03-29 12:47:40 PDT) ---

如题,xhs刷到一条搞笑向的帖子,说可以拿文言文省token,下面还有人评论说老外专门用中文省token。仔细琢磨了一下,除了文言文会增加歧义降低准确率的情况以外,很多时候模型performance确实一样,这是不是意味着embedding的效率远没有达到最优?

speculative decoding在某种意义上就是做这个的,但解决思路也还是比较生硬。除此以外,拍脑袋一想,有没有可能做多embedding动态路由到其中一个来实现L上的降维?

此外,AR的时候能不能生成隐空间token接一个FC在L维度上解码?

对voc和embedding没怎么专门研究,抛砖引玉,请研究这个的朋友们指点一下)

--- 第 2 楼来自 rongday 的回复 (2026-03-29 12:51:40 PDT) ---

我觉得是不是跟训练数据差距越大 performance也会越差啊

你想要有节约token的表达方式 也得有这种训练数据..?

--- 第 3 楼来自 tomandjerry 的回复 (2026-03-29 12:52:07 PDT) ---

看看 deepseek 那个把信息写入图片省 context

--- 第 4 楼来自 skywing 的回复 (2026-03-29 12:53:03 PDT) ---

训练数据小问题吧,多语言任务也不是每种语言都获取等量数据训出来的

--- 第 5 楼来自 258 的回复 (2026-03-29 12:53:25 PDT) ---

现代中文把助词去了也一样 token!=字词数量

--- 第 6 楼来自 voe 的回复 (2026-03-29 12:53:50 PDT) ---

Embedding 最重要的是contrastive alignment 多链路emb后contrastive learning的结果就是把各个链路摊缩到一个空间上去了 感觉这个idea不太行

--- 第 7 楼来自 浅吟低唱 的回复 (2026-03-29 12:53:56 PDT) ---

【引用自 skywing】:
文言文
在训练素材里尤其是和coding有关的有多少

--- 第 8 楼来自 skywing 的回复 (2026-03-29 12:53:57 PDT) ---

本质上和语言已经没关系了,往下深究是编码效率的问题

--- 第 9 楼来自 Wechat 的回复 (2026-03-29 12:54:07 PDT) ---

你老板2小时的发言稿,换我2分钟给你讲完。

提升空间在人,不在编码

--- 第 10 楼来自 258 的回复 (2026-03-29 12:54:29 PDT) ---

【引用自 258】:
胡渊鸣 | 我给 10 个 Claude Code 打工
有没有可能自然语言也不是agent最好的沟通方式 最后为了性能会变成一堆难以解释的token 从语言学角度也不是不可能
已经有很多人在做了吧

但是本来ai是服务人的 之后人只能看得明白首尾两端 中间都是锟斤拷是很可怕的

--- 第 11 楼来自 awaken01641 的回复 (2026-03-29 12:54:30 PDT) ---

【引用自 skywing】:
文言文会增加歧义
应该没有吧?

--- 第 12 楼来自 rongday 的回复 (2026-03-29 12:54:43 PDT) ---

对呀 我的意思是 中文节约token那是因为有中文这种自然存在的信息密度高的语言 虽然训练数据相对少 但是多少也是有的

如果想要进一步节约token 那得发明一个信息密度更高的语言..?

--- 第 13 楼来自 skywing 的回复 (2026-03-29 12:55:24 PDT) ---

不需要吧,语言只是表征载体,或许可以直接让LLM自己学一个映射

--- 第 14 楼来自 skywing 的回复 (2026-03-29 12:56:23 PDT) ---

那如果在输出侧用latent token在L方向上解码呢?

--- 第 15 楼来自 咸鱼orz 的回复 (2026-03-29 12:59:13 PDT) ---

快进到文言文统治llm届

就像游戏速通大部分都用中文

--- 第 16 楼来自 AlveROsT 的回复 (2026-03-29 13:08:46 PDT) ---

前几天还截图跟朋友吹水来着。

IMG_07771290×2796 244 KB

感觉像是研究某种 adaptive tokenizer 之类的感觉。

--- 第 17 楼来自 cfevhbptwh 的回复 (2026-03-29 14:21:06 PDT) ---

文言文不一定省token的,字少不等于token少,而且省token这个描述更多是从使用者角度来说,模型层面还要考虑vocabulary size,极端情况如果有无穷vocabulary那每句话都能用一个token表述

--- 第 18 楼来自 skywing 的回复 (2026-03-29 20:32:45 PDT) ---

是这样的,但是整体来说肯定还是省很多的,甚至如果考虑训练语料进一步扩充的话。其实这个话题不限于文言文,本质上是不同编码方式的效率

--- 第 19 楼来自 Alila 的回复 (2026-03-30 08:10:34 PDT) ---

本质上是Kolmogorov复杂度问题,文言文省token的代价是模糊性强,以及很多词无法表示

--- 第 20 楼来自 Yen-Hsiang 的回复 (2026-03-30 08:36:35 PDT) ---

https://thetokencompany.com/