文言文省Token:LLM编码是不是还有很大提升空间
用文言文或高效编码降低LLM Token消耗的探讨。
1. 关键信息
- 讨论围绕文言文及高效编码能否减少LLM Token消耗,本质是编码效率问题(#8)。
- 提出多embedding动态路由、隐空间Token接FC解码等技术方案(#1)。
- 训练数据差异影响performance,中文信息密度高有助于省Token(#2、#12)。
- Embedding的contrastive alignment至关重要,多链路Emb后需统一空间(#6)。
- 无关语言本身,可让LLM自行学习映射(#13)。
- 输出侧使用latent Token在L维度解码的设想(#14)。
- Adaptive tokenizer方向被提及(#16)。
- Vocabulary size与Token节省需权衡,极端情况每句话可一Token(#17)。
- Kolmogorov复杂度指出文言文代价是模糊性(#19)。
2. 羊毛/优惠信息
无
3. 最新动态
无
4. 争议或不同意见
- 文言文是否真省Token存在分歧,歧义可能降低准确率(#1、#17、#18)。
- 省Token依赖训练数据匹配,中文天然优势(#2、#12)。
- 有人认为无需语言载体,直接学映射即可(#13)。
- 对Embedding多链路与contrastive learning效果看法不一(#6)。
5. 行动建议
- 研究Adaptive tokenizer与contrastive learning结合。
- 探索隐空间Token与动态路由方案。
- 验证不同编码在特定任务上的Token效率与准确率权衡。
如题,xhs刷到一条搞笑向的帖子,说可以拿文言文省token,下面还有人评论说老外专门用中文省token。仔细琢磨了一下,除了文言文会增加歧义降低准确率的情况以外,很多时候模型performance确实一样,这是不是意味着embedding的效率远没有达到最优?
speculative decoding在某种意义上就是做这个的,但解决思路也还是比较生硬。除此以外,拍脑袋一想,有没有可能做多embedding动态路由到其中一个来实现L上的降维?
此外,AR的时候能不能生成隐空间token接一个FC在L维度上解码?
对voc和embedding没怎么专门研究,抛砖引玉,请研究这个的朋友们指点一下)
我觉得是不是跟训练数据差距越大 performance也会越差啊
你想要有节约token的表达方式 也得有这种训练数据..?
看看 deepseek 那个把信息写入图片省 context
训练数据小问题吧,多语言任务也不是每种语言都获取等量数据训出来的
现代中文把助词去了也一样 token!=字词数量
Embedding 最重要的是contrastive alignment 多链路emb后contrastive learning的结果就是把各个链路摊缩到一个空间上去了 感觉这个idea不太行
【引用自 skywing】:
文言文
在训练素材里尤其是和coding有关的有多少
本质上和语言已经没关系了,往下深究是编码效率的问题
你老板2小时的发言稿,换我2分钟给你讲完。
提升空间在人,不在编码
【引用自 258】:
胡渊鸣 | 我给 10 个 Claude Code 打工
有没有可能自然语言也不是agent最好的沟通方式 最后为了性能会变成一堆难以解释的token 从语言学角度也不是不可能
已经有很多人在做了吧
但是本来ai是服务人的 之后人只能看得明白首尾两端 中间都是锟斤拷是很可怕的
【引用自 skywing】:
文言文会增加歧义
应该没有吧?
对呀 我的意思是 中文节约token那是因为有中文这种自然存在的信息密度高的语言 虽然训练数据相对少 但是多少也是有的
如果想要进一步节约token 那得发明一个信息密度更高的语言..?
不需要吧,语言只是表征载体,或许可以直接让LLM自己学一个映射
那如果在输出侧用latent token在L方向上解码呢?
快进到文言文统治llm届
就像游戏速通大部分都用中文
前几天还截图跟朋友吹水来着。
IMG_07771290×2796 244 KB
感觉像是研究某种 adaptive tokenizer 之类的感觉。
文言文不一定省token的,字少不等于token少,而且省token这个描述更多是从使用者角度来说,模型层面还要考虑vocabulary size,极端情况如果有无穷vocabulary那每句话都能用一个token表述
是这样的,但是整体来说肯定还是省很多的,甚至如果考虑训练语料进一步扩充的话。其实这个话题不限于文言文,本质上是不同编码方式的效率
本质上是Kolmogorov复杂度问题,文言文省token的代价是模糊性强,以及很多词无法表示
https://thetokencompany.com/