泥潭日报 uscardforum · 每日精选

在LLM里模拟计算机

内容摘要

在LLM中模拟计算机,并延伸至AI在游戏中的应用

1. 关键信息

  • (之前已归纳)研究项目Percepta成功在大语言模型(LLM)的Transformer架构内模拟出一台功能完整的计算机,能够执行任意C语言程序,并利用2D注意力机制实现指数级加速。
  • (之前已归纳)该项目作者Christos Tzamos具有理论计算机科学背景,曾研究高效算法。
  • (之前已归纳)讨论中引申出对AI(Agent)在复杂游戏(如Minecraft)中进行自动化操作的兴趣,例如砍树、盖房子、击败Boss等。
  • (之前已归纳)有用户分享了在戴森球(Dyson Sphere)游戏中利用类MC红石电路实现神经网络进行数字识别的案例。
  • (之前已归纳)有用户提出未来可以尝试在LLM中模拟GPU以训练LLM。
  • 新用户Ansel对LLM模拟计算机的实现方式表示困惑,认为程序执行过程(trace)只能append,像一个无法修改的notebook,这会受限于注意力窗口(context window)的长度,并且缺乏可变内存会影响计算效率。
  • Ansel质疑为何不直接调用工具,而是选择模拟随机访问,并认为这种一步步append中间状态的逻辑似乎与时间因果直觉相悖,为何不能直接从输入跳到最终结果。

2. 羊毛/优惠信息

3. 最新动态

4. 争议或不同意见

  • 新用户Ansel对LLM模拟计算机的实现机制提出了质疑,认为其效率和直觉逻辑存在问题。

5. 行动建议

  • (之前已归纳)关注Percepta项目在LLM模拟计算方面的进展。
  • (之前已归纳)探索AI Agent在游戏中的应用潜力,特别是自动化和复杂任务执行。
  • (之前已归纳)参考B站用户在《戴森球》游戏中实现神经网络的案例。
  • (之前已归纳)思考未来AI硬件模拟(如GPU模拟)在LLM训练中的可能性。
  • 进一步研究LLM模拟计算机的内部机制,特别是其对注意力窗口和内存的依赖性,以及如何解决效率和直觉上的挑战。
原始内容
--- 第 1 楼来自 Chao 的回复 (2026-03-13 19:45:05 PDT) ---

对的,和在minecraft里弄个CPU的人差不多。

Percepta – 11 Mar 26

Can LLMs Be Computers? | Percepta

We build a computer inside a transformer — executing arbitrary C programs for millions of steps with exponentially faster inference via 2D attention heads.

把一个计算机塞进了大模型里,速度还可以。读着读着我就在想这作者肯定有理论计算机背景吧。

看了下名字,Christos Tzamos,果然是熟人,以前做了不少knapsack的高效算法。

--- 第 2 楼来自 Hali 的回复 (2026-03-13 19:48:40 PDT) ---

看不懂,问了一下

这篇文章介绍的是一个名为 Percepta 的研究项目,其核心思想是:在大语言模型(LLM)的内部“模拟”出一台功能完整的计算机。

简单来说,这不仅仅是让 AI 写代码,而是将 LLM 本身变成一个能够运行任意 C 语言程序的“硬件/操作系统层”。

以下是该项目的核心要点解释:
1. 核心概念:在 Transformer 里造计算机

通常我们用 LLM 是为了对话或生成文本。但 Percepta 的作者认为,Transformer 架构(LLM 的底层架构)本质上具有极强的计算能力。

模拟 CPU: 他们通过特殊的架构设计,让 LLM 内部的“注意力机制(Attention)”模拟计算机的逻辑门、寄存器和内存操作。

执行 C 程序: 它可以直接运行复杂的 C 语言程序,并且能运行数百万个步骤。

2. 技术突破:2D 注意力机制(2D Attention Heads)

图片中提到的“2D attention heads”是关键。

传统 LLM: 在处理信息时通常是线性的,序列越长,计算负担越重。

Percepta 的改进: 他们开发了一种二维的注意力机制。这使得模型在模拟计算机执行指令时,推理速度呈“指数级”提升(Exponentially faster inference)。这意味着它能以极高的效率处理计算机状态的更新,而不会像普通模型那样随着运行步骤增加而变得极慢。

3. 为什么这件事很有趣?

图中回帖的用户“Chao”做了一个很形象的比喻:“和在 Minecraft(我的世界)里弄个 CPU 的人差不多”。

在《我的世界》里,玩家可以用红石电路搭出一个可以算数的 CPU。

Percepta 则是利用 Transformer 的数学特性,搭出了一个可以运行程序的 CPU。

4. 作者背景

图中提到的作者 Christos Tzamos 是理论计算机科学领域的知名学者。

背景: 他以前研究过“背包问题(Knapsack problem)”的高效算法。

意义: 正因为作者有深厚的算法和理论计算机背景,他才能从底层逻辑上证明 LLM 可以被当成一台真正的计算机(图灵完备)来使用,而不仅仅是一个聊天机器人。

总结

这篇文章实际上是在探讨 AI 架构的极限:如果一个模型内部可以运行一个完整的操作系统或复杂的 C 语言算法,那么未来的 AI 可能会具备极强的逻辑自洽性和精确计算能力,从而解决目前 LLM 经常出现的“胡言乱语”或“算错数”的问题。

--- 第 3 楼来自 tomandjerry 的回复 (2026-03-13 19:49:42 PDT) ---

说到minecraft,有没有agent可以玩minecraft? 自动砍树盖房子,杀墨影龙,养村民?

--- 第 4 楼来自 nin11 的回复 (2026-03-13 19:52:08 PDT) ---

这什么星露谷

--- 第 5 楼来自 tomandjerry 的回复 (2026-03-13 19:55:54 PDT) ---

你说的这个游戏,接入了llm agent?

--- 第 6 楼来自 258 的回复 (2026-03-13 19:58:52 PDT) ---

什么红石科技

--- 第 7 楼来自 hoodl 的回复 (2026-03-13 20:01:51 PDT) ---

bilibili.com

历时三年,我们终于在戴森球上实现了神经网络!DSP宇宙首个人工智能——手写、印刷体数字识别 #类MC红石电路_哔哩哔哩_bilibili

历时三年,数千小时,能否换得各位的肯定~项目存档群文件自取:546418541(文件较大网盘就不放了)————————————模型训练信息大致如下:模型:196x12x10三层MLP激活函数:ReLU数据预处理:1、mnist28x28通过最大池化缩放为14x14,再使用形态学滤波腐蚀做笔迹骨架提取,转为二值化图像;2、训练大参数教师模型,通过教师模型筛选处理后的二值化图像,去除无效图像,获得高质, 视频播放量 410584、弹幕量 916、点赞数 41851、投硬币枚数 19975、收藏人数...

--- 第 8 楼来自 Aspartame 的回复 (2026-03-13 20:11:38 PDT) ---

下一步模拟gpu再train LLM

--- 第 9 楼来自 Puyi 的回复 (2026-03-13 20:12:08 PDT) ---

这个公司被军国公司干了怎么还存在着

--- 第 10 楼来自 收束观测者 的回复 (2026-03-13 20:37:29 PDT) ---

GPT说LLM早就在训练里自己“长”出来算法程序了

总结

很多研究发现:即使没有专门训练算法任务,LLM 也会“自发”学会一些简单算法,例如:

序列复制
简单加法
排序模式
查表/检索
括号匹配

这其实不是巧合,而是 Transformer 结构本身非常容易实现这些算法。下面是比较核心的几个原因。

1 Attention 天然就是“查表 / 指针”

Transformer 的核心操作是 attention:

\text{Attention}(Q,K,V) = \text{softmax}(QK^T)V

这在计算上等价于:

根据 query 找到相关位置,然后读取 value。

这和很多基础算法几乎一样,例如:

算法概念
attention 对应

hash lookup
找 key

pointer
指向 token

array indexing
读 value

memory read
从上下文取信息

例如一个非常简单的例子:

输入:

A B C D A

模型可能学到:

如果看到 A,就去找前面最近的 A

attention 就会:

token5 → token1

这就是著名的 induction head。

这种结构本质上就是:

复制算法的一步。

2 Residual stream ≈ 可读写内存

Transformer 的 residual stream:

x_{l+1} = x_l + layer(x_l)

可以理解为:

每一层都在读写同一块内存。

这就类似:

memory

↑ read

↑ write

很多算法只需要:

读状态
更新状态

例如:

算法
需要状态

括号匹配
stack depth

加法
carry

排序
rank

这些状态都可以编码在 residual vector 里。

3 FFN 很容易实现“状态机”

Transformer 中的 FFN:

\text{FFN}(x) = W_2 \sigma(W_1 x)

实际上是一个 巨大的非线性查表函数。

这意味着它很容易实现:

if state == A → state = B

也就是:

有限状态机(finite state machine)

很多简单算法其实都是 FSM,例如:

任务
FSM

括号匹配
stack depth

数字进位
carry

token分类
state transition

所以模型很容易学会。

4 Layer stack = 算法步骤

Transformer 的层结构:

layer1

layer2

layer3

可以看成:

step1

step2

step3

很多算法本来就是:

for i in sequence:

update state

Transformer 可以变成:

layer1 → propagate info

layer2 → compute state

layer3 → produce output

所以:

深度 ≈ 算法步骤数

5 训练任务本身逼出算法

语言建模目标是:

预测下一个 token

很多语言现象本身就是算法问题,例如:

括号匹配

if (a(b)c

模型必须知道:

stack depth

代词指代

Alice saw Bob. She…

必须找到:

最近女性实体

列表排序

first, second, third

需要理解顺序结构。

所以模型在解决语言任务时,被迫学会一些 算法式推理。

6 实验证据

很多 interpretability 研究已经明确找到这些算法结构,例如:

Induction heads

功能:

A B C A → predict B

这等价于:

copy sequence pattern

这些 head 在 GPT-2、GPT-3、LLaMA 等模型中都存在。

研究者甚至可以:

删除 induction head
模型立刻失去长序列能力

说明它确实在执行类似算法。

7 为什么说这是“自发出现”

关键点是:

训练时没有人告诉模型“写一个算法”。

训练数据只是:

predict next token

但由于:

attention = pointer
residual = memory
layers = steps

模型在优化 loss 时,最容易找到的解就是算法结构。

所以算法会自动出现。

总结

LLM 会自发学会简单算法,是因为:

attention 天然像指针/查表
residual stream 像可读写内存
FFN 很容易实现状态机
layer stack 像算法步骤
语言任务本身需要算法

所以即使没有专门训练:

Transformer 也会自然长出很多“小算法电路”。

如果你感兴趣,其实还有一个更惊人的发现:

有些研究发现 LLM 的某些 attention head 已经像“排序网络”一样工作,

这意味着模型内部可能真的在跑 并行排序算法。

这个现象其实和你刚才问的那篇文章 “LLM 作为计算机” 的想法非常接近。

--- 第 11 楼来自 Ansel 的回复 (2026-03-13 23:58:07 PDT) ---

没太看懂这篇文章,注意力有点跟不上了

按照文中说法,程序执行的trace永远只能append,像个notebook——前面几行是输入prompt,后面每一行只记录下一步计算,可以回头看,但绝不能原地改前面的。

我有两个疑问:

1)那注意力窗口(context window)不就成了硬限制吗?直觉上是把计算时间映射成序列长度,所有中间状态都保存在prefix,对于规模大的问题,trace一长不就卡死了?没有可变内存,计算效率就高不了,能调用工具为啥不调用工具而是要clever地模拟随机访问?

2)感觉跟时间因果的直觉有点相反。照这个逻辑,问题的前缀不是已经逐步包含了所有中间状态吗?那为什么还要老老实实一步步append中间状态,直接从输入shortcut到最终结果不就行了?