看看Google和Walmart的相关度
非平稳时间序列导致Google与Walmart股价伪相关,需谨慎解读。
1. 关键信息
#2 指出非平稳时间序列的 Spurious Correlation;#4 Walmart 更稳健、Sharpe ratio 更高;#6 详解伪相关机制与协整;#7 承认手打例中存在相关性;#8 肯定相关性存在。
2. 羊毛/优惠信息
无
3. 最新动态
无
4. 争议或不同意见
#2 与 #8 认为存在相关性;#6 强调伪相关风险,需平稳性/协整检验;#5 关联 META 与 BTC 高相关性疑为同一楼主。
5. 行动建议
先做平稳性诊断(ADF/KPSS),必要时差分或去趋势,检验协整,避免直接回归水平值。
image1430×1184 93.2 KB
非平稳时间序列的Spurious Correlation
话题终结
Walmart明显更稳健,Sharpe ratio更高
让我想起了这个帖子
【引用自 未知】:
META跟BTC相关性这么高吗? 股市投资
[image]
一看原来也是楼主发的
lz可能没看懂
【引用自 Mont】:
非平稳时间序列的Spurious Correlation
话题终结
的意思。
我举个例子,我手上的手表转的圈数和你手上的手表转的一样;我家的苹果腐烂速度和你家苹果腐烂的速度也是一样的。你觉得咱俩的手表、苹果有没有关系?
Update:不对啊,我顶着这个头像怎么能手打Answer呢?
# 非平稳时间序列的 Spurious Correlation(伪相关)
Spurious Correlation 指的是:两个时间序列在真实生成机制上没有因果或结构关系,但因为它们各自是非平稳的(例如带趋势、单位根、结构性变动),在样本内用相关系数或 OLS 回归却会得到显著相关或显著系数的“假象”。
典型数学形态:随机游走导致的伪相关
经典情形是两条彼此独立的随机游走:
x_t = x_{t-1} + \varepsilon_t,\quad
y_t = y_{t-1} + \eta_t,
其中 \varepsilon_t 与 \eta_t 相互独立、均值为 0、方差有限。
如果你直接回归
y_t = \alpha + \beta x_t + u_t,
即使 x_t 与 y_t 在 DGP 上完全独立,也常常会得到“看起来显著”的 \hat\beta 和很高的 R^2。这就是伪相关。
为什么会发生:非平稳破坏了常规推断前提
当 x_t、y_t 含单位根(常说是 $I(1)$)时,它们对冲击的反应具有“持久性”。因此:
样本路径会表现出长段同向移动(共同随时间漂移)
相关系数把“共同漂移的形状”当成了变量间关系
OLS 的常规 t 检验依赖的渐近分布前提(如弱相关、平稳性)不成立
一个常见现象是残差序列强自相关,Durbin–Watson 值偏低,但系数却“显著”。
如何识别:你会看到的信号(非充分条件)
回归 R^2 很高,\hat\beta 的 t 值显著
换一个样本区间或起止时间,结论不稳定
回归残差 u_t 呈现强自相关、缓慢衰减
从常识或机制上难以解释,但统计上显著
这些只能作为预警,最终要靠平稳性与协整检验来判断。
正确处理思路 1:先做平稳性诊断
对每个序列先判断是否平稳(是否存在单位根)。常用检验包括:
ADF:原假设是“有单位根”(非平稳)
PP:同样以单位根为原假设
KPSS:原假设是“平稳”(和 ADF/PP 互补)
实务上常用组合是 ADF + KPSS 交叉验证。
正确处理思路 2:差分或去趋势后再建模
如果 x_t、y_t 是 I(1),常见做法是对它们做一阶差分:
\Delta x_t = x_t - x_{t-1},\quad
\Delta y_t = y_t - y_{t-1}.
然后分析短期联动:
\Delta y_t = \alpha + \beta \Delta x_t + e_t.
差分的直觉是:去掉随机游走的“累积漂移”,保留每期的变化量,使序列更接近平稳,从而避免把趋势当关系。
如果序列是“趋势平稳”(trend-stationary),也可以通过显式去趋势,例如设
x_t = a_x + b_x t + \tilde x_t,\quad
y_t = a_y + b_y t + \tilde y_t,
其中 \tilde x_t,\tilde y_t 平稳。此时可以用去趋势后的 \tilde x_t,\tilde y_t 再做相关/回归,或在回归中加入时间趋势项。
关键例外:协整不是伪相关
有些情况下两个序列虽然各自非平稳,但它们之间存在长期均衡关系,这叫协整。
如果 x_t 与 y_t 都是 I(1),但存在某个 \beta 使得
z_t = y_t - \beta x_t
是 $I(0)(平稳),那么 (x_t,y_t)$ 协整。此时对水平值做回归并不必然是伪相关,因为它反映了长期关系。
协整常用检验方法:
Engle–Granger 两步法
Johansen 方法(多变量系统更常用)
协整成立时,常用误差修正模型(ECM)描述短期与长期的结合:
\Delta y_t = \gamma (y_{t-1} - \beta x_{t-1}) + \sum_{i=1}^p \phi_i \Delta y_{t-i} + \sum_{j=0}^q \theta_j \Delta x_{t-j} + \varepsilon_t,
其中 (y_{t-1} - \beta x_{t-1}) 是长期偏离项,\gamma 描述回归速度(通常 \gamma<0 才表示向均衡回归)。
一句话记忆法
当你看到两个序列在水平值上“显著相关”,第一反应应是:它们是否非平稳?如果是,先处理非平稳(差分/去趋势)并检查是否协整,否则很可能只是 spurious correlation。
你手打的例子里面确实是有相关性的。。
【引用自 mgnt.adv】:
你觉得咱俩的手表、苹果有没有关系?
有关系
话题终结
我应该说因果关系。