独立性和相关性之间差异的真实例子

机器算法验证 相关性 独立 直觉
2022-03-06 17:13:05

众所周知,随机变量的独立性意味着零相关性,但零相关性不一定意味着独立性。

尽管相关性为零,但我遇到了大量证明依赖关系的数学示例。是否有任何现实生活中的例子来支持这一事实?

2个回答

股票回报是你所要求的一个体面的现实例子。今天和昨天的标准普尔 500 指数回报之间的相关性非常接近于零。但是,存在明显的依赖性:平方收益是正自相关的;高波动时期在时间上聚集在一起。

代码:

library(ggplot2)
library(grid)
library(quantmod)

symbols   <- new.env()
date_from <- as.Date("1960-01-01")
date_to   <- as.Date("2016-02-01")
getSymbols("^GSPC", env=symbols, src="yahoo", from=date_from, to=date_to)  # S&P500

df <- data.frame(close=as.numeric(symbols$GSPC$GSPC.Close),
                 date=index(symbols$GSPC))
df$log_return     <- c(NA, diff(log(df$close)))
df$log_return_lag <- c(NA, head(df$log_return, nrow(df) - 1))

cor(df$log_return,   df$log_return_lag,   use="pairwise.complete.obs")  # 0.02
cor(df$log_return^2, df$log_return_lag^2, use="pairwise.complete.obs")  # 0.14

acf(df$log_return,     na.action=na.pass)  # Basically zero autocorrelation
acf((df$log_return^2), na.action=na.pass)  # Squared returns positively autocorrelated

p <- (ggplot(df, aes(x=date, y=log_return)) +
      geom_point(alpha=0.5) +
      theme_bw() + theme(panel.border=element_blank()))
p
ggsave("log_returns_s&p.png", p, width=10, height=8)

标准普尔 500 指数对数回报的时间序列:

日志返回时间序列

如果收益在时间上是独立的(并且是固定的),那么就不太可能看到那些聚集波动的模式,而且您也不会看到平方对数收益的自相关。

另一个例子是压力和考试成绩之间的关系。这种关系呈倒 U 形,尽管因果关系看起来很清楚,但相关性非常低。