Nonlinear Correlation

Measure Nonlinear Correlation

  • distance correlation(rD): 2007年的文章“Measuring and testing dependence by correlation of distances”提出的,它的定义与pearson相关系数有点类似,也是基于一种协方差,但是额外引入了每个点与其他所有点在各个方向上的“距离(distance)”的概念,把协方差衍生到“距离协方差”(Distance covariance),归一化之后得到distance correlation。

  • Maximal Information Coefficient (MIC): 2011年文章“Detecting Novel Associations in Large Datasets”提出了Maximal Information Coefficient (MIC),是基于信息熵所定义的一个指标。更确切地说,是基于互信息(mutual information, MI),互信息的定义是联合概率分布P(X,Y)与边际概率乘积P(X)P(Y)之间的KL divergence,而MIC就是归一化后的互信息。

    MIC详解

这两个指标,目的在与描述两个变量之间的相关关系,而不只是线性相关

  • rD或MIC=0:不相关
  • 不等于0:相关,线性或者非线性相关都有可能。

下面几个例子,可以看到不同相关系数的作用: