数学家开发新的统计指标
我们大多数人都对这种现象非常了解:当室外很热时,您会感到需要降温的冰淇淋。但是您是否认为数学可能会涉及?让我们解释一下:温度上升和冰消耗上升是线性相关的两个统计变量。它们是相关的。
在统计中,相关性对于预测变量的未来行为很重要。媒体经常要求进行这样的科学预测,无论是足球还是选举结果。
为了测量线性相关性,科学家使用了所谓的相关系数,该系数是由英国自然科学家弗朗西斯·高尔顿爵士(1822-1911)于1870年代首次提出的。此后不久,数学家卡尔·皮尔森(Karl Pearson)为相关系数提供了正式的数学证明。因此,数学家也称“皮尔逊积矩相关性”或“皮尔逊相关性”。
但是,如果变量之间的依存关系是非线性的,则相关系数不再是对其依存关系的合适度量。
德累斯顿大学概率论教授RenéSchilling强调:“到目前为止,检测两个以上高维变量之间的依存关系已经花费了大量的计算工作,特别是当涉及复杂的非线性关系时。现在找到了解决该问题的有效方法。”
德累斯顿工业大学数学随机研究所的BjörnBöttcher博士,Martin Keller-Ressel教授和RenéSchilling教授开发了一种称为“距离多方差”的依存性度量。这一新度量的定义和基础的数学理论已在国际领先的统计年鉴《Annals of Statistics》上发表,标题为“距离多方差:
随机向量的新 依赖性度量”。
马丁·凯勒·雷塞尔(Martin Keller-Ressel)解释说:“要计算相关性测度,不仅要记录观察到的变量本身的值,还要记录它们之间的相互距离,并从这些距离矩阵中计算距离多方差。此中间步骤可以检测到复杂的依存关系,而通常的相关系数只是简单地忽略了。我们的方法可以应用于需要分析大数据集的生物信息学中的问题。”
在后续研究中,研究表明可以从距离多方差中重新获得经典的相关系数和其他已知的依赖度量作为临界情况。
BjörnBöttcher最后指出:“我们在软件包'multivariance'中为免费统计软件R提供了所有必要的功能,以便所有相关方都可以测试新的依存度度量的应用。”