-
qOPLS-DA模型中Q2值越接近1越好?那如果数值比较小(比如0.5左右),数值还可以用吗?
a
可以用的,一般Q2值越接近1,模型可预测性越好,若数值不大,也不代表模型不可用,是可以用的,只是用Q2值来做判断参考,并不是绝对的,后面还要做permutation做检验。
-
q对于常见分析模型审稿人提到的:“LV1”是什么意思?他所指的分析的“PC1”又是什么?那么OPLS-DA中类似的概念是什么(t[1]O、t[1]P)?
a
LV1:全称为Latent Variable 1 ,即隐变量,假设观察数据是这些隐变量和某些噪声的线性组合。那么隐变量的数据可能比观察数据的数目少,也就是说通过隐变量可以实现数据的降维。
PC1:全称:Principal Component 1 ,即主成分1,计算公式为:PC1=a1X1+a2X2+…akXK。它是k个观测变量的加权组合,对初始变量集的方差解释性最大。
t[1]O、t[1]P:“P”代表预测,“O”代表正交。
-
q置换检验判断标准是什么?
a
通常标准是R2回归线的截距<0.4,Q2回归线的截距<0.05,但有的时候样本量太少,达不到。所以只要回归线斜率大于0,就可以了。
-
qROC是什么,判断标准是什么?
a
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣。一般的,AUC值越接近1,这个二值分类器越优。
-
q如果我的数据量不是很大和复杂,如何使用多元变量的方法分析?
a
如果数据量不是很大,同样可以在SIMCA等软件中进行多元变量的方法进行分析,但由于数据量较小,可能会过拟合,因此不一定要用多元变量,可以选择其他的方法,比如单变量分析方法 。
-
q多元变量统计分析不是适合变量多,样本量少的情况吗?那为什么做多元变量统计分析时6个重复要比3个重复好?
a
对于统计分析,只有达到一定样本量才能体现出统计学意义。对于代谢组学来讲,代谢的影响因素较多,较大的样本量才可以减少个体差异,这样分析得到的结果才有意义。
-
q为什么代谢组学分析通常只能是两两比对?
a
主要限制在于OPLS-DA分析,因为进行两组以上的对比分析,OPLS-DA模型难以计算代谢物对组间差异的贡献,更大的难点在于难以给出合理的解释。