在线客服
客服热线
400-664-9912
客服组:
阿趣客服
客服组:
在线客服
QQ:
Amy
服务时间:
8:00 - 24:00

关注官方微信平台

电话:400-664-9912

QQ:2850277929

邮箱:marketing@biotree.cn

地址:上海市嘉定区新培路51号焦点梦想园B栋5楼

上海阿趣生物科技有限公司. 版权所有 沪ICP备17019578号-1

多组学关联分析方法HAllA操作方法

分类:
新闻中心
发布时间:
2020/10/09 16:09
浏览量
 
 
HAllA(Hierarchical All-against-All association)是一种在高维、异构数据集中寻找多分辨率关联的计算方法。用于以高功率发现数据特征之间的显著关系。对数据类型具有很强的鲁棒性,可以对连续值和分类值进行操作,并且在同质数据集(所有测量值都属于同一类型,例如基因表达微阵列)和异构数据(包含具有不同单位或类型的测量值,例如患者临床数据)上都能很好地工作。
 
简单来讲,HAllA是探索代谢组学、转录组学、微生物组学、蛋白质组学等多个组学之间相关性的有力工具
 
HAllA流程图如下:
 
代谢组学
 
HAllA特点
 
通用性:可以处理混合数据类型的数据集:分类、二进制、连续、词法(有或无固有顺序的文本字符串);
 
效率:不需要遍历所有可能的关联,而是只对统计学上有意义的候选变量进行详细测试;
 
可靠性:利用分层错误发现校正来限制由于多重假设检验导致的假阳性;
 
可扩展性:不同步骤可以使用不同的方法。
 
1. 相似性计算方法有:Pearson、Spearman、归一化互信息(NMI)、调整后的互信息(AMI)、互信息(MI)、最大信息系数(MIC)、离散化互信息默认和距离相关(DCOR);
 
2. 降维分解的方法有:层次聚类、PCA、ICA、MCA、聚类质心、偏最小二乘法(PLS)、典型成分分析(CCA)和核主成分分析(KPCA);
 
3.FDR方法有:BHY、BH和Bonferroni。
 
下面以测试过的系统和软件为例说明操作方法
 
系统
 
Linux debian 4.9.0-4-amd64 #1 SMP Debian 4.9.65-3 (2017-12-03) x86_64 GNU/Linux
 
软件
 
3.6.9 |Anaconda, Inc.| (default, Jul 30 2019, 19:07:31) \n[GCC 7.3.0]
 
运行
 
1.安装halla包:直接在安装了python的环境的命令行输入pip install halla,需要注意的是该包调用了R的相关函数,所以需要安装R及相关包;
 
2.下载示例数据,列是样本行是特征
 
(1)使用提供的案例数据,样本需要一一对应;
 
(2)也可以使用包中example文件夹下的数据。
 
3.使用HALLA API分析,python代码如下:
 
代谢组学
 
常用参数
X:第一个数据集;
Y:第二个数据集;
m:选择相关性计算方法(spearman :Spearman's rank correlation斯皮尔曼等级相关系数);
header:使用两个数据集的列名来查找列(样本)并重新排序。
参数还有很多,在此不再一一介绍。
 
结果解释:
1. 数据集X和Y的聚类热图,左侧展示了特征簇。
 
代谢组学
 
代谢组学
 
2. associations.txt文件:
 
代谢组学
表头解释
association_rank:相关性p值的排名;
cluster1:第一个数据集的聚类后的簇;
cluster2:第二个数据集的聚类后的簇;
Pvalue:簇1和簇2的检验后的p值;
Qvalue:校正后的p值。
similarity_score_between_clusters:两个类别之间的相关性大小。
 
3. similarity_table.txt:
 
代谢组学
 
这个文件是第一个数据集与第二个数据集中成对特征的相关性矩阵。OUTPUT文件夹里面还有很多结果,不再一一介绍。
 
4. 还可以使用修改后的corr_heatmap.py画出相关性热图,在OUTPUT文件夹里打开shell,输入下面的命令:
代谢组学
代谢组学
上图和常规的相关性热图类似,但是会突出展示聚类后的簇之间的相关性,图中标出的数字是对应簇相关性大小的排名,数字越小相关性越高。
 
除了这个分析之外,阿趣代谢还提供各类个性化定制分析服务,文献上的炫酷图片+烧脑分析,不要客气,敬请扔过来进行咨询~欢迎有此类需求的老师垂询服务热线:400-664-9912。
 
代谢组学
 
>
>
多组学关联分析方法HAllA操作方法