联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  ·...

12
联川生物非靶向代谢组学数据挖掘技巧 1 Prepared by LC-Bio |www.lc-bio.com| [email protected] Hangzhou, Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905 联川生物非靶向代谢组学数据挖掘技巧 许多老师在拿到非靶向代谢组学的结题报告时,内心一定是会有很大困惑,summary 文件夹内那么多结果究竟哪些才是自己 能用的呢?别着急,接下来老师将会一步步看懂非靶向代谢组学数据,学会后续分析、挖掘。 首先,您会拿到联川生物非靶向代谢组学的报告,整个报告的逻辑就和主线是 1. 代谢物检测 去看下质控的信息(毕竟数据 合格才能分析)2.代谢物的鉴定(为了拿到更多的结果,我们进行了一级和二级代谢物的鉴定)3.代谢物的定量 将代谢离子的检 出量数据归一化后进行定量分析 4 差异代谢物筛选 对差异代谢物进行一系列的研究。总结如下: 理解了非靶向代谢组学的结果,那么如何进行对数据的挖掘工作呢? 1. 找到用于数据挖掘的表格和文件 面对 summary 文件夹中繁杂的结果,如何找到用于数据挖掘的文件至关重要。根据常规经验,我们会选取代谢物鉴定表格 差异代谢物来进行后续的分析。许多论文里面用到的图片,如火山图、柱状图、聚类热图、PCA、PLS-DA 等统计图片所用数据 都来源于这些表格,当然这些表格还有代谢物一些非常关键的注释信息,比如代谢离子的编号 M104T200、保留时间、分子量、 代化学式、对应 KEGG、HMDB 数据库的编号等。 还需要强调的是:非靶向代谢组结果是在两种模式下采集离子信息的,即 pos 正离子模式和 neg 负离子模式,目的是为了检 测更多的代谢物(有些代谢物偏向于带正电,有些代谢物偏于带负电),而非靶向代谢的结果将两种模式采集到的信息分别和数据 库比对,和一级代谢离子信息收录数据库比如 KEGG、HMDB(只会拿分子量去比对,会有同分异构体的现象,准确性会差很多) 鉴定到一级代谢物,如果继续和本地的 in-house 数据库去比对二级碎裂的信息就是二级代谢物鉴定的结果了。 联川生物目前提供基于二级代谢物和一级代谢物鉴定的数据挖掘工作 筛选秘诀就是优先二级代谢物挖掘,一级代谢物数据鉴定结果做筛选和补充,正负离子模式可以分别进行数据描述,也可以 针对具体鉴定到代谢物做描述(两者取并集保留一种模式鉴定到这个代谢物便可)。 挖掘信息总表位置: 代谢物一级 HMDB 鉴定总表Summary/2.MetaboliteIdentification/pos/MS1-HMDB/pos-idMS1-hmdb-metabolite2feature.xls (动物材料推荐,植物材料参考)

Upload: others

Post on 17-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 1

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧许多老师在拿到非靶向代谢组学的结题报告时,内心一定是会有很大困惑,summary 文件夹内那么多结果究竟哪些才是自己

能用的呢?别着急,接下来老师将会一步步看懂非靶向代谢组学数据,学会后续分析、挖掘。

首先,您会拿到联川生物非靶向代谢组学的报告,整个报告的逻辑就和主线是 1. 代谢物检测 去看下质控的信息(毕竟数据

合格才能分析)2.代谢物的鉴定(为了拿到更多的结果,我们进行了一级和二级代谢物的鉴定)3.代谢物的定量 将代谢离子的检

出量数据归一化后进行定量分析 4 差异代谢物筛选 对差异代谢物进行一系列的研究。总结如下:

理解了非靶向代谢组学的结果,那么如何进行对数据的挖掘工作呢?

1. 找到用于数据挖掘的表格和文件面对 summary 文件夹中繁杂的结果,如何找到用于数据挖掘的文件至关重要。根据常规经验,我们会选取代谢物鉴定表格

和差异代谢物来进行后续的分析。许多论文里面用到的图片,如火山图、柱状图、聚类热图、PCA、PLS-DA 等统计图片所用数据

都来源于这些表格,当然这些表格还有代谢物一些非常关键的注释信息,比如代谢离子的编号 M104T200、保留时间、分子量、

代化学式、对应 KEGG、HMDB 数据库的编号等。

还需要强调的是:非靶向代谢组结果是在两种模式下采集离子信息的,即 pos 正离子模式和 neg 负离子模式,目的是为了检

测更多的代谢物(有些代谢物偏向于带正电,有些代谢物偏于带负电),而非靶向代谢的结果将两种模式采集到的信息分别和数据

库比对,和一级代谢离子信息收录数据库比如 KEGG、HMDB(只会拿分子量去比对,会有同分异构体的现象,准确性会差很多)

鉴定到一级代谢物,如果继续和本地的 in-house 数据库去比对二级碎裂的信息就是二级代谢物鉴定的结果了。

联川生物目前提供基于二级代谢物和一级代谢物鉴定的数据挖掘工作

筛选秘诀就是优先二级代谢物挖掘,一级代谢物数据鉴定结果做筛选和补充,正负离子模式可以分别进行数据描述,也可以

针对具体鉴定到代谢物做描述(两者取并集保留一种模式鉴定到这个代谢物便可)。

挖掘信息总表位置:

代谢物一级 HMDB鉴定总表:Summary/2.MetaboliteIdentification/pos/MS1-HMDB/pos-idMS1-hmdb-metabolite2feature.xls

(动物材料推荐,植物材料参考)

Page 2: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 2

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

代谢物一级 KEGG 鉴定总表:Summary/2.MetaboliteIdentification/pos/MS1-KEGG/pos-idMS1-kegg-metabolite2feature.xls

代谢物二级 in-house数据库:Summary/2.MetaboliteIdentification/pos/MS2/pos-idMS2-metabolite2feature.xls

联川生物非靶向报告解释很详细,大家可以参照报告去看代谢物的注释信息(二级代谢物鉴定详解如下:)

2. 差异代谢物挖掘2.1 确定差异代谢物总表

分析比较组差异代谢物(后续的如火山图、柱状图、聚类热图、PCA、PLS-DA 就是围绕这个数据进行绘制的)

Summary/4.MetaboliteComparison/A_B/pos-A_B-significant.xls

差异代谢物的总表的描述:

红框内标注的是鉴定到差异代谢物最关键信息,我们可以看到差异代谢物 p 值,ratio 值,VIP 值。非靶向的代谢组学差异代谢物

Page 3: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 3

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

筛选条件:

1)ratio >= 2 或 ratio <= 1/2;

2)q value <= 0.05(或 p<= 0.05):

3)VIP ≥ 1

那是不是我们可以关注下,我们实际检测到的差异代谢物哪些 p 值最小,哪些差异倍数比较大呢?当然这部分工作我们通过 Excel

表格筛选的工作可以实现了。看下那些我不知道的差异更显著的代谢物是否和我们研究的目的相关。

2.2 确定关注差异代谢物在哪些通路

我们知道了哪些差异代谢物,更关注这些代谢物究竟在哪些通路上,那么我们可以在 pos-A_B-MS2_Pathway,去重点关注我们

筛选的代谢物在哪些具体的通路

具体位置:4.MetaboliteComparison/A_B/pos/ pos-A_B-MS2_Pathway

这里需要明确的是对于二级代谢物鉴定的结果,一个 ID 对应一个 KEGG 的 C 号,对应多个代谢物的通路,如上图所示,当然并不

是所有鉴定的二级代谢都被 KEGG 数据库收录的。(一级代谢物筛选方法同样适用)

3 KEGG 通路富集分析上述通过具体的表达谱,我们可以确定我们关注的一些差异的代谢物包括差异的显著变化,那么多通路我关注哪些呢?有了最基本

的信息,当然我们可以根据所有鉴定到代谢物 Top20 的 KEGG pathway 进行有个粗略的了解,接下来就是如何关注的二级代谢物

进行后续的 KEGG 富集分析,我们关注的那些差异代谢物究竟富集到那些代谢通路中。

Page 4: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 4

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

3.1 差异代谢物富集分析

通过差异代谢物统计结果数据,我们对差异代谢物有了大概了解,那么差异代谢物是否对这些代谢通路有显著影响呢?仅仅是统计

结果数据并不足以说明问题,还需要对差异代谢物进行富集分析,通过差异代谢物对富集到代谢通路的影响程度及富集通路的显著

性进行分析,提供更准确的信息。下面将介绍两个代谢通路富集分析常见的开放性工具

3.1.1 MSEA(https://www.metaboanalyst.ca/MetaboAnalyst/faces/home.xhtml)通路富集分析

MSEA(Metabolite Set Enrichment Analysis)主要提供人和哺乳动物信号通路富集分析,包含不同代谢通路大约 1000 种以上

不同类别的代谢物,主要提供三种不同分析方式:1)ORA(overrepresentation analysis)——提供代谢物名称即可,SSP(single

sample profiling)、QEA(quantitative enrichment analysis)——提供代谢物名称及浓度。该富集结果采用整体检验法

(globaltest)进行 p_valve 计算,并 Benjamini and Hochberg 方法进行校验提供 FDR 值。具体操作方法如下:

1. 打开 https://www.metaboanalyst.ca/MetaboAnalyst/faces/home.xhtml 网站,点击 click here to start 进入分析选择界面

2.点击 Enrichment Analysis 进入分析界面

3. 输入需要进行分析的代谢物,有多种数据格式可供选择,点击 submit 提交数据,开始匹配数据库

4. 匹配结果标红表示没有匹配到数据库中的对应项,黄色表示没有精确匹配到某一代谢物,可以点击“view”进行匹配项的手动

选择。然后提交

5.选择参数,提交

Page 5: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 5

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

6.结果预览 fold enrichment=Hits/Expect,可以点击“view”查看匹配代谢通路中的具体代谢物。

Page 6: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 6

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

7.结果下载

3.1.2 利用 MBRole 2.0 进行代谢通路富集分析

MBRole 是一款进行通路富集分析的在线网站,以 KEGG 数据库作为背景。采用超几何检验计算 p_value 并校验得到 FDR 值。

(需要整理以 KEGG ID 作为上传数据分析)

1. 利用 MBRole 2.0 进行代谢通路富集并下载结果(http://csbg.cnb.csic.es/mbrole2/index.php);

2. 利用我司云平台制作 KEGG 富集分析散点图。

具体操作步骤如下:

1.进入网站

2.上传需要分析的数据,选择 Annotation—>KEGG pathway,Background set—>选择分析背景,点击 Enrichment analysis

开始进行分析。

3. 分析结束后点击以下页面即可导出结果

Page 7: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 7

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

4.导出的 .tsv 文件复制到 Excel 中进行查看,将数据整理成如下格式(几列的顺序需稍作调整,并按 p_value 升序排序并保存为

txt 格式)。

5. 进入我司云平台(http://www.lc-bio.cn/app/main.php)找到 KEGG 富集因子图,上传数据,调整相应参数以达最佳效果(可

以选择展示 P 值最小的前多少条通路),最后下载图片。(RichFactor=S_Gene_Number/B_Gene_Number)

3.2 MetPA(https://www.metaboanalyst.ca/MetaboAnalyst/faces/home.xhtml)通路分析

MetPA(Metabolomics Pathway Analysis)是功能齐全,易于使用的通路分析工具,并结合富集分析及通路拓扑特征帮助研究者找

出与差异代谢物联系最紧密的信号通路,并对结果进行详细展示。本部分模块能为 21 个模式物种提供通路分析(集成的富集分析,

通路拓扑学分析和可视化),这 21 个模式物种主要包括 Human, Mouse, Rat, Cow, Chicken, E.coli 等, 总共有大约 1 600 个代谢

通路。富集分析提供普通富集分析和以 GSEA 为基础的分析方法,多种检验方法可供选择:费舍尔精确检验、超几何检验、整体

检验、GlobalAncova 检验等。MetPA 通路拓扑分析以代谢物在代谢调控网络的中心性测量为基础。代谢物对富集通路影响程度的

计算依据不同匹配代谢物重要性总和归一化后计算得到。MetPA 同样提供多种单变量分析方法以提供单个代谢物浓度对相关表型的

影响程度。具体操作步骤如下:

1.进入界面

2.上传代谢物数据,分析

Page 8: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 8

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

3.结果展示、下载。

包含代谢物浓度的分析方法可根据网站实例自行探索。

4. 查阅文献文献中包含大量有效信息,可以说查阅、熟读文献就是站在巨人的肩膀上思考问题。从文献中,我们可以了解研究领域的热点、前

沿知识、学习实验方法和研究方案设计等,也可以从大量文献中了解到与自己研究课题相关的信息,从而更好地把握研究课题。例

Page 9: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 9

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

如:癌细胞会产生大量脂肪酸满足自身生长的需要,在一篇 PNAS 文章中作者对食管鳞状细胞癌组织鉴定到的差异代谢物进行通

路富集时,富集到的脂肪酸生物合成途径并不显著。对癌组织代谢物数据进行分析,发现癌变组织中的脂质含量发生了显著变化。

对脂肪酸合成途径的限速酶 FASN 进行检测时,FASN 的含量也发生了显著变化。从而可以说明在食管鳞状细胞癌组织中脂肪酸生

物合成途径确实受到了影响。

5. 生物标志物的筛选代谢组学分析的最终目标是希望从中筛选出潜在的生物相关标志物,从而探索其中的生物代谢机制,因此需要借助一定的特征筛选

方法进行变量筛选。联川生物在进行差异代谢物筛选时以 ratio、q value 、VIP 数据为参考综合进行筛选。如果您对差异代谢物

的数量要求并不高,只是想在不同材料中找到差异最显著的几个代谢物进行后续研究,您可以对显著性差异数据进行二次筛选。建

议优先考虑表达倍数及差异贡献度(VIP)。

选中表格第一行—>筛选—>对 ratio 值和 VIP 值降序排列,综合考虑对有注释的代谢物进行筛选即可。

Page 10: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 10

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

6. 趋势分析当实验检测的材料生物学重复不好,鉴定到的差异代谢物数量很少,无法用差异代谢物进行后续实验怎么办?难道数据成了垃圾,

钱白花了?不,您也许可以换一种方法——趋势分析找寻研究相关代谢物(某些代谢物在不同材料中的总体表达变化趋势与实验设

计预想吻合,但是进行差异筛选时 p_value/VIP 筛选会使得这些代谢物被过滤掉)。参考方法如下:

1. 安装 Mev 软件(也可以用于热图绘制)。

2. 准备数据:算各组样品表达量平均值(建议使用归一化数据),另存为 .txt 文件。

3. 打开 Mev 软件,建立新工作窗口,导入文件,点击导入表格数据第一个单元格,点击 load

4. 选 Clustering→KMC(k-Means/Medians Clustering)进行绘制

5. 设置参数

Page 11: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 11

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

6. 趋势图绘制图初步形成

7. 趋势图绘制图调整颜色 Display→Color Scheme→Use Color Gradient on Graphs

8. 趋势图绘制图完成,查看分类

Page 12: 联川生物非靶向代谢组学数据挖掘技巧...2019/12/18  · 联川生物非靶向代谢组学数据挖掘技巧 4 PreparedbyLC-Bio||support@lc-bio.com Hangzhou,Zhejiang,China,310018Tel.86-571-87662413,Fax.86-571-81951905

联川生物非靶向代谢组学数据挖掘技巧 12

Prepared by LC-Bio |www.lc-bio.com| [email protected], Zhejiang, China, 310018 Tel. 86-571-87662413, Fax. 86-571-81951905

9. 保存文件,过程文件,图片等

1)随意点击其中一个数据,右键单击选择 Save all clusters

2)保存过程文件