跳到主要内容

一种新的基因选择方法,用于癌症类型分类任务的基因表达数据

摘要

癌症是具有不同突变谱的每种癌症型癌症疾病。基因组数据可用于检测这些谱并诊断和分化癌症类型。变体调用提供突变信息。基因表达数据揭示了细胞行为改变的。突变和表达信息的组合可以导致对不同癌症类型的准确辨别。在本研究中,我们利用并转移了用于基因表达数据的新型基因选择方法的现有突变的信息。我们测试了所提出的方法,以便诊断和分化癌症类型。它是一种疾病特异性方法,因为根据所选择的癌症类型过滤突变和表达。我们的实验结果表明,与经典特征选择方法和愈合基因集相比,所提出的基因选择方法导致相似或改善的性能指标。

背景

癌症是全球主要的死亡原因之一[1].它是一组疾病,每一种癌症类型都是由癌细胞产生的身体主要部位标记的。不同的因果基因导致每种癌症类型,而疾病是由这些基因的各种突变组合而成的[1].根据驾驶突变计划癌症治疗。这些突变的未知或错误分析导致治疗不正确,这是癌症患者的主要问题之一。基因组数据可用于诊断疾病并识别不同类型。基因组测试揭示了可能导致癌症行为的基因突变。此信息可帮助医生在决定患者的个人待遇时[2].

通过对基因组数据进行详细分析,驾驶突变定位。全基因组序列和变体呼叫用于突变分析[3.-5.].分析DNA的编码和非编码区域,用于发现癌症类型的突变签名。

除了全面的统计分析,机器学习算法可能有助于检测驱动突变。一种用于癌症分类的常用数据类型是基因表达数据。一些研究利用了基因表达数据,并讨论了癌症类型的分类[6.-10.].使用基因表达数据的主要挑战是具有高维度的小样本尺寸。每种样品中可能存在成千上万的基因,但只有其中一些是对目标疾病有效的,而大多数是无关的[11.].为了克服高维问题,通常在分类之前采用基因选择方法[12.13.].然而,特征选择步骤可能会消除那些通常对疾病产生影响较小的基因,但对某些患者的特定癌症类型的诊断仍具有重要意义。此外,不相关的基因增加了噪声,降低了机器学习方法的分类器性能[14.15.].

在本研究中,我们提出了一种新的基因选择方法,以基因表达数据为目标,以完成癌症类型分类的任务。在之前的一项研究中[16.],我们利用变异呼叫格式(VCF)中的突变信息[17.)文件。鉴别癌症类型最有效的基因被识别出来。本研究将这些VCF数据中最有效的基因用于基因表达数据的基因选择。将所提出的方法与基于计算和人工筛选的基因签名列表进行了比较。这种方法最重要的方面是,每一步都是疾病特异性的,可以适用于任何基因组疾病。

我们的工作带来了以下贡献:

  1. 1

    提出并验证了一种新的疾病/性状特异性基因选择方法。

  2. 2

    DNA突变中有价值的信息被转移并与基因表达数据一起使用。

  3. 3.

    与基于计算和人工分类的方法相比,分类结果相似且略有改进。

  4. 4.

    该系统可以应用于任何基因组疾病或特征。

方法

数据集

我们使用了FPKM格式的基因表达文件(每千碱基百万片段)和CAMDA 2019高分辨率癌症数据集成挑战中列出的样本的VCF文件[18.].所有文件都从癌症基因组Atlas项目(TCGA)下载[19.].挑战包括三种癌症类型的样本:乳腺、肺腺癌(肺)和肾肾透明细胞癌(肾)。我们选择的样本都有FPKM和VCF文件。表中提供了癌症类型列表和每种癌症类型的样本计数1

表1我们的数据集中的癌症类型和样本计数列表

基因表达的特征选择

对于基线,我们在基因表达文件中使用了整个基因列表。全基因表达集中存在60,483个不同的基因。对于特征选择,我们从Scikit-Searn库中应用了SelectKbest [20.],具有Pymrmr库的最小冗余最大相关性(MRMR)[21.]和威尔救济[22.23.].SelectSkbest是一个特征选择方法,根据所选评分功能的最高分数选择功能。Scikit-Searn库中的Mutual_info_classif用作评分函数。它根据其相互依赖项分数。MRMR是一个特征选择方法,它通过考虑相关性和冗余之间的权衡来选择特征子集。浮雕是一种特征选择方法,其基于相关性返回特征子集。我们使用不同数量的功能应用了这些方法;1,000,5,000和10,000,适用于MRMR的1,000,5,000和5,000人。

另一个特征选择方法是使用基因签名列表。Hallmark Gene集合[24.[混合方法是由手动专家策策结合自动计算过程的混合方法生成的。它由多个基因组组成,并在多个测试数据集中显示识别行为。为了从所有源数据集中受益信息,我们将所有符号基因集的联盟设置为特征列表。这导致4,266个基因特征。

本研究的最后一个特征选择方法是我们提出的。在我们以前的研究中[16.],采用VCF文件进行肿瘤类型分类。这项研究的一个令人印象深刻的结果是列出了在决策过程中最有效的基因。这些基因大多数在文献中被认为是目标基因。对于一种新的特征选择方法,我们结合了我们之前对三种癌症类型的研究中最有效的基因。我们为每种癌症类型选择了3000和3500个最有效的基因,并将它们组合起来,以治疗代表所有三种癌症类型的特征集。在3000个最有效的基因中,最终的基因列表有6752个基因。在3500个最有效的基因中,最终的基因列表有7741个。

机器学习方法的实现与实验设计

所有实验都是用Python和Weka实施的。对于机器学习算法,使用Scikit-rement和Pymrmr库。我们在策划数据集上应用了Logistic回归(LR)。每个测试都以5倍交叉验证应用。报告的结果是应用交叉验证折叠上的微平均分数和标准偏差。使用精度,F分,假阳性率(FPR),接收器操作曲线(Roc-AUC)和马修斯相关系数(MCC)的面积作为性能测量。

结果和讨论

与之前的研究进行比较

对于基线,FPKM文件中设置的整个基因用于分类任务。为了与另一种数据类型进行比较,我们使用了我们以前的研究,以便在VCF数据上运行,以对癌症类型进行分类。我们应用并比较了该研究的许多统计表示方法。最好的表达方法是BM25-TF-RF。因此,我们在此问题上应用了此模型。表中提供了FPKM和VCF数据集的LR实验结果2

表2基因表达和VCF数据的机器学习实验测试结果

FPKM DataSet中的功能数量是VCF数据集的四倍。尽管额外的成本这些功能对于分类模型而导致,但该数据集可以提高性能指标。FPKM数据集的准确性结果为99.46而它是93。70VCF数据集。FPKM DataSet的F分数结果也为99.46而它是93。62VCF数据集。当我们考虑FPR和MCC结果时,两个数据集之间的差异更清楚地观察到。FPKM数据集的FPR值为0.40而它是3.60VCF数据集。FPKM数据集的MCC结果为99.09而这是89.31VCF数据集。根据这些结果,我们将利用FPKM文件进行进一步的实验。

基因选择结果

所有基因的使用导致分类任务的良好结果。但它也提高了计算成本。因此,我们应用了许多基因选择方法,以便创建基于FPKM的数据集。使用这些数据集的LR实验结果显示在表中3.

表3基因表达数据的机器学习实验测试结果

当我们应用带有10,000个特征的SelectKBest时,精确度和f-score值略微增加到99.57与所有功能相比。但当我们使用相同的特征选择方法,但特征较少时,分类性能随着特征数量的减少而下降。mRMR算法得到的结果不太准确,准确率和f-score值为98.98有5,000个功能。与SelectCelbest相比相反的趋势,浮雕导致具有更少的特征来改善分类性能。准确性和F分数为99.46通过浮雕方法实现,具有1,000个特征。当我们比较这三个特征选择算法时,具有10,000个功能的SelectSkbest优于其他两种方法。

我们采用了另一种特征选择方法,以进一步减少特征计数。当我们考虑我们的特征列表中所有贺曼基因集的组合时,实验结果显示,使用SelectKBest的10000可以达到类似的性能。但是功能的数量还不到一半。

Hallmark Gene集是已知的并且现在使用多年。它们依赖于先前治疗的基因集。我们进一步尝试创建一个只取决于数据本身的基因选择方法。因此,我们从我们以前的研究中选择了三种癌症类型的最有效基因,从而雇用了VCF文件。通过该方法,将突变中隐藏的信息转移到基因表达数据。当我们为每种癌症类型选择3,000个基因并利用它们的联合时,所产生的数据集会导致与Hallmark Gene集分类相似的性能。当我们为每种癌症类型选择3,500个基因并使用它们的联合时,性能结果略有改善。由此产生的准确性和F分数为99.68MCC值为99.46.FPR也略有下降,为0.24.根据这些结果,当调整最有效基因的数量时,所提出的基于VCF的基因选择方法导致相似或改善的性能。由于疾病是由DNA中的突变引起的,使用这些突变是合理的,以选择有效基因并进一步分析它们的表达水平。我们的实验结果支持这个想法。

可以在图2中更详细地观察F分数值和特征计数的比较。1.f-score值在99.5以上的方法是最有效的.这些是使用10,000个功能,符号和基于VCF的方法选择的。尽管基于VCF的基因选择方法具有3,500个基因的基因选择方法不提供最小特征计数,但与本研究中最成功的方法相比,F分数产生略有改善。

图1
图1

F分和特征计数实验结果比较

结论

DNA改变细胞行为和引起基因组疾病。结果发生了不同的突变分布。除了存在基因突变之外,还可以通过基因的表达水平分析其效果。在这项研究中,我们提供了突变基因存在和表达水平信息的联合,并提出了一种新的基因选择方法。我们利用DNA中的突变信息来选择基因表达数据中的相关基因。

根据我们之前的研究[16.[我们选择了表达数据中的基因特征,借助于每个癌症类型的最有效的基因突变。通过这种方法,变体调用文件中的有价值的信息被传送并与不同的基因组数据类型一起使用。尽管该研究的样本数量非常有限,但是这种新的基因选择方法与经典特征选择方法相比,与SelectKbest,MRMR,浮雕和策序基因作为标志相比,相似且略微改善的分类结果。所提出的特征选择方法特异于目标疾病,因为相应地决定了有效基因。因此,该系统可以适应和应用于任何基因组疾病或特征。

可用性数据和材料

本研究中使用的数据由Camda 2019 Hi-Res癌症数据集成挑战提供[18.].

缩写

BM25-tf-rf:

输入表示模型

CAMDA:

海量数据分析的关键评估

FPKM:

每千碱基100万个碎片

FPR:

假阳性率

特点:

分子特征数据库贺曼基因集合的收集

LR:

物流回归

MCC:

Matthews相关系数

mRMR:

最小冗余最大相关性

宽慰:

一种特征选择方法

ROC-AUC:

接收机工作曲线下的面积

SelectKbest:

来自Phyton Scikit-Learn Library的特征选择方法

TCGA:

癌症基因组图谱

VCF:

变体电话格式

Weka:

一种机器学习工具

参考文献

  1. 1

    国家癌症研究所。https://www.cancer.gov.

  2. 2

    美国癌症治疗中心(CTCA)的基因和基因组检测。https://www.cancercenter.com/diagnosing-cancer/genetic-and-genomic-testing

  3. 3.

    Alexandrov L,Kim J,Haradhvala N,Huang M,NG A,Wu Y,Boot A,Covington K,Gordenin D,Bergstrom E,Islam S,López-bigas n,Klimczak L,Mcpherson J,Morganella S,Sabarinathan R,Wheeler D,Mustonen V,等人。人类癌症中突变签名的曲目。自然。2020;578:94-101。

    中科院文章谷歌学术

  4. 4.

    Rheinbay E,Nielsen M,Abascal F,Wala J,Shapira O,Tiao G,HornshøjH,Hess J,Juul R,Lin Z,et al.Analyses在2,658名癌症全基因组中的非编码体制司机。自然。2020;578:102-11。

    中科院文章谷歌学术

  5. 5.

    普利斯特里P,大J, Lolkema M, Steeghs N, de Bruijn E,页岩C, Duyvesteyn K, Haidari年代,van Hoeck, Onstenk W, Roepman P,视频点播,Bloemendal H, Tjan-Heijnen V, van Herpen C, Labots M, Witteveen P, Smit E, Sleijfer年代,奥地利E, Cuppen大肠Pan-cancer全基因组分析转移固体肿瘤。大自然。2019;575:210-6。

    中科院文章谷歌学术

  6. 6.

    Nguyen D,rocke D.通过与基因表达谱的局部最小二乘性的多级癌症分类。生物形象。2002;18:1216-26。

    中科院文章谷歌学术

  7. 7.

    基于集成机器学习的癌症分类研究。: Bioinforma。2003;2:75 - 83。

    谷歌学术

  8. 8.

    Statnikov A,Wang L,Aliferis C.全面比较了基于微阵列的癌症分类的随机森林和支持向量机。BMC Bioinforma。2008;9:319。

    文章谷歌学术

  9. 9.

    关键词:肿瘤基因表达数据,深度学习,样本扩展,深度学习Oncotarget。2017;8:109646-60。

    文章谷歌学术

  10. 10.

    萧y,wub j,linc z,zhao x。基于深度学习的多模型集合方法用于癌症预测。elestwier计算方法Prog Biomed。2018;153:1-9。

    文章谷歌学术

  11. 11.

    Wang Y,Miller D,Clarke R.在高维数据空间中工作的方法:基因表达微阵列。br j acc。2008;98:1023-8。

    中科院文章谷歌学术

  12. 12.

    王Z。使用基因表达数据进行多级铰接方法和应用于癌症类型的分类。方法INF MED。2012;51:162-7。

    中科院文章谷歌学术

  13. 13.

    关键词:肿瘤分类,基因选择,信息增益,支持向量机Elsevier基因组蛋白质组学。2017;15:389 - 95。

    文章谷歌学术

  14. 14.

    梁y,刘c,栾x-z,梁k-s,chan t-m,xu z,张h。稀疏的逻辑回归L.1/2癌症分类中基因选择的惩罚。BMC生物信息学。2012;14:198。

    文章谷歌学术

  15. 15.

    杨Z-y,梁y,张h,柴h,张b,彭c。强大的稀疏逻辑回归L.问:(0 <问:<1)使用基因表达数据的特征选择正常化。IEEE访问。2018;6:68586-95。

    文章谷歌学术

  16. 16.

    şi̇mşekn,Özgüra,gürgenf.基因组数据中的突变信息的统计表示模型。BMC Bioinforma。2019年;20:324。

    文章谷歌学术

  17. 17.

    VCF规范。2017。https://samtools.github.io/htsspecs/vcfv4.2.pdf.

  18. 18.

    Camda 2019 Hi-Res CancerData Integration Challenge。http://camda2019.camda.info

  19. 19.

    癌症基因组图谱。https://cancergenome.nih.gov.

  20. 20.

    Pedregosa f,Varoquaux g,gramfort a,michel v,ripion b,grisel o,blondel m,prettenhofer p,weiss r,dubourg v,vanderplas j,passos a,cournavea d,brucher m,perrot m,duchesnay e。scikit-学习:Python的机器学习。J Mach Learn Res。2011;12:2825-30。

    谷歌学术

  21. 21.

    PENG H,LONG F,DING C.特征选择基于MAX依赖性,最大相关性和最小冗余的相互信息标准。IEEE Trans Pattern Ang Mach Intell。2005;27:1226-38。

    文章谷歌学术

  22. 22.

    Kira K,Rendell L.一种特色选择的实用方法。Mach学习Proc。1992年;:249-56。

  23. 23.

    关键词:数据挖掘,机器学习,数据挖掘,机器学习摩根Kaufmann;2016.

  24. 24.

    Liberzon A,Birger C,Thorvaldsdóttirh,Ghandi M,Mesirov J,Tamayo P.分子签名数据库(MSIGDB)Hallmark Gene集合集合。细胞系统。2015;16:417-25。

    文章谷歌学术

下载参考

致谢

这项工作得到了Bogazici University Research基金赠款号码13242的支持。我们要感谢Olcay TanerYıldız,TungaGüngör对我们的学习提供了宝贵的时间和评论。我们进一步感谢Camda 2019委员会。

资金

这项研究得到了波高动大学研究基金补助金额13242的支持。资金机构在研究和收集,分析和诠释的设计中没有发挥任何作用以及编写稿件。

作者信息

从属关系

作者

贡献

noos:设计和实现算法,评估结果并起草稿件。AO:算法设计,评估结果并起草稿件。FG:评估结果。所有作者阅读并认可的终稿。

相应的作者

对应到Arzucan OZGURFikret GURGEN

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意

伟德 下载 官方Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料包括在文章的创作共用许可中,除非在材料的信用线中另有说明。如果材料没有包含在文章的创作共用许可证中,而您的预期使用不被法律法规允许或超过允许的使用,您将需要直接获得版权持有人的许可。如欲浏览本许可证的副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信用额度中另有说明。

再版和权限

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

OZCANŞİMŞEK,当然那ÖZGÜR, A. & GÜRGEN, F. A novel gene selection method for gene expression data for the task of cancer type classification.杂志直接16,7(2021)。https://doi.org/10.1186/s13062-020-00290-3

下载引用

关键词

  • 疾病分类
  • 癌症研究
  • 基因表达
  • DNA突变
  • 基因加权
  • 信息检索
  • 机器学习