地球与环境 2022-09-11 09:39

Ryan Layer

多年来,研究人员一直试图快速准确地识别导致癌症等遗传疾病的DNA部分。科罗拉多大学博尔德分校(University of Colorado Boulder)的研究人员开发的一种新的软件工具,可以改善这一过程,使癌症患者得到更有针对性的治疗和了解。

“了解癌症需要识别迫使患者健康细胞不受控制地生长的基因变化,”助理教授瑞安·Layer说。“不幸的是,任何特定的肿瘤都有数千个这样的变化,大多数是遗传的,而不是突变的,或者它们根本没有影响。为了识别有问题的变异,我们开发了一种技术,可以快速搜索数千个已知基因组集,以识别只在肿瘤中看到的突变。”

这项工作是计算机科学系和生物前沿研究所的Layer实验室正在进行的研究的一部分,该研究使用算法来破译非常大的基因组数据集。这种被称为STIX的新软件专门研究可能导致癌症的大型结构变异。STIX使用二次分析技术从数千个样本中搜索原始数据,寻找任何支持每种特定肿瘤中存在变异的证据。

《自然方法》(Nature Methods)上的一篇新论文描述了这一过程,旨在快速确定特定的基因序列是常见的还是罕见的,并在这些特定的肿瘤细胞中是否可能导致癌症等疾病。最终目标是为患者提供更有针对性的治疗,基于他们的实际肿瘤序列的发现,与正常组织相比。Layer最终表示,他们希望以一种任何人、任何地方都可以使用的方式提供这些信息。

Layer说:“隐藏在癌症患者肿瘤基因组的某个地方,是编码肿瘤如何开始不受控制生长的指令的突变。”“不幸的是,驱动肿瘤的突变与人类发展和功能的所有其他方面的指令混合在一起,这使得解开它是一项复杂而耗时的任务。”

这篇论文的第一作者、Layer实验室的工作人员Murad Chowdhury说,计算一个序列在健康人群中的出现情况,以帮助确定它是否是导致疾病的突变,这并不是一个新想法。然而,该团队的方法通过包括大型基因突变来扩展理论,这需要一种根本不同的频率估计方法,因为它们更难检测和表征。

乔杜里说,该团队面临的主要挑战是计算——将大型数据集重新组织起来,只需要花一秒钟的时间搜索数据以获得所需的信息。尽管如此,这种方法被证明是一种有效的工具,未来可能会应用于医学以外的领域。

乔杜里说:“我们的技术同时减少了数据存储需求,并提高了查询速度,因此需要数月时间的分析可以更快。”“通过结合机器学习,你基本上可以将这种背景分布用于癌症以外的许多潜在未来应用。”

Layer说,研究人员每年都要做大量的工作来分析和分类肿瘤信息。他的实验室使用这样的工具的最终目标是让投资变得有价值和有用。

他说:“这个工具是为了改善数据的获取,让用户能够迅速获得有用和准确的答案。”“对我们使用这些数据的方式进行了广泛的改进,使我们能够在其他情况下重新使用这些数据,最终你会从你为获得这些数据所花的钱中获得更多的价值。”