生物信息学

生物信息学

概述

提供旨在帮助改进复杂序列数据分析的工具和资源。

生物信息学——一种使用复杂算法分析复杂生物数据的工具——对于理解可以从下一代测序(NGS)等技术中获得的大量数据至关重要。NGS技术的进步促进了更深层次的基因组测序和更高的基因组覆盖范围,并产生了以前只能想象的高质量数据。因此,开发强大的信息学软件和算法是非常必要的,它可以推动基因组科学的边界来解释这些数据,以精确地调用突变,如单核苷酸变异(SNVs),插入/删除(indels)和结构变异(SVs),并能够利用这些知识来开发未来个性化医疗的精确治疗计划。罗氏测序解决方案已经编写了多种算法,如MetaSV和SomaticSeq,以提高调用变体的准确性,并开发了资源,如VarSim和LongISLND,以促进新兴算法的基准测试。

  • LongISLND一个平台不可知的、精确的模拟器,用于使用上下文相关的错误剖面来模拟单分子技术。
  • VarSim用于癌症应用的高通量基因组测序的高保真模拟和验证框架。
  • MetaSV一种面向NGS的精确、综合的结构变型调用器。
  • SomaticSeq精确检测体细胞突变的集成方法。
  • HuRef变体黄金套装利用文特尔基因组对变量调用者进行基准测试的一组全面的变量。

LongISLND

在投入资源进行单分子测序(SMS)实验之前,首先可以快速构建一个实验过程和生物信息学工具的协同对原型。一个多功能和现实的SMS读取模拟器可以支持这样的原型,但还没有可用。目前可用的软件,如PBSIM和Alchemy,生成的数据格式与下游分析工具的可移植性或兼容性有限。1更重要的是,现有的模拟器假设理想的误差特征,可能无法从从化学到信号处理的广泛的测序机制中捕获真实的误差特征。2LongISLND是一个适应这种机制的软件包,根据各种第三代SMS技术的经验特征来模拟测序数据。

LongISLND使用一种学习和模拟的方法来实现精确和真实的模拟,同时保持平台不可知。该软件通过分析真实数据与真值序列的对齐关系,提取非参数模型。例如,该模型通过测序上下文捕获经验测序误差,如均聚物的长度和碱基标识以及侧翼碱基标识。由此产生的模型是如此的真实,以至于从太平洋生物科学公司(PacBio) RSII测序仪的p5 -到p6化学修订版可以检测到精度和误差偏差的细微而显著的变化(图1a和1b)

然后使用非参数经验模型对感兴趣的测试用例进行模拟。这种逼真的模拟使生物信息学得以快速发展,这解释了经验的测序缺陷,而不仅仅是理想的错误模型。LongISLND是模拟单分子测序和检测测序特征偏差的一个有价值的工具。它可以用于任何第三代短信平台或化学预测特定组合的实验和生物信息学分析的性能。

VarSim

缺乏对真实数据的综合验证框架,促使人们使用模拟作为评价高通量测序二级分析的验证方法。VarSim是一个自动化、开源和全面的框架,它模拟和验证了广泛的变体,用于评估高通量基因组测序中的校准和变体调用精度。3.

VarSim不是模拟随机突变谱,而是将真实实验数据的数据库作为输入,并基于现实模型合成具有种系和体细胞突变的二倍体基因组。通过这样做,它可以利用以前报告的突变等信息,使合成基因组在生物学上具有相关性。合成的基因组然后使用最先进的读模拟生成读。这些读取可以使用考虑中的二次分析进行分析,它们的输出使用VarSim进行验证,以获得其准确性的详细评估。

在验证读取对齐时,VarSim将重点放在与罕见变体对齐的读取上,并使用之前生成的元数据根据变体类型对对齐精度进行分层(图2)。相比之下,传统的集合比较将大多数读取与更广泛的基因组对齐,从而稀释和降低那些与罕见复杂变体对齐的准确性。在验证变量调用时,VarSim根据类型和大小对变量进行分层,以给出变量调用精度的全面视图。

VarSim的基本工作流程在癌症测序分析中也有重要的应用,因为它可以用于模拟肿瘤/正常对和体细胞变异调用者的验证。

MetaSV

结构变异(SVs)是导致基因组多样性和基因组紊乱的大型基因组重排。4由于sv的长度不同,很难准确检测,特别是在分析下一代测序(NGS)产生的相对较短的读数时。

虽然已经开发了几种SV检测工具,但每种工具都仅限于特定类型的SV,精度和分辨率各不相同。为了提高SV检测的准确性,罗氏开发了MetaSV,这是一个集成的SV调用器,可以智能合并来自多个工具的SV;即BreakSeq、Breakdancer、Pindel和CNVnator,生成高质量的SV调用集。5合并之后,MetaSV使用本地汇编,结合对齐,以高精度地解析SV断点(图3)。MetaSV还分析来自对齐的软剪辑读取,以提高插入SV检测的准确性。高质量的sv最终被基因分型并输出为VCF,这是二次分析的标准格式。

MetaSV通过其集成方法显著提高了sv调用的准确性。此外,它的潜力比上述四种工具更大;还可以对它进行调整,以使用附加的甚至不同的工具集。

SomaticSeq

癌症体细胞突变检测的两个主要挑战是肿瘤的异质性和肿瘤与正常样本之间交叉污染的可能性。这些挑战还意味着,虽然体细胞突变检测算法可能对一种肿瘤有效,但对另一种肿瘤可能效果不佳。

SomaticSeq是一个开源的、精确的体细胞突变检测管道,集成了五个最先进的体细胞突变调用程序:MuTect、SomaticSniper、VarScan2、JointSNVMix2和VarDict。6这产生了一个高置信度的体细胞突变调用集的单核苷酸变异和小的索引。

SomaticSeq实现了一种随机增强机器学习算法。通过结合这五种工具的体细胞突变调用,我们可以为每个调用生成多达72个基因组和测序特征。我们使用SomaticSeq训练器基于这些特性创建一个训练过的模型。训练后的模型可用于在具有相似特征的测试数据集中调用高置信度体细胞突变,如可比的测序深度、相同的数据预处理协议等。

SomaticSeq管道已经用DREAM Challenge数据进行了验证(图4),在网上两个基因组的滴定,以及真实的肿瘤数据。

HuRef变体黄金套装

基于高通量测序的精准医疗需要精确的测序算法。这就需要开发高置信度、全面的人类变体集,以准确评估其性能。尽管多次努力生成这样的验证集,并在总体规模上描述复杂的变异,但没有一个变异金集覆盖所有主要的变异类型,包括结构变异(SVs)。

为了解决这个问题,我们利用来自HuRef基因组的大量高质量桑格序列,从一个二倍体男性高加索人基因组中构建了第一个也是最全面的金集。7这与深度Illumina测序、人口数据集和完善的算法进行了交叉验证。

发表的HuRef的变异大部分是在5年前报道的,这需要我们对HuRef基因组进行彻底的再分析和验证,以生成具有高特异性和敏感性的金集。与目前NA12878或HS1011基因组的变异调用集相比,我们的黄金集合是第一个包含小变异、删除sv和插入sv的集合,其数量可达10万个碱基对。7这使得它对变种数和变种类型都是全面的,在很大的尺寸范围内。