DNA数据库:新方法从数周削减索引,搜索分钟

2021-06-30 04:16:36

赖斯大学计算机科学家正在派遣兰博,以拯救有时等待几天或几周的基因组研究人员,以获得巨大的DNA数据库的搜索结果。 DNA测序是如此流行的,基因组数据集每两年倍增一次,以及数据哈比的工具' T保持速度。将DNA与基因组或研究生物体的演变相比,如病毒的进化,导致Covid-19通常等待的软件,以索引大量的软件," Metagenomic"数据库每月更大,现在在Petabytes中衡量。

rambo,这是&#34的短暂;重复和合并的盛开过滤器,"是一种新的方法,可以将这些数据库的索引时间从几周到几小时搜索到几小时到秒。赖斯大学计算机科学家上周在计算机械数据科学会议Sigmod 2021的协会中展示了Rambo。

"询问数百万与传统方法的DNA序列可以在大型计算集群上需要几个小时,并且可以在单个服务器上需要几周,而#34;瑞培共同创造者Todd Treangen表示,一位米计算机科学家,其实验室专门从事Metagenomics。 "减少数据库索引时间,除查询时间外,对于基因组数据库的大小继续以令人难以置信的步伐进行成长而令人遗憾。"

为了解决问题,与米计算机科学家Anshumali Shrivastava合作,专门从事制作大数据和机器学习更快,更可扩展的算法,以及Gaurav Gupta和Minghao Yan,同行评审的会议的共同领导者关于rambo的纸。

Rambo使用的数据结构比最先进的基因组分度方法以及其他优点相同,更加易于并行化,零假阴性率和低假阳性率。

" rambo的搜索时间比现有方法快35倍,#34;古普塔,电气电脑工程博士生。在使用微生物基因组的170达格拉布特数据集的实验中,Gupta表示,rambo减少了"在一个复杂的,专用集群上六周减少了六周的分享商品集群。"

闫济慈的科学博士学位,说,"在这个巨大的档案中,rambo可以使用100台机器的标准服务器搜索几毫秒的基因序列,甚至是子毫秒。"

rambo提高了盛开过滤器的性能,半世纪历史的搜索技术,这些技术已经应用于许多先前研究中的基因组序列搜索。 Rambo通过使用称为&#34的计数素描的概率数据结构来提高更早的绽放过滤方法,该方法是&#34的概要素描;导致更好的查询时间和内存折衷"比早期的方法,和#34;通过实现非常强大,低记忆和超快索引数据结构,&#34击败当前基线;作者在研究中写道。

Gupta和Yan表示,Rambo通过将几乎任何实验室迅速且价格低廉的基因组档案馆与现成的计算机一起搜索巨大的基因组档案,可以使基因组搜索民主化。

" rambo可以减少生物信息学中的吨调查的等待时间,例如在全球的废水梅泰群中寻找SARS-COV-2的存在;严说。 " rambo可能会在癌症基因组学和细菌基因组进化的研究中成为乐器。"更多信息:Gaurav Gupta等,通过重复和合并的盛开过滤器(rambo),2021年数据管理会议的诉讼程序进行快速处理和查询170TB的基因组学数据,数据管理数据会议(2021年)。 DOI:10.1145 / 3448016.3457333

引用:DNA数据库:新方法从数周到几小时削减索引,搜索分钟(2021,6月28日)从https://techxplore.com/news/2021-06-dna-databases-method-indexing - 周.html.

本文件受版权保护。除了私人学习或研究目的的任何公平交易外,没有书面许可,没有任何部分。内容仅供参考。