如何在家里排序你的基因组

2021-06-07 23:33:11

在这篇文章中我＆＃39; ll描述了如何在家里序列序列，唯一的事情。这里描述的协议不一定是做到这一点的最佳方式，但它＆＃39;什么为我工作了最适合。它的设备上有几千美元可以开始，但（低覆盖率）排序本身只需要150美元，几个小时的工作，几乎没有实验室技能。

首先，它有助于解释一些术语：具体地说，特别是，从德诺夫基因组组件中区分定期参考基础组件。

二十年左右，人类基因组在一个完整的人类基因组序列中（实际上将来自几个人类的数据组合）。所有人类均为99.9％+遗传相同，该参考基因组可以用作任何人的模板。最简单的对人类基因组进行序列的方式是产生数百万的短读取（100-300个碱基对）并将它们对准至此。

基于参考的组件的替代方案是DE Novo组件，在这里，通过拼接重叠的测序读取来弄清出基因组序列而不使用该参考。这是更加困难的计算（如果您的读数太短，实际上是不可能的）但是，与参考相比，您可能会看到大的差异。例如，它＆＃39;＆＃39;＆＃39;在参考基因组，所谓的结构变体中没有罕见的基因组中没有常见。

在参考基因组中也存在间隙，特别是在染色体的末端和中间，由于高度重复序列。事实上，由于超长纳米孔读取，第一个全末端的端到端人体染色体。

对于非人类来说，基因组组装通常是DE Novo，因为基因组是小而非重复（细菌），或者没有参考（新序列物种）。

获得人类基因组序列数据的最便宜方式是SNP芯片，如23andme芯片。这些芯片通过测量基因组中的特定预定位置的特定预定位置的变化。我们知道人类基因组通常变化的位置，我们只能检查几十万个职位，看看大部分变化。您还可以准确赋予额外的额外变种，不在芯片上。这是＆＃34;基因分型和＃34;而不是＆＃34;测序＆＃34;是你不要获得一种邻接的序列，CS，GS和TS。SNP芯片的主要缺点是您不能直接测量不在芯片上的变体，因此您将错误地误导，特别是罕见的和新的变种另一方面，感兴趣的特定变体的准确性（例如，隐性疾病变异如囊性纤维化ΔF508）可能高于测序基因组。

短读测序几乎始终使用Illumina序列仪进行，尽管其他短读技术是壮族的。这些机器输出数百万或数十亿个基部读取，您可以与参考人类基因组合.Generally，人们喜欢平均30倍的人类基因组（〜100千兆比宫）的覆盖率，以确保在基因组上的高精度。

虽然您可以读取不存在于SNP芯片上的变体，但这仍然不是完整的基因组：覆盖范围在整个基因组上不等于，因此一些地区可能对呼叫变体具有太低的覆盖率;参考基因组是不完整的;一些结构变种（插入，倒置，重复区域）不能用短读取来检测。

过去几年已经看到单分子长读测序发展成一个必不可少的互补品，有时可靠的Illumina替代品。这两名球员，太平洋生物科学和牛津纳米山（ONT）现在是成熟的技术。这些技术的重要优势是你在极端举例中，在ONT上从数千次到兆字节的读数远超过300bp - 在极端的例子中， - 等程序集装箱很容易。这使得De Novo装配，并且尤其有用，并且尤其有用序列。对于这个原因，长读排序几乎是必不可少的用于测序新物种，特别是高度重复的植物基因组。

听起来很棒！为什么人们仍然使用Illumina那么呢？Illumina的每个基本精度和每基础成本仍然比这些竞争对手更好（虽然Ont＆＃39;母亲正在接近价格）。

ONT过度竞争对手的一个巨大优势在于仪器是一个相当叠加的状态装置，可以读取来自纳米孔的电信号.Since大多数技术都在消耗品和＃34;流动细胞＆＃34;毛孔，仪器可以很小，几乎可以自由购买。

而不是消费＆amp;美元50k-1m在需要服务合同等的复杂机器上，您可以几乎没有地获取订书机大小的碎片序列序列，并且您可以差不多使用它.ONT也做得很好驾驶每个实验的成本下降，尤其是通过释放称为林林的较低输出流动单元适配器.Flongle流动细胞每流动细胞仅花费90美元，并产生100兆比例至＆gt; 1千兆位序列。

（注意，要使这篇文章独处，我从我以前的家庭实验室Blogpost复制了文字。）

eppendorf 5415c从eBay离心为300美元。 DNA提取需要旋转的离心机，可以在＆gt; = 12k rpm，这意味着一个大型实验室级离心机。

迷你离心为45美元，of-Odin.com.They还以125美元的价格出售一个漂亮的10k rpm版本。

两种水浴，例如水浴。这个Anova Sous Vide view am亚马逊99美元。

一个犬群纳米波尔序列。不幸的是，你没有盛会起动包的矿物（1,460美元）。我知道要获得新的唯一方法是占地1,000美元，其中包括一个矿物流动细胞，价值约1000美元。

冰箱没有除霜周期。我以150美元的价格购买了一个小型迷你冰箱，所以我的实验室不会在厨房冰箱里。

无线冰箱温度计。这只是25美元，它的工作很好！它有用的是能够跟踪冰箱或冰箱中的温度。有些冰箱可以感冒足以冻结，这对流动细胞致命。

一个基因脱位检查DNA提取的质量。20岁的机器在eBay上花费了大约150美元的eBay.it＆＃39; SA有用的工具，但确实需要很多样本（我使用200μl）。我更多地写了一点在这里。

测序中的第一步是DNA提取（即，从生物材料中分离DNA）。我使用Zymo Quick-DNA Microprep Plus套件，耗费132美元。＆＃39; 50 Preps，所以有点低于3美元。其他套件在那里，像Neb＆＃39;君主，但这些更难购买（需要PO或商业地址）。

Zymo套件需要＆＃34; 20分钟＆＃34; （它需要我大约40分钟，包括设置）。它非常通用：它可以与＃34;细胞培养，固体组织，唾液和任何生物液体样品＆＃34;这项准备很容易，除蛋白酶K外的所有试剂均只是在室温下储存。他们可以恢复它可以恢复＆gt; 50kb碎片，并且轶事，这是我所看到的最大长度。这是远离梅格萨斯 - 长＆＃34;鲸鱼＆＃ 34; readssome实验室可以实现，但这些准备比较复杂且耗时。总而言之，10kb碎片足够长，足以让大多数用例。

图书馆准备是制备用于测序的DNA的方法，例如通过附着＆＃34;电机蛋白＆＃34;它一次通过孔一底棘轮。快速图书馆准备（Rad-004）是最简单和最快的库准备方法，AT＆amp; Dollar600适用于12项准备（＆amp;美元50 per prep）。

图书馆准备与DNA提取一样困难，并且需要大约30分钟。涉及一些非常低的体积（低至0.5μl，与我的移液器一样低），并且您需要两个水浴温度，但总体而言，它非常简单。

从获取样本到开始测序的总时间可能几乎没有60-90分钟。您可以在较低的读取长度和较低的吞吐量下支付这种便利性。

您可以从ONT / NANOPORE获得的数据量相当多样化。inlumina和纳米泊琳之间的基本差异是纳米孔是单分子测序。纳米孔，每次读数代表横穿孔的单个DNA分子。illumina，读取是来自许多DNA分子的aggeggated信号（这有助于精度）。

所以，纳米孔真的使用你放入的原料。如果有污染物，那么他们可以堵塞毛孔。如果样品中大多是短的DNA片段，你将大多是短的读数。时间，毛孔降级，所以你赢得了从一个月大的流量单元那里得到了一个新的数据。

使用上面的协议，我已经能够从一个林格达到100-200兆比特的数据（每Megabase 1美元！）。可能有一些因素促进这种相对较低的吞吐量：快速套件不起作用更复杂的结扎套件;我没有做大量排序，所以协议肯定会不完全执行;我的流细胞并不总是新鲜。

对于人类样品，100兆比例小于一个0.1倍的基因组，这提出了为什么你想要这样做的公平问题？今天，答案主要是因为你可以。你绝对可以做一些有趣的祖先分析，但是如果没有参考数据库，难以验证。 Gencovealso有几种良好的人口水平使用案例，用于低通测序。

来自林格的下一步是一个全尺寸的犬型流动单元，它在相同的设备上运行并使用相同的协议，但成本为900美元，理论上可以产生高达42千兆比赛的顺序。这将是一个＆＃34;千美元基因组＆＃34;尽管准确性可能低于您想要的诊断目的。一两年，我可能能够在家中产生诊断质量的人类基因组约1000美元。即使是一个体面的de novo集会。

http://blog.booleanbiotech.com/human-genome-at-home.html

证明50岁的排序网络最佳：第1部分

2021-5-6 17:58

神经网络从其执行轨迹的图像中模拟排序算法

2020-12-9 19:42

求职面试的数据结构和算法[电子书]

2020-8-20 14:54

有没有比快速排序和时间排序更快的排序算法？

2020-7-25 23:44

tags users