用机器学习对免疫系统的语言进行建模(第一步)

2020-07-20 02:28:29

个体的全套抗体和免疫受体包含过去和当前免疫反应的痕迹。这些痕迹可以作为适应性免疫系统介导的疾病(如传染病、器官排斥、自身免疫性疾病、癌症)的生物标志物。只有少数可以从患者身上测序的免疫受体预计会包含这些痕迹。在这里,我们给出一种解释这些痕迹的方法的源代码。

首先,从患者的每个抗体序列中解析CDR3(参见VDJ服务器)。然后,CDR3被切割成定长的子序列,我们称之为片段。这些不过是CDR3的k-MERS。然后,使用Atchley因子以位置依赖的方式通过它们的生化特性来描述每个片段的氨基酸残基。

其主要思想是根据每个片段的生化特征和检测器功能对其进行评分,并将评分聚合为可以代表诊断的单个值。因为只有一小部分片段在疾病患者中预期得分较高,所以我们通过取最高分数将分数聚合在一起。然后,最高分被用来预测患者被诊断为阳性的概率(高分意味着阳性诊断,没有高分则意味着阴性诊断)。通过最大化每个诊断正确的对数似然(最小化交叉熵误差)来拟合检测器函数的参数。

利用基于梯度的优化技术将模型拟合到训练数据中。首先,为每个参数随机抽取初始值。然后,使用2500个基于梯度的优化步骤来找到数据的局部最优拟合。我们发现拟合过程必须重复数十万次才能找到与训练数据很好的拟合。使用TensorFlow,拟合过程在GPU上并行重复运行。我们将每个线程称为副本,然后对最适合训练数据的副本对未见数据和未使用的数据进行评分。(#34;Replica";Replica)。

Dataplobing_syntheal_data.py(使用此文件覆盖datapluming.py以查看模型在合成数据上的执行情况)