虽然机器学习方法在基因组研究中的重要性近年来稳步增长,但研究人员经常不得不求助于使用过时的软件。临床研究中的科学家通常无法访问最新的模型。这将随着新的免费开放存取库而改变:Kipoi可以在基因组研究领域轻松交换机器学习模型。该库由TUM的计算生物学助理教授Julien Gagneur与剑桥大学,斯坦福大学,欧洲生物信息学研究所(EMBL-EBI)和欧洲分子生物学实验室(EMBL)的研究人员合作创建。
“Kipoi特别之处在于它可以免费访问已经过培训的机器学习模型,”Julien Gagneur说。“我们在Kipoi所做的不仅仅是共享数据和软件,而是共享已经针对最相关数据进行过培训的模型和算法。这些模型已经可以使用,因为将这些模型应用于数据的繁琐工作已经存在已完成,“斯坦福大学助理教授安舒尔昆达杰说。目前,Kipoi可以免费获得2,000多种训练模型。在最近发表在Nature Biotechnology上的一项研究中,研究人员表明,新的储存库将加速基因组学界的交流,从而促进基因组研究。
算法快速,操作简便
由于Kipoi简化了对已经训练的模型的访问,因此研究人员可以执行转移学习。这意味着已经使用特定数据集训练的模型能够更快地学习类似的任务。Kipoi还简化了将数据输入存储在那里的模型的过程:标准化的文件格式和软件框架将模型的安装和执行减少到三个简单的命令。那些以前没有机器学习经验的人也可以轻松使用存储库。
了解个体基因组
由于Kipoi面向连接基因型和表型的模型,新平台将更容易识别疾病的遗传原因:“Kipoi将最新的深度学习模型应用于临床研究人员的大量基因组学数据,”Julien Gagneur说。 。“这为理解个体基因组提供了非常令人兴奋的机会,例如,查明导致疾病的遗传变异或解释肿瘤中发生的突变。”
然而,平台对基因组研究的贡献程度也将取决于基因组学界。“我们希望未来更多的研究人员能将他们的模型带到我们的存储库中,”EMBL-EBI团队负责人Oliver Stegle说。“这是我们能够进行基因组学分析的唯一途径,并且最终可以为基因组学界提供更广泛的预测性机器学习工具。”