比赛名称:CAFA 5 Protein Function Prediction
根据蛋白质的氨基酸序列和其他数据进行训练,预测蛋白质的生物学功能。
比赛链接:https://www.kaggle.com/competitions/cafa-5-protein-function-prediction
比赛类型:生物科学、氨基酸序列
比赛背景
蛋白质负责我们组织、器官和身体的许多活动,它们还在细胞的结构和功能中发挥核心作用。蛋白质是由 20 种被称为氨基酸的结构单元组成的大分子。
人体制造数万种不同的蛋白质,每一种蛋白质都是由几十或几百个氨基酸依次连接而成。这种氨基酸序列决定了蛋白质的三维结构和构象动力学,进而决定了其生物学功能。
由于正在进行的基因组测序项目,我们被来自数千种物种的大量基因组序列数据淹没,这些数据告诉我们这些基因编码的蛋白质的氨基酸序列数据。将生物学功能准确分配给蛋白质是在分子水平上理解生命的关键。
比赛任务
这是一个视角的数据竞赛。测试数据中的许多蛋白质目前没有明确任何指定的功能。研究人员在比赛进行期间将发布一些蛋白质将构成未来的测试集,最终排行榜分数将在比赛的策划阶段后计算。
评价指标
组织者提供了一组蛋白质序列,参与者被要求预测三个子本体中的基因本体论 (GO) 术语:分子功能 (MF)、生物过程 (BP) 和细胞成分 (CC)。
https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/overview/evaluation
数据描述
基因本体论(GO) 是一个概念层次结构,它描述了不同抽象级别的基因和基因产物的生物学功能。它是描述蛋白质功能的多面性的一个很好的模型。
对于训练集,我们包括所有带有注释术语的蛋白质,这些术语已通过实验或高通量证据。测试集在比赛开始时是未知的。它将包含来自测试超集的蛋白质序列(及其功能),这些超集在提交截止日期和评估时间之间获得了实验注释。
- train_sequences.fasta - 训练集中蛋白质的氨基酸序列
- train_terms.tsv - 蛋白质训练集和相应的带注释的 GO 术语
- train_taxonomy.tsv - 训练集中蛋白质的分类 ID
- go-basic.obo - 本体图结构
- testsuperset.fasta - 应该进行预测的蛋白质的氨基酸序列
- testsuperset-taxon-list.tsv - 测试超集中蛋白质的分类 ID
- IA.txt - 每个术语的信息积累。这用于衡量精度和召回率(参见评估)
- sample_submission.csv - 格式正确的样本提交文件
比赛赛程
- 2023 年 8 月 14 日 - 报名截止日期。
- 2023 年 8 月 14 日 - 团队合并截止日期
- 2023 年 8 月 21 日 - 提交截止日期。
赛题奖金
- 第一名 - 15,000 美元
- 第二名 - 10,000 美元
- 第三名 - 8,000 美元
- 第四名 - 7,000 美元
- 第五名 - 5,000 美元
- 第六名 - 5,000 美元
解题思路
赛题数据是以序列的方式进行组织,其中蛋白质包含了多个氨基酸序列。因此在建模时,可以考虑使用序列模型。
可以参考已有的蛋白质预测比赛,也可以参考已有的序列分类模型,但应该有Transformer类似结构。
https://www.kaggle.com/code/danofer/cafa-protein-implicit-tfrs-recommender-baseline