2022数字中国创新大赛数字医疗赛道人体细胞类型精确识算法大赛于7月22日结束。该赛事由清华大学李衍达院士、戴琼海院士、清华大学长庚医院院长董家鸿院士、北京协和医院张抒扬院长与美国科学院院士Wing H. Wong共同发起,由清华大学数基生命交叉创新群体首席科学家张学工教授任组委会主席。
近年来蓬勃发展的单细胞RNA测序(scRNA-seq)技术,产生了丰富的单细胞水平基因表达数据,为识别细胞类型提供了高维度的分子特征信息。尽管已有许多计算分析工具,但它们尚都不够成熟,目前用scRNA-seq数据对细胞类型的注释仍然主要依靠人工完成。每个细胞的特征维度高达上万维,如何利用这些高维特征准确推断细胞类型,是一个十分具有挑战性的工作。该赛事征集新的计算机算法,它能基于含有细胞类型标签的scRNA-seq数据设计构建模型,准确地对其它细胞进行分类,并在细胞分类层次树上标注出细胞所属的全部细胞类型。赛事依托数字中国建设峰会和数字中国创新大赛的平台,共吸引了418支队伍485选手前来参赛。
答辩现场
答辩现场
颁奖现场
我院俞容山教授指导的2020级博士生林雅婷,2020级硕士李豪以及2021级硕士生王敏书参加了此次算法大赛。其采用的方法是通过搭建神经网络实现单细胞细胞类型预测。在算法的创新上,首先,团队通过度量学习网络对高维单细胞数据进行降维,使得网络学习到训练样本细胞类型相同与不相同的特征,以适应下游的分类任务。其次,面对训练样本细胞类型数据不均衡问题,团队使用多分类focal loss来优化分类器。再者,依照细胞分类层次树构建渐进式网络,使得在粗粒度细胞类型提取到的特征能够传递到细粒度细胞类型预测任务中,以适应于具体的层次分类问题,避免层次错分。同时,团队使用分布式并行训练,以缩短训练时长。最终团队取得了三等奖的好成绩。