近日,"数源杯"百万单细胞基因表达数据算法大赛于8月16日结束。该赛事由深圳国家基因库主办,深圳华大生命科学研究院、深圳市华大基因学院、深圳市猛犸公益基金会协办,鼓励相关领域的研究人员和从业者以国家基因库生命大数据平台(CNGBdb)存储的百万单细胞数据资源为基础,针对“聚类”这一单细胞数据分析的重要步骤,进行单细胞聚类算法的开发和优化,进而打造能够降低内存占用、提升运算速度的优质计算工具。本次大赛吸引了国内外100余家知名高校和近90家企事业单位的专业技术人员参与,包括北京大学、清华大学、波士顿大学、费城儿童医院、中科院计算所、解放军总医院、华为、腾讯、百度、平安科技等。累计提交作品1819个。
参赛选手与评委专家云合影
答辩现场
我院李奇渊教授指导的2018级博士生任君参加了此次算法大赛。其采用的方法是在降采样的基础上做离群点检测,通过建立迭代过程优化KNN图结构,最终对80万单细胞表达数据做了快速有效的聚类,并大大降低了对内存的消耗,任君最终取得了三等奖的好成绩。
厦门大学健康医疗大数据研究院
2021年8月19日