本站讯(记者 柏东鹏)近日,我院张子龙副教授团队学生在中科院大类一区期刊BMC Biology上发表最新研究论文,题目为“msBERT-Promoter: A multi-scale ensemble predictor based on BERT pre-trained model for the two-stage prediction of DNA promoters and their strengths”。该论文的第一作者为数学与统计スマホ ビンゴ2021级本科生李亚子,通讯作者为计算机スマホ ビンゴ张子龙副教授和崔菲菲副教授,第二、第三作者分别为计算机スマホ ビンゴ2023级本科生韦小满、杨青霖等。
据悉,在学校学科交叉的背景下,该团队结合学科优势、从专业兴趣出发创建了BioAi -Lab课题组,该论文更是以计算机、数学、生物的学科交叉方式提出了一种新的计算模型msBERT-Promoter用于启动子及其强度预测。该模型利用预训练大模型DNABERT提取多尺度序列特征,并采用软投票集成策略融合不同集学习器,通过两阶段微调来促进模型对更深层次序列信息的理解,最终在启动子识别和启动子强度预测两项任务中均取得了最先进的性能,并通过注意力分析和t-SNE降维等来增强模型的可解释性。
图一 提出的msBERT-Promoter模型框架示意图
图二 注意力机制分析
图三 t-SNE降维可视化