
杜建
北京大学医学知识计算课题组(Computable Biomedical Knowledge Lab)PI
职称:长聘副教授、研究员
办公地点:北京大学医学部医学科技楼西楼5层
邮箱:dujian@bjmu.edu.cn
个人简介
南京大学管理学(信息资源管理)博士。曾任职于北京协和医学院医学信息研究所,2019年11月入职北京大学医学部。近5年,主持科技部重点研发计划青年科学家项目、国家自然科学基金面上项目等。以第一/通讯作者在Nature Biotechnology、Nature Communications、JAMA Network Open、Journal of the American Medical Informatics Association等发表SCI论文50余篇。任 Nature 数据科学子刊Scientific Data编委,担任 Health Data Science,BMC Medical Informatics and Decision Making编委。担任中华医学会医学信息学分会委员、中华预防医学会生物信息学分会委员、中国医院协会医院情报图书专委会常委兼秘书长、中国医院协会健康医疗大数据应用管理专委会常委等。担任人工智能与信息计量学AII Workshop大会(2020-2025)、知识实体抽取与评估EEKE Workshop(2021-2025)、NetSci 2025 Satellite Workshop程序委员会委员、第一届全国高等学校智能医学工程教材专业评审委员会委员等。2017年获中国科学技术情报学会首届青年情报科学家奖,入选中国科协青年人才托举工程。入选信息资源管理领域Top1%高被引学者。
主要研究方向
围绕重大疾病防治循证决策中的核心挑战——包括证据碎片化、因果关系复杂、结论冲突等不确定性问题,开展以医学知识智能计算与治理为目标的方法学研究。通过将非结构化医学文本转化为可计算的知识图谱,系统探索适应循证医学决策范式的不确定性量化方法,涵盖不确定性的表示、测量与管理。
主要研究方向:
医学自然语言处理、知识图谱与重大疾病防治智能循证决策
近期研究焦点:
1. AI for Evidence Synthesis:人工智能赋能证据综合全过程
2. Knowledge Graph-Driven Clinical AI:知识图谱在真实世界数据临床预测、因果推断中的创新应用
代表性科研项目
1. 科技部重点研发计划青年科学家项目,2022YFF0712000,从生物医学和流行病学研究数据中自动生成因果图的系列工具研发,2022.11-2025.10,200万元,主持
2. 国家自然科学基金面上项目,72074006,不确定性科学知识表示与计量的理论、方法与应用研究:以医学为例,2021.1-2024.12,50万元,主持
3. Michigan Medicine-PKUHSC Joint Institute (JI) Award. Using Large Language Models and Biomedical Ontologies for Mobilizing the Construction and Applications of Directed Acyclic Graphs in Observational Health Data Research. 2026.1-2027.12,联合负责人(Co-PI)
4. 海南省重点研发项目. 基于知识图谱的特许药械不良事件因果推断方法研究. 2026.1-2027.12,课题负责人
代表性论文
1. Deng Guanghui, Du Jian*. Construction and Application of Directed Acyclic Graphs in Leading Medical Journals. JAMA Network Open, 2026; 9(1): e2553803
2. Zhao Wenjing, Du Jian*; Mapping the science–technology translational landscape in biomedicine. Nature Biotechnology, 2026, 44(1):31-37.
3. Wang Shuang; Zhang Yang; Gao Ying; He Xin; Deng Guanghui; Du Jian*. Knowledge Graph-Augmented LLMs for Reconstructing Life Course Risk Pathways: A GDM-to-Dementia Case Study. Journal of the American Medical Informatics Association, 2025 Dec 16:ocaf219.
4. Shi Xuanyu, Zhao Wenjing, Chen Ting, Yang Chao, Du Jian*. Evidence triangulator: using large language models to extract and synthesize causal evidence across study designs. Nature Communications. 2025 Aug 9;16(1):7355.
5. He, Zixuan; Yang, Lan; Li, Xiaofan; Du, Jian*. Discrepancies in reported results between trial registries and journal articles for AI clinical research. EClinicalMedicine, 2025, 80: 103066
6. Guo X, Huo J, Dai W, Wang T, Xiao H, Zhao W, Shi X, Wang X, Gao Y, Li Z, Zhan R, Xu W, Du J*, Dong E*. Global rehabilitation research equality index across health conditions during 1990-2019: an alignment analysis between bibliographic and epidemiological data. Science Bulletin, 2025, 70(7):1057-1061.
7. Xie Shiyao, Zhao Wenjing, Deng Guanghui, He Guohua, He Na, Lu Zhenhua, Hu Weihua, Zhao Mingming, Du Jian*. Utilizing ChatGPT as a scientific reasoning engine to differentiate conflicting evidence and summarize challenges in controversial clinical questions. Journal of the American Medical Informatics Association, 2024,31(7):1551-1560.
8. Shi, Xuanyu; Du, Jian*. Constructing a finer-grained representation of clinical trial results from ClinicalTrials.gov. Scientific Data, 2024, 11(1): 41.
9. Wang, Shuang; He, Xin; Du, Jian*. Scientific commentaries are dealing with uncertainty and complexity in science. Information Processing & Management, 2024, 61(4): 103707
10. Li, Xiaoying; Peng, Suyuan; Du, Jian*. Towards medical knowmetrics: representing and computing medical knowledge using semantic predications as the knowledge unit and the uncertainty as the knowledge context. Scientometrics, 2021,126, (7):6225-6251.
完整出版物列表:https://orcid.org/0000-0001-8436-778X
开发系统
1. CBK System是结构化医学知识系统(Computable Biomedical Knowledge System)的简称,是存储、检索和可视化Medline文献数据库中句子层级的三元组的软件工具。该系统由北京大学健康医疗大数据国家研究院医学知识计算实验室开发,定期更新美国国立医学图书馆的Semantic Medline Database(SemMedDB)知识库,提供基于web的医学概念及其关系的检索与下载服务;含路径推断(X-Y-Z)模块,支持头尾概念之间机制路径的发现;含因果图生成模块,支持两个临床变量(或医学概念)之间的混杂变量、中介变量和对撞变量的发现;提供三元组数据集的csv格式下载,支持导入其他图数据库(如Neo4j),开展进一步的图数据科学研究和图挖掘应用。https://cbk.bjmu.edu.cn/
2. 医学自然语言处理系统(Health Nature Language Processing System, HNLP System): https://hnlp.bjmu.edu.cn/
3. 知识图谱转化为有向无环图KG2DAG: Translating Knowledge Graph to Directed Acyclic Graph, https://dag.bjmu.edu.cn/
主讲课程
2020-,《健康数据科学——医学术语体系与文本挖掘》(4学时),博士硕士研究生
2021-,《开放数据获取与医学知识发现》(28学时),博士硕士研究生
2024-,《玩儿转PubMed数据库探索网络医学》(18学时),本科生
2025-,《医学人工智能通识——文本挖掘与大语言模型》(3学时),本科生
2023-,《人工智能与文献挖掘》(20学时),北京大学临床数据科学家继续教育培训系列课程
教学获奖:
2023年度医学部机关直属单位青年教师“科研成果进课堂”教学比赛一等奖、最佳教案奖
北京大学第二十四届青年教师教学基本功比赛(医科类)三等奖
北京大学医学部研究生教学优秀奖
北京大学医学部继续教育教学优秀奖