
北大化院 174 名本科生与 GPT、Gemini 等顶尖 AI 同场考化学!500 道硬核试题揭穿 AI “背书式答题” 真相,人类与 AI 的科学推理对决结果超意外。
当AI能写论文、解难题,人类的核心竞争力还剩什么?近期北京大学化学与分子工程学院的一场特殊期中考,给出了震撼答案——174名大二学子与全球顶尖AI模型同台竞技,用500道高难度化学题,丈量AI与人类的科学推理边界,这场“人机大战”的结果让无数人直呼颠覆认知!
反套路出题:让AI“没题可背”的硬核试卷
“大模型太会‘背书’了,普通试题根本考不出真实水平!”团队成员的一句话点出关键。为了避免AI依赖训练数据“作弊”,近百名北大师生——包括3位国际化学奥赛获奖者、64位全国化学奥赛决赛获奖者——耗时许久打造了SUPERChem题库。
500道题目均来自高难度试题和前沿文献改编,涵盖晶体结构解析、反应机理推演、物化性质计算等硬核内容,每道题都要历经初稿、解析、初审、终审多轮打磨,部分题目甚至迭代15个版本才最终定稿,就是要逼AI靠真推理而非死记硬背答题。
人机PK现场:人类凭直觉赢下关键一局
考试结果揭晓的瞬间,既在意料之外又在情理之中。参与测试的北大学子平均准确率达40.3%,这个看似不高的分数,恰恰印证了试题的超高难度。而GPT、Gemini等顶尖AI的表现却略显“拉胯”,成绩仅与低年级本科生平均水平相当。更让人意外的是,当题目引入分子结构、反应机理图等视觉信息时,部分AI的准确率不升反降,暴露了视觉转语义的明显短板。
即便AI选对答案,解题步骤也常经不起推敲,在产物结构预测、反应机理识别等高阶任务中,推理链条频频断裂,显然还没真正“读懂”化学。
出题像闯关:学术共创玩出新花样
打造这套“魔鬼题库”的过程,被北大师生玩成了“升级游戏”。团队搭建专属协作平台,将出题、审题、修题变成循序渐进的“通关流程”,还引入积分激励机制,每个环节都有不同同学把关,完成任务就能获得相应积分。
严谨的学术探讨变成了互相“找茬”的思维碰撞,会议室里的灵感火花不断闪现,最终沉淀出这套含金量极高的基准测试。这种将枯燥学术任务趣味化的方式,既保证了题库质量,也让参与师生收获满满。
开源共享:不止是对决更是共同进步
这场特殊考试绝非为了“贬低AI”,而是为了给行业树立清晰路标。SUPERChem项目已全面开源,团队希望这套北大“试卷”能成为全球科研界的公共财富,推动AI从“记住知识”向“理解物理世界”跨越。从通用聊天机器人到专业化学助手,AI还有很长的路要走。而人类在复杂科学直觉、逻辑推演上的独特优势,也让我们看到:AI不是替代者,而是能推动人类不断突破自我的“好对手”。
这场北大学子与AI的化学对决,不仅测出了人机各自的长短板,更让我们明白:真正的核心竞争力,从来不是死记硬背的知识,而是深度理解、逻辑推理和创新思维。当AI越来越强大,人类唯有守住这些独特优势,才能在科技浪潮中始终立于不败之地。


