174名北大学子对决AI！化学考试分出胜负

2025-12-27 07:50:27 发布

北大化院 174 名本科生与 GPT、Gemini 等顶尖 AI 同场考化学！500 道硬核试题揭穿 AI “背书式答题” 真相，人类与 AI 的科学推理对决结果超意外。

当AI能写论文、解难题，人类的核心竞争力还剩什么？近期北京大学化学与分子工程学院的一场特殊期中考，给出了震撼答案——174名大二学子与全球顶尖AI模型同台竞技，用500道高难度化学题，丈量AI与人类的科学推理边界，这场“人机大战”的结果让无数人直呼颠覆认知！

反套路出题：让AI“没题可背”的硬核试卷

“大模型太会‘背书’了，普通试题根本考不出真实水平！”团队成员的一句话点出关键。为了避免AI依赖训练数据“作弊”，近百名北大师生——包括3位国际化学奥赛获奖者、64位全国化学奥赛决赛获奖者——耗时许久打造了SUPERChem题库。
500道题目均来自高难度试题和前沿文献改编，涵盖晶体结构解析、反应机理推演、物化性质计算等硬核内容，每道题都要历经初稿、解析、初审、终审多轮打磨，部分题目甚至迭代15个版本才最终定稿，就是要逼AI靠真推理而非死记硬背答题。

人机PK现场：人类凭直觉赢下关键一局

考试结果揭晓的瞬间，既在意料之外又在情理之中。参与测试的北大学子平均准确率达40.3%，这个看似不高的分数，恰恰印证了试题的超高难度。而GPT、Gemini等顶尖AI的表现却略显“拉胯”，成绩仅与低年级本科生平均水平相当。更让人意外的是，当题目引入分子结构、反应机理图等视觉信息时，部分AI的准确率不升反降，暴露了视觉转语义的明显短板。
即便AI选对答案，解题步骤也常经不起推敲，在产物结构预测、反应机理识别等高阶任务中，推理链条频频断裂，显然还没真正“读懂”化学。

出题像闯关：学术共创玩出新花样

打造这套“魔鬼题库”的过程，被北大师生玩成了“升级游戏”。团队搭建专属协作平台，将出题、审题、修题变成循序渐进的“通关流程”，还引入积分激励机制，每个环节都有不同同学把关，完成任务就能获得相应积分。
严谨的学术探讨变成了互相“找茬”的思维碰撞，会议室里的灵感火花不断闪现，最终沉淀出这套含金量极高的基准测试。这种将枯燥学术任务趣味化的方式，既保证了题库质量，也让参与师生收获满满。

开源共享：不止是对决更是共同进步

这场特殊考试绝非为了“贬低AI”，而是为了给行业树立清晰路标。SUPERChem项目已全面开源，团队希望这套北大“试卷”能成为全球科研界的公共财富，推动AI从“记住知识”向“理解物理世界”跨越。从通用聊天机器人到专业化学助手，AI还有很长的路要走。而人类在复杂科学直觉、逻辑推演上的独特优势，也让我们看到：AI不是替代者，而是能推动人类不断突破自我的“好对手”。

这场北大学子与AI的化学对决，不仅测出了人机各自的长短板，更让我们明白：真正的核心竞争力，从来不是死记硬背的知识，而是深度理解、逻辑推理和创新思维。当AI越来越强大，人类唯有守住这些独特优势，才能在科技浪潮中始终立于不败之地。

热榜 174名北大学生迎特殊考试:对决AI 北大学生 AI 对决考试 SUPERChem 化学推理大模型测试