AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或 ...
在琳琅满目的技术前沿,直接测评AI的智能程度始终是一个复杂的问题。究竟是让它解数学题、编写代码,抑或是通过标准化考试来进行评测?虽然这些方式在学术上显得相对严谨,但它们常常难以让普通人直观理解AI的能力差异。然而,最近一位高三学生AdiSingh为这个问题提供了一个令人耳目一新的解决方案——通过《我的世界》(Minecraft)评测AI的表现!
在这样的背景下,AdiSingh独辟蹊径,创造了MC-Bench,这一平台以《我的世界》作为测试场景,让不同的AI通过相同的提示生成建筑作品。例如,提示可以是“仿若晶莹剔透的酒杯盛满了深红色的葡萄酒,反射出动人心魄的光彩。”然后,由用户评选这些作品的优劣,最后系统才会揭晓出哪个AI完成了该建筑任务。这种评测不仅更加直观,还能有效反映出AI在实际应用中的能力。
什么值得买社区频道 on MSN5 天
《我的世界》成为AI新「考场」?
如果要衡量 AI 的智能程度,你会怎么做?让它解数学题、写代码,还是让它通过标准化考试?这些方法虽然严谨,但普通人往往难以直观理解 AI 的能力差异 ...
例如,AI 模型在 LSAT 法律考试、数学推理测试等标准化考试中得分很高,但在现实应用中仍然容易犯低级错误。 OpenAI 的 GPT-4 能在美国法学院入学 ...