(9.11和9.9哪个大 ... 于是,X上大伙儿都开始各种测试,发现不仅ChatGPT 4o不行,谷歌Gemini Advanced、Claude 3.5 Sonnet这些SOTA模型王者在这题上都翻车 ...