ChatGPT 刚出来的时候,还不支持多模态,但可以输出 SVG。当时我试了一下,要求 ChatGPT 绘制简单的几何图形是没问题的,但画稍微复杂的东西就会很离谱。图一就是当时让 ChatGPT(GPT-3.5)画的哆啦 A 梦——很难说是什么东西。
这也可以理解,大语言模型是用文本训练出来的,可以理解为一个生下来就被关在一间屋子里,虽然阅读了世界上所有的文字,但除文字之外什么都没见过的人。他虽然读到过关于哆啦 A 梦的描述,但要让他画出来,那肯离谱。
从这之后“用 SVG 画一个哆啦 A 梦”就成为了我评价各家 AI 的测试项目之一。图二是 GPT-5.3,图三是 Gemini 2.5 Pro,图四是 Gemini 3.1 Pro Preview,图五是 Claude-Opus-4.6,图六是 Gemini 3 Flash Preview。