前两天有个朋友尝试用AI做架构图,说效果很拉胯,前段时间被GPT Image 2的炸裂效果刷屏,正好今天实测一波。
主题是生成一张“Hermes Agent vs OpenClaw 总体架构差异”的技术对比图。
选了几款国内外生图领域的代表选手:ChatGPT(Image 2)、Gemini思考模式(Pro模式太拥挤被自动降级了)、即梦Seedream 5.0 lite、通义万相2.7 Pro
第一轮:基础提示词
即梦:图片最简单,而且有明显奇怪的文字,效果比较糙。(下面这张是四张里效果最好的)

通义万相:文字处理比即梦稍好一些,但整体美观度一般,内容提炼不够,看着也很乱。

Gemini:效果挺不错,内容简洁清晰,较前面两个明显上了个档次。(思考模式出的图,由于Pro模式太拥挤被降级了,所以没能看到Pro的效果,但降级的效果都已经碾压即梦和万相了)

GPT Image2:的确 很强,整体质感明显领先。

怎么样?效果是不是很明显,提示词是完全一样的。
第二轮:提示词扩展到4000字
由于第一版提示词比较基础,对于架构差异的表述没有太深入,所以第二轮把提示词做了扩展,加入更详细的对比内容。
即梦:超字数,直接无法生成。(结合第一轮的情况,也就没报多大希望,所以直接放弃了)
Gemini:Pro额度缘由,这次没能跑起来。
通义:能生成,但内容提炼和最终效果明显差一截。

GPT Image2:提示词越详细,输出越详细,质量依然最稳,而且内容提炼总结得也很不错。

写作最后
效果很明显:ChatGPT > Gemini > 通义万相 > 即梦
(这个结果仅代表架构图这个场景,我在其他生图场景中,同样的提示词,有时候能明显感觉即梦会比万相好)
但是ChatGPT和Gemini都需要科学上网,国内用户不太友善。
不过对于这种结构性的内容,还有个更实用的替代方案:用AI直接生成静态网页。WorkBuddy这些龙虾类智能体工具都能轻松做到,代码直接输出,结构清晰还不会画歪。
不过如果想在一个固定尺寸里展示,提示词上可能得多调调。
下面是我用WorkBuddy参照前面两轮提示词的内容做的静态页面截图效果。







