我的 token 恐惧，被这个 AI 管饱套餐治好了

这一个多月以来密集地使用和评测国内的 AI 产品和模型，我有个超级确定的感受，国产 AI 软件越来越好用了。无论是基座模型，还是应用级别的产品，都有了长足的进步。这样的征兆可以说无处不在。

上周末随手翻看 LMArena 的 Leaderboard 时，我注意到 LMArena 做了今年最大的一次更新：他们发布了新一代大模型编码评估体系——Code Arena。这几乎可以视为编程类模型评测领域的一次标志性事件：

我的 token 恐惧，被这个 AI 管饱套餐治好了

过去用于评测大模型编码能力的“黄金榜单”就是 WebDev Arena。它让开发者在浏览器中观察模型构建真实应用、与输出交互并为表现投票，使评估过程更具参与性与透明度。

升级后的 Code Arena 更厉害了，不仅要检验代码“能否跑起来”，还会评估性能表现、交互自然度与对设计意图的忠实度。更重大的是，它关注的是“编码的动态过程”——在真实开发条件下，捕捉模型的思考、规划与构建全链路。这不是静态基准，而是由 Arena 的真实用户在真实环境中进行的实战评估。

也就是说，Code Arena 评估的不是模型能不能写代码，而是能不能从零到一完成一个真实项目。

在这个新榜单里我看到了谁呢？智谱 GLM-4.6。

我的 token 恐惧，被这个 AI 管饱套餐治好了

看那个 Rank，智谱 GLM-4.6 稳稳处在第一梯队里，全球第五，国内第一，Gemini、Grok、Qwen 等都在它的身后。

这可让我有点震惊，要知道 GLM-4.6 是 9 月份发布的，一个模型版本的迭代周期也就是两三个月，我估计 GLM 都快发下一个版本了，他们的上个版本还能在全球顶级榜单上站到这个位置，这超级了不起。

在编码这件事上，GLM-4.6 已经从“国产平替”，变成全球第一梯队的主力选手。

GLM-4.6 在编程领域到底有多能打？我在他们 9 月刚发布的时候就关注了，社交媒体上大量的案例全是用户的自发传播，小红书、X.com、油管，各种评测展示。最近看到的一个来源是这里：

https://www.youtube.com/watch?v=GuyZspG3-Po

视频博主用的是智谱的 Web 端 https://chat.z.ai，可以直接基于 GLM-4.6 做项目。GLM 的 Agent 模式足够强劲，能自动帮用户从零构建一整个全栈应用。作者一开始就强调，GLM Agent 的体验已经比肩 Lovable、Bolt 等付费 App Builder，但 GLM 是完全免费的。

为了让观众理解它到底有多强，作者用一句超级简单的指令，让 GLM Agent 自动创建了一个 Excel 转 JSON 的在线应用。整个过程从 Next.js 项目初始化、Tailwind 和 ShadCN UI 的界面结构，到 Prisma 的 schema、Supabase 的数据库建表，再到邮箱登录认证、API 路由、前端交互逻辑，所有步骤都由 Agent 自动生成。用户基本不写代码，只是按 Agent 指示在 Supabase 控制台执行 SQL 或复制 key，之后所有文件结构和功能就完整跑起来。

我的 token 恐惧，被这个 AI 管饱套餐治好了

在视频里还能看到，Agent 会自动搭建 UI，列如拖拽上传文件区、JSON 展示区域、按钮、Toast 提示等前端组件；也会生成能直接运行的 API 代码，把 Excel 文件解析成 JSON 并展示。连登录页面和认证流程也都自动创建好，能直接登录并保护页面访问权限。

很显然，GLM-4.6 的 Agent 模式让“用一句话生成一个完整应用”真正变成现实，甚至足以“干掉”大部分收费的 App Builder 工具。

这就是 GLM 4.6 强悍的地方。

实际上 GLM-4.6 可以做的事情是全方位的：全栈项目从零生成：“Vibe Coding”工作流、遗留系统重构助手、实时编程结对（Live Pair Programming），甚至可以进行多模态编程教学：上传一套设计稿生成软件，同步给学生解释每段代码的作用，等等。

我上个月就给墨问的研发团队购买了 GLM Coding Plan，作为创业公司，这把羊毛必须得薅上。日常用了一个月大家的评价还是超级不错的。问答、代码速度和智能程度，都是一流水准。

我的 token 恐惧，被这个 AI 管饱套餐治好了

这是我们研发的日常工作台，最常用的场景之一就是基于之前做好的 code snippet 做代码补全，GLM-4.6 完成的超级出色。是的，墨问后端的主要编程语言是 go。

如果用一句话概括我们使用 GLM-4.6 的体感，就是：它把“写代码”从一件需要切到战斗模式的事情，变成了和记笔记、回消息一样自然的日常动作。

上周参与一个技术论坛，大家聊起编程大模型，许多工程师在 9 月底 GLM-4.6 刚发布的时候，就把 GLM-4.6 接入了自己的工作流里，那时候恰逢 Claude 对中国开发者断供，发生了一次规模性的迁移，目前许多工程师比较稳定的组合拳是：国内场景用 GLM，海外场景用几家闭源大模型，两个世界相互校对、相互兜底。

这次随着 GLM-4.6 登上 Code Arena 全球榜单，他们顺势推出了一个 GLM Coding Plan 活动，把这个国内最强 Coding 模型打包成一份人人都薅得起羊毛：顶级模型 GLM-4.6 加持、完美适配 Claude Code、适配多款编程工具。

智谱的意思是：价格便宜量还足，您就痛快用吧。

我的 token 恐惧，被这个 AI 管饱套餐治好了