零基础也能搞懂AI 智能体

你看，目前到处都是“AI智能体”、“智能体能力”、“智能体工作流”这些词。但大多数解释要么太技术化，要么太基础。这个文章就是给我这样的人看的：你没有任何技术背景，但常常使用AI工具，并且想了解AI智能体，看看它对你有什么影响。

零基础也能搞懂AI 智能体

在这个文章里，我们会遵循一个简单的“1、2、3”学习路径，从你已经理解的概念（列如聊天机器人）开始，然后讲到AI工作流，最后是AI智能体。全程使用你现实生活中真会遇到的实际例子。信任我，那些你到处看到的吓人术语，列如RAG（检索增强生成）或ReAct（推理-行动框架），实则比你想象的要简单得多。让我们开始吧！

第一层：大语言模型 (LLMs)

像ChatGPT、Google Gemini和Claude这样流行的AI聊天机器人，都是构建在大语言模型（LLMs）之上的应用程序。它们超级擅长生成和编辑文本。简单来说：你（人类）提供一个输入，LLM根据其训练数据产生一个输出。

例如，如果我让ChatGPT起草一封请求咖啡聊天的邮件，我的提示（prompt）就是输入，而它生成的那封比现实中我可客气得多的邮件就是输出。到目前为止，很简单，对吧？

但如果我问ChatGPT：“我下一个咖啡聊天是什么时候？”即使不看回答，你我都知道ChatGPT会失败，由于它不知道这个信息——它无法访问我的日历。这突显了大语言模型的两个关键特性：

知识有限：尽管训练数据量巨大，但它们对专有信息（如个人信息或公司内部数据）了解有限。
被动响应：它们等待我们的提示，然后才做出回应。

记住这两点，我们继续。

第二层：AI工作流

零基础也能搞懂AI 智能体

让我们在刚才的例子基础上构建。如果我（人类）告知LLM：“每次我问到个人日程时，先执行一个搜索查询，从我的Google日历获取数据，然后再回答。”

实现了这个逻辑后，下次我问：“我和Elon Husky的咖啡聊天是什么时候？”我就能得到正确答案，由于LLM会先去我的Google日历查找信息。

但问题来了：如果我的下一个跟进问题是“那天的天气会怎样？”LLM目前又回答不了了，由于我们告知它的路径是“总是搜索我的Google日历”，而日历里没有天气信息。

这就是AI工作流的一个根本特性：它们只能遵循人类预设的路径（技术上，这个路径也叫“控制逻辑”）。

再扩展一下我的例子：如果我在工作流中添加更多步骤，允许LLM通过API访问天气，然后（为了好玩）再用文本转语音模型把答案读出来：“与Elon Husky会面当天的天气预报是晴天，有好男孩概率。”

关键点来了：无论我们添加多少步骤，这依旧只是一个AI工作流。即使有成千上万个步骤，只要是人类在做决策，就没有AI智能体的参与。

专业提议：检索增强生成（RAG）是个常被提及的术语。简单说，RAG就是一个协助AI模型在回答前先查找信息的流程（列如查日历或天气服务）。本质上，RAG就是一种AI工作流。（顺便提一句，我有个免费AI工具包，帮你掌握核心AI工具和工作流，链接在下方。）

真实案例：我参考了Helena Louu的精彩教程，用make.com创建了一个简单的AI工作流：

使用Google Sheets：我在一个Google表格里整理新闻文章的链接。
使用Perplexity：让它总结这些新闻文章。
使用Claude：根据我写的提示词，让Claude起草LinkedIn和Instagram帖子。
自动运行：设置每天早上8点自动执行。

你看，这就是个AI工作流，由于它严格遵循我预设的路径：第一步做这个，第二步做那个，第三步做这个，最后每天早上8点运行。

还有一点：如果我测试这个工作流，发现最终生成的LinkedIn帖子不够有趣（列如这里这个，嗯，不够搞笑，而我天生就超搞笑的，对吧？），我就得手动回去重写给Claude的提示词。这种试错迭代目前是由我（人类）完成的。记住这点。

第三层：AI智能体 继续用make.com的例子，分析一下我作为人类决策者一直在做的事情。我的目标是基于新闻文章创建社交媒体帖子，我需要做两件事：

推理/思考：思考最佳方法（先整理文章，再总结，最后写帖子）。
行动：使用工具（在Google Sheets里找链接、用Perplexity实时总结、用Claude写文案）。

最重大的一句话来了：为了让这个AI工作流变成AI智能体，必须发生一个巨大改变——由LLM取代我（人类决策者）的位置。

零基础也能搞懂AI 智能体

换句话说，AI智能体必须能够：

推理：思考最高效的方法（“整理文章链接比复制粘贴全文到Word文档更合理吗？是的。”）。
行动：通过工具做事（“用Excel？用户已经连了Google账户，用Google Sheets更好。”）。
专业提议：正因如此，AI智能体最常见的配置是ReAct框架（Reason + Act，推理+行动）。听起来很简单吧？

AI智能体的第三个关键特性是迭代能力。还记得我要手动重写提示词让帖子更搞笑吗？人类可能需要重复几次才能满意。而AI智能体可以自主完成同样的迭代过程。

在我们的例子中，AI智能体会自主添加另一个LLM来评判自己的输出：“我起草了V1版LinkedIn帖子，怎么确保它好？哦，再加一步，让另一个LLM根据LinkedIn最佳实践来评判它。”然后重复这个过程直到达标，最终输出结果。

真实世界案例：Andrew（AI领域顶尖人物）创建了一个演示网站展示AI智能体如何工作。当我搜索关键词“skier”（滑雪者）时，后台的AI视觉智能体会：

推理：滑雪者看起来什么样？（列如，踩着滑雪板在雪上飞快移动的人？不确定。）
行动：查看视频片段，尝试识别它认为的滑雪者，给片段打上索引标签，然后返回给我们。

虽然这看起来可能不惊艳，但记住：是AI智能体完成了所有这些，而不是人类预先手动查看录像、识别滑雪者、添加“滑雪者、山、滑雪、雪”等标签。后台编程显然比前端看到的复杂得多，但这就是演示的意义——像我这样的普通用户只想要一个简单好用、无需理解后台的应用。

说到例子，我也在构建自己的基础AI智能体。在评论区告知我，你希望我接下来做哪种AI智能体的教程？

总结一下：

第一层（基础LLM）：输入 → LLM → 输出。简单。
第二层（AI工作流）：输入 → 人类预设路径（可能涉及外部工具） → LLM → 输出。关键：人类编程路径让LLM遵循。
第三层（AI智能体）：输入目标 → LLM推理如何达成 → 行动使用工具 → 观察中间结果 → 决定是否需要迭代 → 达成目标的最终输出。关键：LLM是工作流中的决策者。