你看,目前到处都是“AI智能体”、“智能体能力”、“智能体工作流”这些词。但大多数解释要么太技术化,要么太基础。这个文章就是给我这样的人看的:你没有任何技术背景,但常常使用AI工具,并且想了解AI智能体,看看它对你有什么影响。

在这个文章里,我们会遵循一个简单的“1、2、3”学习路径,从你已经理解的概念(列如聊天机器人)开始,然后讲到AI工作流,最后是AI智能体。全程使用你现实生活中真会遇到的实际例子。信任我,那些你到处看到的吓人术语,列如RAG(检索增强生成)或ReAct(推理-行动框架),实则比你想象的要简单得多。让我们开始吧!
第一层:大语言模型 (LLMs)
像ChatGPT、Google Gemini和Claude这样流行的AI聊天机器人,都是构建在大语言模型(LLMs)之上的应用程序。它们超级擅长生成和编辑文本。简单来说:你(人类)提供一个输入,LLM根据其训练数据产生一个输出。
例如,如果我让ChatGPT起草一封请求咖啡聊天的邮件,我的提示(prompt)就是输入,而它生成的那封比现实中我可客气得多的邮件就是输出。到目前为止,很简单,对吧?
但如果我问ChatGPT:“我下一个咖啡聊天是什么时候?”即使不看回答,你我都知道ChatGPT会失败,由于它不知道这个信息——它无法访问我的日历。这突显了大语言模型的两个关键特性:
- 知识有限:尽管训练数据量巨大,但它们对专有信息(如个人信息或公司内部数据)了解有限。
- 被动响应:它们等待我们的提示,然后才做出回应。
记住这两点,我们继续。
第二层:AI工作流

让我们在刚才的例子基础上构建。如果我(人类)告知LLM:“每次我问到个人日程时,先执行一个搜索查询,从我的Google日历获取数据,然后再回答。”
实现了这个逻辑后,下次我问:“我和Elon Husky的咖啡聊天是什么时候?”我就能得到正确答案,由于LLM会先去我的Google日历查找信息。
但问题来了:如果我的下一个跟进问题是“那天的天气会怎样?”LLM目前又回答不了了,由于我们告知它的路径是“总是搜索我的Google日历”,而日历里没有天气信息。
这就是AI工作流的一个根本特性:它们只能遵循人类预设的路径(技术上,这个路径也叫“控制逻辑”)。
再扩展一下我的例子:如果我在工作流中添加更多步骤,允许LLM通过API访问天气,然后(为了好玩)再用文本转语音模型把答案读出来:“与Elon Husky会面当天的天气预报是晴天,有好男孩概率。”
关键点来了:无论我们添加多少步骤,这依旧只是一个AI工作流。即使有成千上万个步骤,只要是人类在做决策,就没有AI智能体的参与。
- 专业提议:检索增强生成(RAG)是个常被提及的术语。简单说,RAG就是一个协助AI模型在回答前先查找信息的流程(列如查日历或天气服务)。本质上,RAG就是一种AI工作流。(顺便提一句,我有个免费AI工具包,帮你掌握核心AI工具和工作流,链接在下方。)
真实案例:我参考了Helena Louu的精彩教程,用make.com创建了一个简单的AI工作流:
- 使用Google Sheets:我在一个Google表格里整理新闻文章的链接。
- 使用Perplexity:让它总结这些新闻文章。
- 使用Claude:根据我写的提示词,让Claude起草LinkedIn和Instagram帖子。
- 自动运行:设置每天早上8点自动执行。
你看,这就是个AI工作流,由于它严格遵循我预设的路径:第一步做这个,第二步做那个,第三步做这个,最后每天早上8点运行。
还有一点:如果我测试这个工作流,发现最终生成的LinkedIn帖子不够有趣(列如这里这个,嗯,不够搞笑,而我天生就超搞笑的,对吧?),我就得手动回去重写给Claude的提示词。这种试错迭代目前是由我(人类)完成的。记住这点。
第三层:AI智能体 继续用make.com的例子,分析一下我作为人类决策者一直在做的事情。我的目标是基于新闻文章创建社交媒体帖子,我需要做两件事:
- 推理/思考:思考最佳方法(先整理文章,再总结,最后写帖子)。
- 行动:使用工具(在Google Sheets里找链接、用Perplexity实时总结、用Claude写文案)。
最重大的一句话来了:为了让这个AI工作流变成AI智能体,必须发生一个巨大改变——由LLM取代我(人类决策者)的位置。

换句话说,AI智能体必须能够:
- 推理:思考最高效的方法(“整理文章链接比复制粘贴全文到Word文档更合理吗?是的。”)。
- 行动:通过工具做事(“用Excel?用户已经连了Google账户,用Google Sheets更好。”)。
- 专业提议:正因如此,AI智能体最常见的配置是ReAct框架(Reason + Act,推理+行动)。听起来很简单吧?
AI智能体的第三个关键特性是迭代能力。还记得我要手动重写提示词让帖子更搞笑吗?人类可能需要重复几次才能满意。而AI智能体可以自主完成同样的迭代过程。
在我们的例子中,AI智能体会自主添加另一个LLM来评判自己的输出:“我起草了V1版LinkedIn帖子,怎么确保它好?哦,再加一步,让另一个LLM根据LinkedIn最佳实践来评判它。”然后重复这个过程直到达标,最终输出结果。
真实世界案例:Andrew(AI领域顶尖人物)创建了一个演示网站展示AI智能体如何工作。当我搜索关键词“skier”(滑雪者)时,后台的AI视觉智能体会:
- 推理:滑雪者看起来什么样?(列如,踩着滑雪板在雪上飞快移动的人?不确定。)
- 行动:查看视频片段,尝试识别它认为的滑雪者,给片段打上索引标签,然后返回给我们。
虽然这看起来可能不惊艳,但记住:是AI智能体完成了所有这些,而不是人类预先手动查看录像、识别滑雪者、添加“滑雪者、山、滑雪、雪”等标签。后台编程显然比前端看到的复杂得多,但这就是演示的意义——像我这样的普通用户只想要一个简单好用、无需理解后台的应用。
说到例子,我也在构建自己的基础AI智能体。在评论区告知我,你希望我接下来做哪种AI智能体的教程?
总结一下:
- 第一层(基础LLM):输入 → LLM → 输出。简单。
- 第二层(AI工作流):输入 → 人类预设路径(可能涉及外部工具) → LLM → 输出。关键:人类编程路径让LLM遵循。
- 第三层(AI智能体):输入目标 → LLM推理如何达成 → 行动使用工具 → 观察中间结果 → 决定是否需要迭代 → 达成目标的最终输出。关键:LLM是工作流中的决策者。
如果你觉得有协助!祝你今天愉快
#大模型技术专业#
















- 最新
- 最热
只看作者