🌌 引子:困在”信息孤岛”的现代AI
想象一下,你走进一座浩瀚的图书馆,里面藏有人类文明积累的所有智慧。然而,这座图书馆有个奇特的规矩——每本书都被锁在独立的玻璃罩中,你只能透过小窗看到零散的段落。你想了解”文艺复兴为何在佛罗伦萨爆发”,得到的却是《美第奇家族史》里关于银行利率的片段,加上《达·芬奇笔记》中关于飞行器的草图描述,中间还隔着一层看不见的厚玻璃。这正是传统RAG(检索增强生成)技术面临的窘境。
检索增强生成,这个听起来充满机械美感的名词,本质上就像给大语言模型配备了一位勤劳的图书管理员。当用户提出问题时,这位管理员会飞快地在知识库中翻找相关文档,把最匹配的段落剪下来,贴在模型眼前供其参考。这种方法确实让AI告别了”胡编乱造”的尴尬,在知识密集型任务上表现惊艳。然而,这位管理员有个致命的弱点——他只能看到孤立的文本片段,无法理解文档之间那些隐秘的、如同神经网络突触般的复杂联系。
就像用几张明信片拼凑不出整座城市的全貌,传统RAG在处理需要多步推理的”全局性问题”时显得力不从心。试想一个看似简单的问题:”北京的传统美食与哪些历史事件有着千丝万缕的联系?“要回答它,你需要先找到”北京美食”的相关信息,再追踪每种美食背后的历史渊源,最后将这些散落在时空中的线索编织成完整的叙事。传统RAG可能会给你一份北京小吃的清单,再加几段清朝宫廷饮食的记载,但它无法告诉你在1900年八国联军进京后,京城百姓如何将宫廷糕点改良成民间点心,也无法揭示烤鸭如何在计划经济时代成为外交餐桌上的”和平使者”。
正是看到这一局限,微软的研究团队在2024年献上了他们的智慧结晶——GraphRAG。这个优雅的解决方案仿佛为那位图书管理员配上了透视镜:它从海量文档中自动抽取实体和关系,编织成















暂无评论内容