刚才聊了智能体和AGI,再记一个词:多模态。
目前有些AI不仅能聊天,还能看懂图片、识别声音,这些能力都跟这个词有关。
1. 先把词拆开
多模态,英文叫 Multimodal。
· Multi-:多个。
· Modal:模态,可以理解成信息的形式或通道。
文字是一种模态,图片是另一种,声音也是。
所以多模态的意思就是:一个模型能同时处理多种类型的信息。
2. 它和纯文字AI的区别在哪
我们之前聊的ChatGPT这类,主要处理文字。你发一段话,它回一段话。
多模态模型不一样。你给它一张图,问“这张图里有什么”,它能用文字告知你:有只猫趴在沙发上。
它把图片和文字两种信息放在一起理解了。
3. 为什么需要这个能力
由于真实世界里,信息本来就不是只有文字的。
你看一篇菜谱,有步骤文字,也有成品图片。你跟人聊天,对方的表情、语气都在传递信息。
如果AI只能处理文字,它的理解就是残缺的。多模态的目标,是让AI离真实世界的感知方式更近一步。
4. 打个比方
纯文字AI像一个只能读邮件的人。所有信息都得写成文字它才能懂。
多模态AI像一个能跟你面对面聊天的人。你指一下桌上的杯子,它知道你指的是什么;你皱个眉头,它知道你可能没听懂。
5. 目前能做到什么程度
目前比较常见的多模态能力有这些:
· 看图说话:给它一张照片,它用文字描述里面的内容。
· 以文搜图:你说一句话,它找出符合描述的图片。
· 视觉问答:问它图里某个细节,列如“左边第二个人穿什么颜色衣服”,它能答上来。
但离真正的“看懂”还有距离。列如一张复杂的图表,或者需要背景知识才能理解的场景,它可能会出错。
6. 总结一下
今天搞清楚的核心区别:
· 单模态AI:只会处理一种信息,列如只会看字。
· 多模态AI:能把文字、图片、声音等信息放在一起理解。
多模态不是让AI多了一双眼睛,而是让它接收信息的方式更接近人的日常经验。
好,今天先记这么多。
#小牛说AI##多模态#





