多模态,如何让AI看懂图片?

内容分享17小时前发布
0 0 0

刚才聊了智能体和AGI,再记一个词:多模态。

目前有些AI不仅能聊天,还能看懂图片、识别声音,这些能力都跟这个词有关。

1. 先把词拆开

多模态,英文叫 Multimodal。

· Multi-:多个。

· Modal:模态,可以理解成信息的形式或通道。

文字是一种模态,图片是另一种,声音也是。

所以多模态的意思就是:一个模型能同时处理多种类型的信息。

2. 它和纯文字AI的区别在哪

我们之前聊的ChatGPT这类,主要处理文字。你发一段话,它回一段话。

多模态模型不一样。你给它一张图,问“这张图里有什么”,它能用文字告知你:有只猫趴在沙发上。

它把图片和文字两种信息放在一起理解了。

3. 为什么需要这个能力

由于真实世界里,信息本来就不是只有文字的。

你看一篇菜谱,有步骤文字,也有成品图片。你跟人聊天,对方的表情、语气都在传递信息。

如果AI只能处理文字,它的理解就是残缺的。多模态的目标,是让AI离真实世界的感知方式更近一步。

4. 打个比方

纯文字AI像一个只能读邮件的人。所有信息都得写成文字它才能懂。

多模态AI像一个能跟你面对面聊天的人。你指一下桌上的杯子,它知道你指的是什么;你皱个眉头,它知道你可能没听懂。

5. 目前能做到什么程度

目前比较常见的多模态能力有这些:

· 看图说话:给它一张照片,它用文字描述里面的内容。

· 以文搜图:你说一句话,它找出符合描述的图片。

· 视觉问答:问它图里某个细节,列如“左边第二个人穿什么颜色衣服”,它能答上来。

但离真正的“看懂”还有距离。列如一张复杂的图表,或者需要背景知识才能理解的场景,它可能会出错。

6. 总结一下

今天搞清楚的核心区别:

· 单模态AI:只会处理一种信息,列如只会看字。

· 多模态AI:能把文字、图片、声音等信息放在一起理解。

多模态不是让AI多了一双眼睛,而是让它接收信息的方式更接近人的日常经验。

好,今天先记这么多。

#小牛说AI#​#多模态#​

© 版权声明

相关文章

暂无评论

none
暂无评论...