多模态，如何让AI看懂图片？

内容分享17小时前发布

刚才聊了智能体和AGI，再记一个词：多模态。

目前有些AI不仅能聊天，还能看懂图片、识别声音，这些能力都跟这个词有关。

1. 先把词拆开

多模态，英文叫 Multimodal。

· Multi-：多个。

· Modal：模态，可以理解成信息的形式或通道。

文字是一种模态，图片是另一种，声音也是。

所以多模态的意思就是：一个模型能同时处理多种类型的信息。

2. 它和纯文字AI的区别在哪

我们之前聊的ChatGPT这类，主要处理文字。你发一段话，它回一段话。

多模态模型不一样。你给它一张图，问“这张图里有什么”，它能用文字告知你：有只猫趴在沙发上。

它把图片和文字两种信息放在一起理解了。

3. 为什么需要这个能力

由于真实世界里，信息本来就不是只有文字的。

你看一篇菜谱，有步骤文字，也有成品图片。你跟人聊天，对方的表情、语气都在传递信息。

如果AI只能处理文字，它的理解就是残缺的。多模态的目标，是让AI离真实世界的感知方式更近一步。

4. 打个比方

纯文字AI像一个只能读邮件的人。所有信息都得写成文字它才能懂。

多模态AI像一个能跟你面对面聊天的人。你指一下桌上的杯子，它知道你指的是什么；你皱个眉头，它知道你可能没听懂。

5. 目前能做到什么程度

目前比较常见的多模态能力有这些：

· 看图说话：给它一张照片，它用文字描述里面的内容。

· 以文搜图：你说一句话，它找出符合描述的图片。

· 视觉问答：问它图里某个细节，列如“左边第二个人穿什么颜色衣服”，它能答上来。

但离真正的“看懂”还有距离。列如一张复杂的图表，或者需要背景知识才能理解的场景，它可能会出错。

6. 总结一下

今天搞清楚的核心区别：

· 单模态AI：只会处理一种信息，列如只会看字。

· 多模态AI：能把文字、图片、声音等信息放在一起理解。

多模态不是让AI多了一双眼睛，而是让它接收信息的方式更接近人的日常经验。

好，今天先记这么多。

#小牛说AI##多模态#

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

85年苞米地里我抓到了女小偷，女人在地里的请求让汉子心软了

85年苞米地里我抓到了女小偷，女人在地里的请求让汉子心软了

4周前

000

终于知道特殊符号该怎么输入了！Excel里按这个键，秒出各种符号

终于知道特殊符号该怎么输入了！Excel里按这个键，秒出各种符号

3周前

430

告别996！把Debug交给AI Agent，这才是26年程序员的正确打开方式

告别996！把Debug交给AI Agent，这才是26年程序员的正确打开方式

2周前

100

Prometheus(三) node_exporter添加https与basic认证

Prometheus(三) node_exporter添加https与basic认证

1个月前

010

暂无评论

none

暂无评论...