快手在 AI 上,渐入佳境

刷短视频时常碰到“几秒滑走”,却有时能连着刷半小时,这背后藏着一套看不见的算法——快手把自家8B参数的多模态大模型Keye-VL-1.5开源了,它在理解短视频这件事上,比GPT-4o更“懂味”。

快手在 AI 上,渐入佳境

先说结果:在Video-MME基准里,Keye8B直接把同量级对手甩出几十格像素,连GPT-4o都得让半挡。

快手在 AI 上,渐入佳境

更离谱的是,快手没把“通用”挂嘴边,反而把全部力气花在“短视频”这块小田里。

关键在拍脑袋的“慢通路+快通路”。

就像做红烧牛肉,慢通路负责把牛腩炖烂入味(关键帧高分辨率盯细节),快通路抓点葱花香菜意思一下(普通帧低分辨率全扫过),省算力又不失烟火气。

均匀抽帧那种“每颗豆子煮3分钟”的老办法,被快手直接扔了。

拆开模型看,结构不复杂:

·一个能吞动态分辨率的图像编码器,带着2D旋转位置编码,像给图片装上GPS。

·视频这边,时间戳和特殊标记塞进去,时间轴被拉得直挺挺,不会抖成麻花。

· FlashAttention v2 + 混合精度,一口气把128Ktoken的上下文抱进显存,不喘。

有人好奇:1T tokens的预训练数据,到底长啥样?

简单说,快手把自己十年短视频的老本都掏出来了。

中文长尾场景、图文对不齐的翻车记录、还有直播里那些“主播别穿帮”的敏感词,全都拿来喂模型。

快手在 AI 上,渐入佳境

四阶段训练像炒糖色:先烘视觉编码器,再对齐跨模态,接着端到端炖,最后小火退火提味。

后训练更有人味。

750万条多模态SFT数据,里面夹着无数“主播突然站起来露腿”“背景突现广告牌”等血泪案例,直接把“出格”行为钉死在微调阶段。

强化学习用的GSPO,名字听着拗口,效果就是模型学会“先想三步再开口”,而不是胡说八道。

落地才是硬通货。

·直播风控:实时抓抽烟、喝酒、含妈量过高的弹幕,警告弹窗秒级出现,再也不用人工盯屏。

·智能剪辑:模型一眼挑出高能瞬间,自动裁出15秒爽点,配上字幕和闪白,剪完直接上热门。

·教育频道:把公式、例题、板书一起吞,生成课后小题卡,孩子刷视频顺便刷卷子。

再往前半步,还有4B的移动端轻量化版本。

装在手机上,拍立淘都能做“边看边搜”,延迟低到连眨眼都来及。

快手悄悄给训练套了联邦学习+差分隐私的紧身衣,数据不出端,模型照样长大,合规两字写在了显卡上。

快手在 AI 上,渐入佳境

最有意思的传言,是Keye下一代要和自家的视频生成模型手牵手,文本一扔,30秒后蹦出一条对口型、打光专业的30秒短片。

到那时,“拍视频”可能真的要重新定义:从举起手机,换成敲键盘。

有人问,这一套组合拳,会不会把创作者卷没?

实则更大致率是:

不会剪片的宝妈,一键出片;

小镇老师,拿AI拆卷子做微课;

连深夜emo的人,都能让AI把旧vlog剪成告别MV。

工具归工具,人情仍归人。

快手这一步,看着像把菜谱公开,实则把厨房里的火候、刀工、勾芡比例全写清楚了。

开源的不是秘技,是底气。

© 版权声明
THE END
如果内容对您有所帮助,就支持一下吧!
点赞0 分享
是小琪琪还是小77的头像 - 鹿快
评论 抢沙发

请登录后发表评论

    暂无评论内容