快手在 AI 上，渐入佳境

刷短视频时常碰到“几秒滑走”，却有时能连着刷半小时，这背后藏着一套看不见的算法——快手把自家8B参数的多模态大模型Keye-VL-1.5开源了，它在理解短视频这件事上，比GPT-4o更“懂味”。

快手在 AI 上，渐入佳境

先说结果：在Video-MME基准里，Keye8B直接把同量级对手甩出几十格像素，连GPT-4o都得让半挡。

快手在 AI 上，渐入佳境

更离谱的是，快手没把“通用”挂嘴边，反而把全部力气花在“短视频”这块小田里。

关键在拍脑袋的“慢通路+快通路”。

就像做红烧牛肉，慢通路负责把牛腩炖烂入味（关键帧高分辨率盯细节），快通路抓点葱花香菜意思一下（普通帧低分辨率全扫过），省算力又不失烟火气。

均匀抽帧那种“每颗豆子煮3分钟”的老办法，被快手直接扔了。

拆开模型看，结构不复杂：

·一个能吞动态分辨率的图像编码器，带着2D旋转位置编码，像给图片装上GPS。

·视频这边，时间戳和特殊标记塞进去，时间轴被拉得直挺挺，不会抖成麻花。

· FlashAttention v2 + 混合精度，一口气把128Ktoken的上下文抱进显存，不喘。

有人好奇：1T tokens的预训练数据，到底长啥样？

简单说，快手把自己十年短视频的老本都掏出来了。

中文长尾场景、图文对不齐的翻车记录、还有直播里那些“主播别穿帮”的敏感词，全都拿来喂模型。

快手在 AI 上，渐入佳境

四阶段训练像炒糖色：先烘视觉编码器，再对齐跨模态，接着端到端炖，最后小火退火提味。

后训练更有人味。

750万条多模态SFT数据，里面夹着无数“主播突然站起来露腿”“背景突现广告牌”等血泪案例，直接把“出格”行为钉死在微调阶段。

强化学习用的GSPO，名字听着拗口，效果就是模型学会“先想三步再开口”，而不是胡说八道。

落地才是硬通货。

·直播风控：实时抓抽烟、喝酒、含妈量过高的弹幕，警告弹窗秒级出现，再也不用人工盯屏。

·智能剪辑：模型一眼挑出高能瞬间，自动裁出15秒爽点，配上字幕和闪白，剪完直接上热门。

·教育频道：把公式、例题、板书一起吞，生成课后小题卡，孩子刷视频顺便刷卷子。

再往前半步，还有4B的移动端轻量化版本。

装在手机上，拍立淘都能做“边看边搜”，延迟低到连眨眼都来及。

快手悄悄给训练套了联邦学习+差分隐私的紧身衣，数据不出端，模型照样长大，合规两字写在了显卡上。

快手在 AI 上，渐入佳境

最有意思的传言，是Keye下一代要和自家的视频生成模型手牵手，文本一扔，30秒后蹦出一条对口型、打光专业的30秒短片。

到那时，“拍视频”可能真的要重新定义：从举起手机，换成敲键盘。

有人问，这一套组合拳，会不会把创作者卷没？

实则更大致率是：

不会剪片的宝妈，一键出片；

小镇老师，拿AI拆卷子做微课；

连深夜emo的人，都能让AI把旧vlog剪成告别MV。

工具归工具，人情仍归人。

快手这一步，看着像把菜谱公开，实则把厨房里的火候、刀工、勾芡比例全写清楚了。

开源的不是秘技，是底气。

文章版权归作者所有，未经允许请勿转载。如内容涉嫌侵权，请在本页底部进入<联系我们>进行举报投诉!

THE END

知识分享

快手在 AI 上，渐入佳境

请登录后发表评论

wp付费进群系统V3源码开心授权附安装教程

黑色个人技术服务展示网站模板

iPhone Safari 浏览器无法使用：关键排查步骤与解决方案

基于C++的摄影拍照预定管理系统设计与实现的详细项目实例

极简个人博客blog网站模板

智能供应商评估AI系统的成本控制：架构师分享的5个降本策略

快手在 AI 上，渐入佳境

请登录后发表评论

wp付费进群系统V3源码 开心授权附安装教程

黑色个人技术服务展示网站模板

iPhone Safari 浏览器无法使用：关键排查步骤与解决方案

基于C++的摄影拍照预定管理系统设计与实现的详细项目实例

极简个人博客blog网站模板

智能供应商评估AI系统的成本控制：架构师分享的5个降本策略

wp付费进群系统V3源码开心授权附安装教程