经过了两年多的发酵,基本上大家都知道大模型LLM的本质上就是NTP,也就是Next-Token Prediction(预测下一个Token)。
比如说我们跟AI说,白日依山尽,那么它就会自动的接上黄-河-入-海-流。
它是一个个来的,先是黄,接着是河,以此类推,最后补全。
同时多模态大模型估计也是一个很熟悉的词,它叫multimodal,也很好理解,它比传统的纯文本大模型更近一步,不仅可以理解古诗这样的文字,还可以理解更多种形式的内容,比如图片、视频、音频等。
传统的多模态是怎么做的,其实一句话就够了:
语言模型负责“想”,视觉/语音模块负责“看”和“听”,最后再把结果喂回语言模型。
也就是说,传统多模态大模型虽然表面上是一个整体,内部往往还是拼装式架构:
文本部分是标准 LLM,按 NTP 预测下一个 token;
图片进来,先过一个视觉编码器,变成连续特征
音频、视频都有单独的插件
所以传统多模态最大的问题,不是“能力不够强”,而是 底层建模并不统一。
说白了,理解和生成属于两套不同的系统。
看图的只会看图,不会画图;
听音的只会听音,不懂说话。
这也是为什么说Longcat-Next的关键词不是multimodal,而是native multimodal。

美团的这个工作《LongCat-Next: Lexicalizing Modalities as Discrete Tokens》,其实解决的回答的是一个问题:如果 LLM 的本质就是 NTP,那为什么 NTP 只能预测文本 token?

既然语言模型能通过预测下一个 token,学会压缩、建模和泛化人类语言,
那图像、语音这些现实世界里的信号,能不能也被压缩成离散 token,统一进入同一个预测框架?
这就是 LongCat-Next 的核心出发点:
既然本质上都是 token 到 token,那么就把多模态真的做成 token 到 token。
于是事情就变得非常简洁了:
给定文本 token,预测后续文本 token,这是语言建模;
给定图像 token,预测文本 token,这是视觉理解;
给定文本 token,预测图像 token,这是图像生成;
给定语音 token,预测文本或语音 token,这是语音理解和语音对话。
这就是所谓的简洁且优雅的解决方案,token化一切,然后把理解和生成都变成NTP问题。

注意这里最关键的一点:
LongCat-Next 不是把“多模态能力”接在语言模型外面,而是把图像和语音都内化成语言模型世界观中的离散序列。
这就是它提出的 DiNA (Discrete Native Autoregressive | 离散原生自回归) 架构
把架构图抽象成下面这个更容易理解的形式后豁然开朗。
DiNA的名字和理念都很直接:
Discrete:一切先离散化成 token;
Native:而是原生纳入;
Autoregressive:统一按自回归方式做 next-token prediction。
但这件理解上很容易的事情,存在一个巨大的难点:文本天然就是离散的,图像不是。
文字做 tokenization 很自然,因为文字本来就有符号边界。
图像没有。图像本质是连续信号,而且语义密度极高。
这里就碰到了离散视觉建模几十年来最核心的矛盾:
理解任务和生成任务,表面上都在处理图像,但它们想要的东西其实不太一样。
说得再直白一点:
·理解要的是“别管那么多细节,你先告诉我这图什么意思”;
·生成要的是“别光懂意思,你得给我一笔一画画准”。
这两件事天然有点拧巴。
也正因为这样,过去大家对离散视觉路线一直有个疑问:它拿来生成也许可以,但真要拿来做高质量理解,行不行?
LongCat-Next 真正想啃的,其实就是这块最硬的骨头:
能不能做出一套视觉 token,既让模型看得懂,又让模型画得出来。
LongCat-Next用的是一套dNaViT + SAE + RVQ的方法。
核心逻辑其实很简单:
·SAE 负责先把图像变成“更有语义的视觉表示”,别一上来就压成一堆只有压缩意义、没有理解意义的token; 否则后面的量化 token 很容易退化成纯压缩码,能重建,不一定能理解。
·dNaViT 负责把这种视觉表示真正 token 化,而且尽量保留原生分辨率,不在入口就把小字、版式、长宽比这些信息搞坏; OCR、文档、图表这类任务来说,原生分辨率不是优化项,而是上限项;入口一旦破坏结构,后面再强的语言模型也补不回来。
·RVQ 则负责分层量化,不是一刀切,而是先记大结构,再一层层补细节。 它的作用不只是压缩,而是把视觉信息拆成层级表示,避免把语义和细节同时挤进一个离散瓶颈里。
这样做的好处就在于,它不是粗暴地把图像塞进语言模型,而是在认真解决一个核心问题:
怎么把图像变成一种既能“看懂”,又能“画回去”的 token。
说白了,LongCat-Next 想做的不是普通的“视觉接入 LLM”,而是想做视觉版的“分词-解词”。
图像进来,先被拆成离散 token;图像出去,再由这些 token 还原回来。
只不过这套“视觉分词”比文本难太多,因为它既要保语义,又要保细节。

语音部分也做了类似的改进,把连续信号转变为离散token的同时,还能保留情感和语义信息。

这套纯native多模态的架构,取得的成绩是显著的,在同级别大小里面非常能打,在绝大多数的benchmark测试里面都是数一数二,sota的也有几个。

特别要注意的,这是一个开源工作:
GitHub: https://github.com/meituan-longcat/LongCat-Next
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Next
能看得出相比起动不动几十上百块的GPU需求,这是一个不算大的模型。
把 LongCat-Next 整体串起来看,会发现它真正要表达的不是:“我又做了一个能看图能画图能说话的大模型。”
而是:
如果 LLM 的成功,本质上来自离散自回归预测,那这套东西就不该只用来预测文字,而应该尽可能扩展到更一般的信号。
这才是它真正想要触及的地方。
它不是在给语言模型外挂眼睛和耳朵,而是在试图把眼睛看到的东西、耳朵听到的东西,也一起拉进“token 预测”这套统一世界观里。
它把多模态这件事往前推了一步:不是继续给语言模型外挂能力,而是尝试从底层把语言、图像、语音统一进同一套 token 预测框架里。
如果说过去的大模型是在证明“预测下一个字”这件事能产生智能,那 LongCat-Next 想证明的就是:这套方法,也许不只适用于字。
这也是我觉得美团这个工作真正有意思的地方。它不只是做了一个更全能的模型,而是在认真探索:
NTP 的边界,到底是不是整个多模态世界。