如果本地要装大模型，建议哪个开源大模型？-福窝AI

实测12G显卡跑QWEN3.5 35B A3B Q6K速度42token/s，上下文多一些的情况下也有37token/s，如果用Q4KM，速度可以达到55token/s，上下文多一些也差不多50token/s。

显卡是4070ti 12G，CPU i5-14600KF，内存32G 6000MT/s

使用的软件是LM Studio

下载的是unsloth QWEN3.5 35B Q6K。

除了unsloth外下面两个也不错，看你自己选择。

加这个可以关闭思考模式

{%- set enable_thinking = false %}

如果上下文长度在4000token左右，速度可以跑到42-43token/s，拉长到20K的上下文长度，速度会降到37-39token/s，但哪怕是37这个速度也足够快了，而且这是Q6K，可能更多的人会选择Q4KM的精度，上下文多一点的情况下也能超过50token/s。

我主要用的是QWEN3.5 9B、35B、27B这三个模型。

目前使用来看，QWEN3.5 35B的优势是速度快，但各方面能力都逊色于27B，大多数时候比9B强。最大的缺点是处理超长文本、大段内容总结方面还不如9B，远不如27B。

QWEN3.5 9B我用下来感觉略弱于QWEN3.5 35B，速度也快不到哪里去，Q6K速度56token/s，Q4KM速度70token/s，那我还不如用35B。但9B在超长上下文的事后速度还是很快，也比35B靠谱。

QWEN3.5 27B非常猛，比QWEN3.5 35B强，能和QWEN3.5 122B-A10B互有胜负，但我这个12G显卡跑27B Q4KM只有3.6token/s的速度，几乎不能用。16G显卡跑27B估计也挺吃力的，我猜只能跑Q3量化，只有24G显卡才能稳稳的跑27B，又或者起码24G的苹果笔记本才能勉强跑跑27B。

具体使用的话看你的需求。肯定优先用27B，但如果27B你带不动，速度连10token/s都达不到，那还是别勉强了，在35B和9B里面做选择吧。

35B在大多数时候都比9B强，但是35B在长上下文，譬如长文总结、大段内容分析理解回答这方面不如9B（长文本逻辑性、叙事连贯性）。还有就是指令服从稳定性比较差，不如9B。

文章版权归作者所有，未经允许请勿转载。

THE END