阿里通义千问团队最新开源的稀疏MoE模型,以30亿激活参数在编程基准测试中超越270亿参数稠密模型,重新定义高效AI推理标准。

技术架构革新:小身材大能量的实现原理
Qwen3.6-35B-A3B采用稀疏混合专家(MoE)架构,通过三大技术创新实现参数效率的飞跃:
混合注意力机制:创新性地将Gated DeltaNet(线性注意力)与Gated Attention(标准注意力)交替堆叠,既非纯Transformer也非纯线性注意力,而是两者的优化融合体。
动态专家路由:内置256个专家网络,每次推理仅激活8个路由专家+1个共享专家,实现精确的"按需调用"机制。这种设计使得350亿总参数中仅30亿参与计算,大幅降低推理成本。
40层深度架构:隐层维度2048,通过深层网络结构保证模型表达能力,同时利用稀疏激活控制计算复杂度。
性能表现:编程与多模态双领域突破
编程能力全面领先
在多项权威基准测试中,Qwen3.6-35B-A3B展现出卓越的智能体编程能力:
| 评测基准 | Qwen3.6-35B-A3B | Qwen3.5-27B | Gemma4-31B | 提升幅度 |
|---|---|---|---|---|
| SWE-bench Verified | 73.4 | 75.0 | 52.0 | -1.6pts |
| Terminal-Bench 2.0 | 51.5 | 41.6 | 42.9 | +9.9pts |
| QwenWebBench(前端) | 1397 | 1068 | 1197 | +329pts |
| AIME 2026(数学) | 92.7 | - | - | 显著提升 |
关键突破:Terminal-Bench得分从40.5跃升至51.5,单代涨幅达11个百分点;前端代码生成能力提升40%以上,真正实现"一句话生成App"的开发体验。
多模态能力比肩国际旗舰
空间智能突出:RefCOCO评分92.0,ODInW13评分50.8,部分指标超越Claude Sonnet 4.5
视觉理解全面:在MMBench、RealWorldQA等基准测试中与顶级闭源模型持平
双模式推理:支持思考与非思考模式灵活切换,适应不同任务场景需求
开发者实用指南:快速集成与部署方案
三步开始使用模型
在线体验:访问Qwen Studio无需注册直接对话,支持文本与图片输入
API调用:通过阿里云百炼平台使用
qwen3.6-flash名称调用,兼容OpenAI和Anthropic协议本地部署:从Hugging Face或ModelScope下载权重,使用vLLM、Ollama加载
智能体开发最佳实践
# 推荐启用思维保留功能用于复杂任务
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "生成一个数据分析仪表板"}],
preserve_thinking=True # 保留思维链提升长周期任务效率
)硬件要求与优化
最低配置:仅需支持30亿激活参数的显存,消费级显卡即可运行
内存需求:约22GB内存即可本地部署
上下文长度:原生支持262,144 tokens,开启YaRN后可扩展到100万tokens
生态兼容与应用场景
主流框架深度适配
OpenClaw:配置文件设置Base URL为阿里云百炼端点,选择
qwen3.6-flash模型Claude Code:利用Anthropic API协议兼容性直接替换端点地址
Qwen Code:专为Qwen系列优化的开源终端AI智能体,认证后自动调用
典型应用场景
AI辅助编程:自动化代码生成、Bug修复、代码重构及审查
智能体开发:构建能够调用工具、浏览网页、执行代码的自主Agent
多模态内容理解:处理图文混合的文档分析、图表解读、视觉问答
端侧AI应用:低功耗设备上的高性能推理需求
行业意义:推动AI普惠化进程
Qwen3.6-35B-A3B的开源标志着大模型发展从"参数竞赛"向"效率优化"的重要转变。其价值体现在三个层面:
成本突破:推理成本仅为同性能稠密模型的十分之一,大幅降低企业部署门槛
性能密度:证明了在特定场景下,模型效率优化可以弥补参数规模差距
生态完善:作为Qwen3.6系列首个开源版本,为后续更大规模模型开源奠定基础
该模型已通过Apache 2.0开源协议完全开放,开发者可立即在Hugging Face和ModelScope平台获取,推动AI技术在更广泛场景的应用落地。