阿里云又发王炸！Qwen3-30B新版：消费级显卡也能跑，性能媲美GPT-4o！

2025 年 07 月 31 日

571 次浏览

2079字数

AI摘要

阿里云通义千问团队发布了Qwen3系列的最新版本Qwen3-30B-A3B-Instruct-2507，这是一个专注于非思考模式优化的Mixture-of-Experts模型，具有300亿参数和33亿激活参数。新版本在长文本理解、数学、编程和多语言任务能力上显著提升，同时保持低计算成本。它支持256K令牌，性能在多个基准测试中接近或超越其他模型，且能在消费级硬件上运行。该模型采用Apache 2.0协议开源，允许免费商用，并在Hugging Face和阿里云百炼平台上提供试用。

2025年7月30日，阿里云通义千问团队宣布推出 Qwen3-30B-A3B-Instruct-2507，作为 Qwen3 系列 Mixture-of-Experts（MoE）模型的最新版本。该模型专注于非思考模式优化，显著提升了长文本理解、数学、编程和多语言任务能力，同时保持低计算成本。根据 网易订阅（2025-07-30）、GitHub - QwenLM/Qwen3（2025-07-22），新版本在 AIME25 等基准测试中表现出色，接近甚至超越 Qwen3-235B-A22B 和闭源模型如 GPT-4o。本文解析其更新亮点、技术细节、应用场景及影响，结合最新信息提供全面洞察！

核心亮点：非思考模式与长文本能力

Qwen3-30B-A3B-Instruct-2507 是 Qwen3 系列的小型 MoE 模型，总参数 300 亿，激活参数仅 33 亿，以下是其主要更新，参考 网易订阅：

非思考模式优化
- 专注于非思考模式（non-thinking mode），取消混合思考模式，响应速度提升 20%-30%，适合快速任务如对话、内容生成（网易订阅，2025-07-30）。
- 在 AIME25（数学推理）测试中，评分从上一版本的 21.4（思考模式关闭）提升至 61.3，接近 Qwen3-235B-A22B（karminski3，2025-07-30）。
长文本理解突破
支持 256K 令牌（约 192,000 字），较 Qwen3 的 128K 翻倍，适合处理长文档、学术论文和多轮对话（网易订阅，2025-07-30）。
可匹敌 Gemini 2.5 Flash（非思考模式）和 GPT-4o 在长文本任务中的性能（AdinaYakup，2025-07-30）。
多任务性能提升
- 在 LiveCodeBench（编程能力）测试中，超越 Qwen2.5-32B 和 DeepSeek V3，接近 GPT-4o（GitHub - QwenLM/Qwen3，2025-07-22）。
- 在 ArenaHard（人类偏好对齐）测试中得分 91.0，优于 QwQ-32B（激活参数为其 10 倍）（OSCHINA，2025-04-29）。
- 支持 119 种语言，增强多语言翻译和冷门语言处理能力（Alibaba Cloud Community，2025-04-29）。
高效部署
激活参数仅 33 亿，显存占用低，消费级 PC（如 RTX 4090）即可流畅运行（知乎，2025-05-04）。
在消费级 CPU（Core i9 14900KF）+ RTX 4090D 上，Prefill 性能达 347.7 tokens/s（知乎，2025-04-28）。
开源与商业化
- 采用 Apache 2.0 协议，允许免费商用，支持 Hugging Face、ModelScope 等平台（网易订阅，2025-07-30）。
- 阿里云百炼平台提供 100 万令牌免费体验（阿里云开发者社区，2025-05-07）。

值得期待吗？

Qwen3-30B-A3B-Instruct-2507 通过非思考模式优化和 256K 令牌支持，在数学、编程和多语言任务中展现出接近 Qwen3-235B-A22B 和 GPT-4o 的性能，同时保持消费级硬件兼容性。其开源性质和低成本部署使其成为开发者、企业和学术用户的理想选择。建议通过 Hugging Face 或阿里云百炼试用（https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507），并关注后续 Qwen3-32B 更新（karminski3，2025-07-30）。对于追求高效、低成本 AI 解决方案的用户，这款模型是 2025 年开源生态的重大突破！

文章来源：https://mp.weixin.qq.com/s/wcvZEVxnpnTgtxOf7LnNig