全新大模型开源，腾讯（int4能打DeepSeek）_Vs_谷歌（2GB运行多模态）

2025-08-08 10:22来源：互联网 [ 大中小 ]

图片大家好，我是专注 ai 学习的老章

最近除了阿里 Qwen3 模型上线了图像生成与处理新功能，大家纷纷尝试吉卜力风格创作外，

还有几款新发布的开源大模型值得关注

一是腾讯推出了 80B 规模的混元 A13B 模型，最大亮点是实现了近乎无损精度的 int4 量化，性能强劲
二是谷歌发布了轻量级多模态模型 Gemma 3n，主打可在手机端运行，最低仅需 2GB 内存
三是我发现了一个小众但实用的超长上下文模型 Jan-nano-128k，仅 2.5GB 的 Q4_K_M 版本就支持 128K 上下文长度

腾讯混元 A13B

官方技术报告已经写得非常详尽，有兴趣的朋友可以深入阅读[1]

试用地址

http://hunyuan.tencent.com/?model=hunyuan-a13b

登录后复制

图片核心优势一览

小模型，大能力仅激活 130 亿参数（总参数达 800 亿），在多项基准测试中表现媲美更大规模模型
双模式推理支持“快思考”与“慢思考”两种模式。默认为慢思考输出，若需快速响应，可在输入前加

/no_think

登录后复制
超长文本理解原生支持 256K 上下文窗口，在处理长文档任务时性能稳定
强化 Agent 能力在 BFCL-v3、τ-Bench、C3-Bench 等智能体评测中表现领先
高效推理机制采用分组查询注意力（GQA），支持多种量化格式，显著提升推理效率

我参考的是魔搭社区上的中文解读版技术博客[2]，总结出几个关键点

腾讯同步开源了两个重要数据集ArtifactsBench 用于弥补代码评估中的视觉与交互差距[3]，而 C3-Bench 是专为智能体设计的评测集，帮助揭示模型短板并推动可解释性研究[4]

A13B 在数学、科学推理及 Agent 场景下，可与 OpenAI-o1-1217、DeepSeek R1、Qwen3-A22B 正面较量

Agent

图片3. Hunyuan-A13B-Instruct-GPTQ-Int4 量化版本几乎与原版无差，堪称精度无损！

Bench	Hunyuan-A13B-Instruct	Hunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench	82.7	84.0
AIME 2024	87.3	86.7
Gsm8k	94.39	94.24
BBH	89.1	87.91
DROP	91.1	91.05

这意味着本地部署时，完全可以使用 int4 版本

完整模型约 160GB，int4 版本仅约 44GB，估计 4 张 4090 显卡即可流畅运行

http://www.php.cn/link/8993c6e2d67634d2e190e80b3cc600f2

int4 版本部署命令如下

# 下载模型# ModelScope:?modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4# 拉取国内镜像docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?# 使用ModelScope下载的模型启动服务docker run ?--privileged --user root ?--net=host --ipc=host \? ? ? ? -v ~/.cache/modelscope:/root/.cache/modelscope \? ? ? ? --gpus=all -it --entrypoint python ? docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm \? ? ? ? ?-m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 \? ? ? ? ?--port 8000 --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/ --trust_remote_code

登录后复制

相比 DeepSeek-R1 较高的运行成本，这款 44GB 的 Hunyuan-A13B-Instruct-GPTQ-Int4 在数学、推理和 Agent 表现上值得进一步实测验证。

谷歌 Gemma 3n

谷歌 Gemma 家族再添新成员——面向端侧部署的轻量多模态模型 Gemma 3n

原生多模态支持Gemma 3n 支持图像、音频、视频和文本输入，输出为文本结果
专为端侧优化以高效运行为目标，提供 E2B 和 E4B 两种有效参数规模版本。虽然原始参数为 50 亿和 80 亿，但通过架构创新，实际内存占用相当于传统 20 亿和 40 亿参数模型，最低仅需 2GB（E2B）或 3GB（E4B）即可运行
架构创新亮点包括 MatFormer 架构（增强计算灵活性）、逐层嵌入 PLE（提升内存效率）、LAuReL 与 AltUp（优化结构效率），以及专为移动端优化的新型音频编码器和基于 MobileNet-v5 的视觉编码器
综合性能出色在多语言支持（覆盖 140 种文本语言和 35 种多模态语言理解）、数学、代码生成和逻辑推理方面均有显著提升。E4B 版本在 LMArena 基准测试中得分突破 1300，成为首个低于 100 亿参数却达到该水平的模型

图片最吸引人的点在于极低成本即可实现端侧多模态推理

据网友实测反馈，Gemma 3n 的语音转写与翻译功能表现良好

但更值得关注的是其在移动端的实际运行表现

谷歌已将该模型上架安卓平台的 Edge Gallery 应用，结合其支持 GPU 卸载的特性，可能是目前最佳使用方式

不过有测试显示，在高通骁龙 6 代 4 核处理器（仅 CPU 运行）上每秒仅生成 4-5 个 token，响应较慢，实用性受限

目前建议持续关注，更多资源可自行查阅

Hugging Face

http://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

登录后复制
Un