您的位置:宽带测速网 > 软件教程 > 全新大模型开源,腾讯(int4能打DeepSeek)_Vs_谷歌(2GB运行多模态)

全新大模型开源,腾讯(int4能打DeepSeek)_Vs_谷歌(2GB运行多模态)

2025-08-08 10:22来源:互联网 [ ]

图片大家好,我是专注 ai 学习的老章

最近除了阿里 Qwen3 模型上线了图像生成与处理新功能,大家纷纷尝试吉卜力风格创作外,

还有几款新发布的开源大模型值得关注

一是腾讯推出了 80B 规模的混元 A13B 模型,最大亮点是实现了近乎无损精度的 int4 量化,性能强劲
二是谷歌发布了轻量级多模态模型 Gemma 3n,主打可在手机端运行,最低仅需 2GB 内存
三是我发现了一个小众但实用的超长上下文模型 Jan-nano-128k,仅 2.5GB 的 Q4_K_M 版本就支持 128K 上下文长度

腾讯混元 A13B

官方技术报告已经写得非常详尽,有兴趣的朋友可以深入阅读[1]

试用地址

http://hunyuan.tencent.com/?model=hunyuan-a13b
登录后复制

图片核心优势一览

小模型,大能力仅激活 130 亿参数(总参数达 800 亿),在多项基准测试中表现媲美更大规模模型
双模式推理支持“快思考”与“慢思考”两种模式。默认为慢思考输出,若需快速响应,可在输入前加

/no_think
登录后复制
超长文本理解原生支持 256K 上下文窗口,在处理长文档任务时性能稳定
强化 Agent 能力在 BFCL-v3、τ-Bench、C3-Bench 等智能体评测中表现领先
高效推理机制采用分组查询注意力(GQA),支持多种量化格式,显著提升推理效率

我参考的是魔搭社区上的中文解读版技术博客[2],总结出几个关键点

腾讯同步开源了两个重要数据集ArtifactsBench 用于弥补代码评估中的视觉与交互差距[3],而 C3-Bench 是专为智能体设计的评测集,帮助揭示模型短板并推动可解释性研究[4]

A13B 在数学、科学推理及 Agent 场景下,可与 OpenAI-o1-1217、DeepSeek R1、Qwen3-A22B 正面较量

Agent

图片3. Hunyuan-A13B-Instruct-GPTQ-Int4 量化版本几乎与原版无差,堪称精度无损!

BenchHunyuan-A13B-InstructHunyuan-A13B-Instruct-GPTQ-Int4
OlympiadBench82.784.0
AIME 202487.386.7
Gsm8k94.3994.24
BBH89.187.91
DROP91.191.05

这意味着本地部署时,完全可以使用 int4 版本

完整模型约 160GB,int4 版本仅约 44GB,估计 4 张 4090 显卡即可流畅运行

http://www.php.cn/link/8993c6e2d67634d2e190e80b3cc600f2

int4 版本部署命令如下

# 下载模型# ModelScope:?modelscope download --model Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4# 拉取国内镜像docker pull docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm?# 使用ModelScope下载的模型启动服务docker run ?--privileged --user root ?--net=host --ipc=host \? ? ? ? -v ~/.cache/modelscope:/root/.cache/modelscope \? ? ? ? --gpus=all -it --entrypoint python ? docker.cnb.cool/tencent/hunyuan/hunyuan-a13b:hunyuan-moe-A13B-vllm \? ? ? ? ?-m vllm.entrypoints.openai.api_server --host 0.0.0.0 --tensor-parallel-size 4 \? ? ? ? ?--port 8000 --model /root/.cache/modelscope/hub/models/Tencent-Hunyuan/Hunyuan-A13B-Instruct-GPTQ-Int4/ --trust_remote_code
登录后复制

相比 DeepSeek-R1 较高的运行成本,这款 44GB 的 Hunyuan-A13B-Instruct-GPTQ-Int4 在数学、推理和 Agent 表现上值得进一步实测验证。

谷歌 Gemma 3n

谷歌 Gemma 家族再添新成员——面向端侧部署的轻量多模态模型 Gemma 3n

原生多模态支持Gemma 3n 支持图像、音频、视频和文本输入,输出为文本结果
专为端侧优化以高效运行为目标,提供 E2B 和 E4B 两种有效参数规模版本。虽然原始参数为 50 亿和 80 亿,但通过架构创新,实际内存占用相当于传统 20 亿和 40 亿参数模型,最低仅需 2GB(E2B)或 3GB(E4B)即可运行
架构创新亮点包括 MatFormer 架构(增强计算灵活性)、逐层嵌入 PLE(提升内存效率)、LAuReL 与 AltUp(优化结构效率),以及专为移动端优化的新型音频编码器和基于 MobileNet-v5 的视觉编码器
综合性能出色在多语言支持(覆盖 140 种文本语言和 35 种多模态语言理解)、数学、代码生成和逻辑推理方面均有显著提升。E4B 版本在 LMArena 基准测试中得分突破 1300,成为首个低于 100 亿参数却达到该水平的模型

图片最吸引人的点在于极低成本即可实现端侧多模态推理

据网友实测反馈,Gemma 3n 的语音转写与翻译功能表现良好

但更值得关注的是其在移动端的实际运行表现

谷歌已将该模型上架安卓平台的 Edge Gallery 应用,结合其支持 GPU 卸载的特性,可能是目前最佳使用方式

不过有测试显示,在高通骁龙 6 代 4 核处理器(仅 CPU 运行)上每秒仅生成 4-5 个 token,响应较慢,实用性受限

目前建议持续关注,更多资源可自行查阅

Hugging Face

http://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
登录后复制
Un