Tencent 的新款 Hy3 AI 模型是目前最被低估的高效 Chinese LLM

📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4978 字

简要总结 - Hy3 preview 是一款拥有 2950 亿参数的 Mixture-of-Experts 模型，但每次仅激活 210 亿参数，使其运行成本低于大多数同类竞品。 - 在 SWE-bench Verified（一项测试真实 GitHub Bug 修复的编码基准测试）中，其得分从 53% (Hy2) 跃升至 74.4%，较上一代提升了 40%。 - 该模型已在腾讯应用生态中上线，包括元宝、QQ 和腾讯文档，腾讯云 API 调用价格约为每百万输入 token 0.18 美元。腾讯周四悄然发布了其迄今为止最强大的 AI 模型，其基准测试数据令人瞩目。Hy3 preview 是该公司在全面重建基础设施后的首个模型，今日已在 GitHub、Hugging Face 和 ModelScope 上开源。它也已在腾讯云官网以付费方案形式提供。 Hy3 拥有 2950 亿总参数（衡量模型潜在知识广度的指标），但任何时候仅激活 210 亿参数。这就是 Mixture-of-Experts 架构的精妙之处——模型将每个查询路由至其“专家”子网络中的特定子集，而不是一次性运行所有参数。计算量更少，成本更低，输出质量却大致相当。它还支持高达 256,000 个 token 的上下文，足以在单个提示词中处理一部长篇小说。腾讯表示，该模型的构建旨在平衡此前不得不相互牺牲的三项指标：能力广度、诚实评估和成本效率。其上一代旗舰模型 Hy2 拥有超过 4000 亿参数。腾讯明确表示放弃了这一路线，认为 2950 亿是推理能力完全成熟且增加参数不再带来边际效益的最佳平衡点。这并不意味着模型性能下降。训练更优、参数更低的模型经常能胜过更大的通用模型。在编码方面，提升是巨大的。SWE-bench Verified 是一项测试模型能否真正修复 GitHub 仓库中真实 Bug 的基准测试——并非玩具级问题，而是生产环境代码。Hy2 得分为 53.0%，Hy3 preview 得分为 74.4%。这在单代产品中实现了 40% 的飞跃，使其处于 Claude Opus 4.6 (80.8%) 的范围内，并超越了 GLM-5 (77.8%) 和 Kimi-K2.5 (76.8%)。衡量真实命令行环境中自主任务执行能力的 Terminal-Bench 2.0 得分也从 23.2% 跃升至 54.4%，同样是巨大的进步。对于构建 Agent 的开发者来说，该模型是一个非常有趣的选择。Agent 拥有一套复杂的指令集，涉及记忆、技能和工具调用。它们通常会遗漏某些环节，从而破坏工作流或导致结果不佳。这就是为什么随着该领域成为行业内最受炒作的方向，Agent 能力对 AI 开发者变得越来越重要。这也是该模型被立即引入 Openclaw 的原因。搜索和浏览 Agent（模型必须在无人引导的情况下从开放网络中检索、过滤和合成信息）的能力也得到了显著提升。在追踪复杂网络研究任务的基准测试 BrowseComp 上，Hy3 preview 达到了 67.1%（高于 Hy2 的 28.7%）。在 WideSearch 上，它达到了 70.2%，优于 GLM-5 和 Kimi-K2.5，但略逊于 Claude Opus 4.6 的 77.2%。在推理方面，该模型在清华大学数学博士资格考试（2026 年春季）中超过了所有中国竞品，三次运行平均分 (avg@3) 达到 88.4 分。这是真实的考试，而非经过筛选的数据集——腾讯称其优先考虑此类评估以避免基准测试刷分。该模型在 CHSBO 2025（中国全国高中生物奥林匹克竞赛）中也获得了 87.8 分，在该类别中位居中国模型之首。 Hy3 preview 于 2026 年 1 月下旬开始训练，并于周四发布——从冷启动到开源发布不到三个月。对于前沿级模型而言，这异常迅速。腾讯将其归功于 2 月份由首席 AI 科学家姚顺宇领导的基础设施大修，他推动了预训练和强化学习栈的全面重建。这与一年前中国 AI 实验室的做法截然不同，当时 DeepSeek 的 R1 以其成本效率震惊了整个行业。 Hy3

数据状态✓ 已抓取全文阅读原文（Decrypt）

🔍历史类似事件· 关键词 + 标的比对6 则

2026-04-30

Mistral AI 发布了新的开源模型。互联网对此反应平平，但有一点除外

相似度 180%關鍵字 new/model/one

2026-04-22

小米新款 MiMo 2.5 Pro AI 能看、能聽、能行動——全整合於單一模型

相似度 180%關鍵字 new/model/one

2026-04-30

Elon Musk 称大多数 Crypto 都是骗局，但 X 推出了新的 Crypto 交易终端

相似度 130%關鍵字 new/most

2026-04-30

OpenAI 终于解释了为什么 ChatGPT 会喋喋不休地谈论 Goblins

相似度 130%關鍵字 talking/about

2026-04-29

专家分享关于 XRP 最需要记住的一件事

相似度 130%關鍵字 most/about

2026-04-29

Aptos 表示其新的隐私币旨在解决加密货币领域最大的权衡难题之一

相似度 130%關鍵字 new/one

💡 目前用关键词 + 标的比对（MVP）· 之后会升级为 embedding 语义搜寻

原始信息

ID：889b3d4ce8

来源：Decrypt

发布：2026-04-23 17:18:08

分类：一般 · 导出分类 neutral

标的：未指定

社群投票：+0 / −0 · ⭐ 0 重要 · 💬 0 留言