要闻列表Tencent 的新款 Hy3 AI 模型是目前最被低估的高效 Chinese LLM
Decrypt2026-04-23 17:18:08

Tencent 的新款 Hy3 AI 模型是目前最被低估的高效 Chinese LLM

ORIGINALTencent's New Hy3 AI Model Is the Most Efficient Chinese LLM No One's Talking About
AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯4978 字
简要总结 - Hy3 preview 是一款拥有 2950 亿参数的 Mixture-of-Experts 模型,但每次仅激活 210 亿参数,使其运行成本低于大多数同类竞品。 - 在 SWE-bench Verified(一项测试真实 GitHub Bug 修复的编码基准测试)中,其得分从 53% (Hy2) 跃升至 74.4%,较上一代提升了 40%。 - 该模型已在腾讯应用生态中上线,包括元宝、QQ 和腾讯文档,腾讯云 API 调用价格约为每百万输入 token 0.18 美元。 腾讯周四悄然发布了其迄今为止最强大的 AI 模型,其基准测试数据令人瞩目。Hy3 preview 是该公司在全面重建基础设施后的首个模型,今日已在 GitHub、Hugging Face 和 ModelScope 上开源。 它也已在腾讯云官网以付费方案形式提供。 Hy3 拥有 2950 亿总参数(衡量模型潜在知识广度的指标),但任何时候仅激活 210 亿参数。这就是 Mixture-of-Experts 架构的精妙之处——模型将每个查询路由至其“专家”子网络中的特定子集,而不是一次性运行所有参数。计算量更少,成本更低,输出质量却大致相当。它还支持高达 256,000 个 token 的上下文,足以在单个提示词中处理一部长篇小说。 腾讯表示,该模型的构建旨在平衡此前不得不相互牺牲的三项指标:能力广度、诚实评估和成本效率。其上一代旗舰模型 Hy2 拥有超过 4000 亿参数。腾讯明确表示放弃了这一路线,认为 2950 亿是推理能力完全成熟且增加参数不再带来边际效益的最佳平衡点。 这并不意味着模型性能下降。训练更优、参数更低的模型经常能胜过更大的通用模型。 在编码方面,提升是巨大的。SWE-bench Verified 是一项测试模型能否真正修复 GitHub 仓库中真实 Bug 的基准测试——并非玩具级问题,而是生产环境代码。Hy2 得分为 53.0%,Hy3 preview 得分为 74.4%。这在单代产品中实现了 40% 的飞跃,使其处于 Claude Opus 4.6 (80.8%) 的范围内,并超越了 GLM-5 (77.8%) 和 Kimi-K2.5 (76.8%)。衡量真实命令行环境中自主任务执行能力的 Terminal-Bench 2.0 得分也从 23.2% 跃升至 54.4%,同样是巨大的进步。 对于构建 Agent 的开发者来说,该模型是一个非常有趣的选择。Agent 拥有一套复杂的指令集,涉及记忆、技能和工具调用。它们通常会遗漏某些环节,从而破坏工作流或导致结果不佳。这就是为什么随着该领域成为行业内最受炒作的方向,Agent 能力对 AI 开发者变得越来越重要。这也是该模型被立即引入 Openclaw 的原因。 搜索和浏览 Agent(模型必须在无人引导的情况下从开放网络中检索、过滤和合成信息)的能力也得到了显著提升。在追踪复杂网络研究任务的基准测试 BrowseComp 上,Hy3 preview 达到了 67.1%(高于 Hy2 的 28.7%)。在 WideSearch 上,它达到了 70.2%,优于 GLM-5 和 Kimi-K2.5,但略逊于 Claude Opus 4.6 的 77.2%。 在推理方面,该模型在清华大学数学博士资格考试(2026 年春季)中超过了所有中国竞品,三次运行平均分 (avg@3) 达到 88.4 分。这是真实的考试,而非经过筛选的数据集——腾讯称其优先考虑此类评估以避免基准测试刷分。该模型在 CHSBO 2025(中国全国高中生物奥林匹克竞赛)中也获得了 87.8 分,在该类别中位居中国模型之首。 Hy3 preview 于 2026 年 1 月下旬开始训练,并于周四发布——从冷启动到开源发布不到三个月。对于前沿级模型而言,这异常迅速。腾讯将其归功于 2 月份由首席 AI 科学家姚顺宇领导的基础设施大修,他推动了预训练和强化学习栈的全面重建。 这与一年前中国 AI 实验室的做法截然不同,当时 DeepSeek 的 R1 以其成本效率震惊了整个行业。 Hy3
数据状态✓ 已抓取全文阅读原文(Decrypt)
🔍历史类似事件· 关键词 + 标的比对6 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:889b3d4ce8
来源:Decrypt
发布:2026-04-23 17:18:08
分类:一般 · 导出分类 neutral
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言