ニュース一覧Tencentの新しいHy3 AIモデルは、誰も話題にしていない最も効率的な中国語LLMである
Decrypt2026-04-23 17:18:08

Tencentの新しいHy3 AIモデルは、誰も話題にしていない最も効率的な中国語LLMである

ORIGINALTencent's New Hy3 AI Model Is the Most Efficient Chinese LLM No One's Talking About
AI 影響分析Grok が分析中...
📄原文全文· trafilatura により自動抽出Gemini 翻譯4978 文字
要約 - Hy3 previewは、総パラメータ数2950億、アクティブパラメータ数210億のMixture-of-Expertsモデルであり、同等の性能を持つ競合モデルと比較して運用コストが抑えられています。 - GitHubの実際のバグ修正をテストするコーディングベンチマーク「SWE-bench Verified」では、前世代のHy2の53%から74.4%へと向上し、40%の改善を達成しました。 - 本モデルはすでにYuanbao、QQ、Tencent Docsを含むTencentのアプリエコシステム全体で稼働しており、Tencent CloudでのAPIアクセス料金は入力トークン100万あたり約0.18ドルから提供されています。 Tencentは木曜日、同社で最も高性能なAIモデルを静かにリリースしました。そのベンチマーク数値は無視できないものです。インフラの全面的な再構築を経て開発された同社初のモデルであるHy3 previewは、本日GitHub、Hugging Face、ModelScopeでオープンソース化されました。また、Tencent Cloudの公式サイトでも有料プランとして提供されています。 Hy3は総パラメータ数2950億(モデルの知識の広さを示す指標)を誇りますが、一度にアクティブになるのは210億のみです。これこそがMixture-of-Expertsアーキテクチャの利点であり、すべてを一度に実行するのではなく、各クエリを「専門家」サブネットワークの特定のサブセットにルーティングします。計算量が減り、コストが下がり、出力品質はほぼ同等です。また、最大256,000トークンのコンテキストをサポートしており、長編小説を一度のプロンプトで読み込ませることが可能です。 このモデルは、Tencentがこれまでトレードオフの関係にあった「能力の幅」「誠実な評価」「コスト効率」の3つのバランスを取るために構築されました。前フラッグシップモデルのHy2は4000億以上のパラメータを持っていましたが、Tencentはあえてこれを削減しました。2950億という数値が、推論能力が十分に成熟し、かつパラメータ追加によるコスト対効果が頭打ちになる最適なスイートスポットであると判断したためです。 これはモデルの性能が低下したことを意味しません。トレーニングが最適化され、パラメータ数が少ないモデルの方が、大規模な汎用モデルを上回ることは頻繁にあります。 コーディングにおいて、その改善は劇的です。SWE-bench Verifiedは、モデルがGitHubリポジトリの実際のバグを修正できるかをテストするベンチマークであり、おもちゃのような問題ではなく本番環境のコードを対象としています。Hy2のスコアは53.0%でしたが、Hy3 previewは74.4%を記録しました。これは1世代で40%の飛躍であり、Claude Opus 4.6(80.8%)の範囲内に到達し、GLM-5(77.8%)やKimi-K2.5(76.8%)を上回っています。実際のコマンドライン環境での自律的なタスク実行を測定するTerminal-Bench 2.0でも、23.2%から54.4%へと大幅に向上しました。 このモデルは、エージェントを構築する人々にとって非常に興味深い選択肢となります。エージェントは、記憶、スキル、ツール呼び出しを含む非常に複雑な指示セットを持っています。通常、何らかの欠落が生じるとワークフローが破綻したり、結果が悪化したりします。そのため、この分野が業界で最も注目を集める中、AI開発者にとってエージェント機能はますます重要になっています。これが、本モデルがOpenclawですぐに利用可能になった理由でもあります。 人間による誘導なしにオープンウェブから情報を取得、フィルタリング、統合する必要がある検索・ブラウジングエージェントの性能も大幅に向上しました。複雑なウェブ調査タスクを追跡するベンチマークであるBrowseCompでは、Hy3 previewは67.1%(Hy2の28.7%から上昇)に達しました。WideSearchでは70.2%を記録し、GLM-5やKimi-K2.5を上回りましたが、Claude Opus 4.6の77.2%には及びませんでした。 推論能力において、本モデルは清華大学の数学博士課程資格試験(2026年春)で、3回の平均スコア(avg@3)88.4を記録し、すべての中国の競合モデルを上回りました。これは厳選されたデータセットではなく実際の試験であり、ベンチマークのハッキングを避けるためにTencentが優先している評価手法です。また、
データステータス✓ 全文抽出済み原文を読む(Decrypt)
🔍過去の類似イベント· キーワード + 銘柄照合6 件
💡 現在はキーワード + 銘柄照合(MVP)を使用しています · 今後 embedding セマンティック検索へアップグレード予定
原始情報
ID:889b3d4ce8
ソース:Decrypt
公開:2026-04-23 17:18:08
カテゴリ:一般 · エクスポートカテゴリ neutral
銘柄:未指定
コミュニティ投票:+0 /0 · ⭐ 0 重要 · 💬 0 コメント