腾讯开源机器人大脑:22基准16项第一,对标Gemini

腾讯混元HY-Embodied架构

🤖 腾讯混元开源机器人大脑:具身智能的新玩家

腾讯混元昨天放出了 HY-Embodied-0.5,这不是普通的大语言模型——这是专门给机器人用的“大脑”。而且完全开源

具身智能(Embodied Intelligence)的赛道上,腾讯这次是真的在认真打。

📊 两个版本,两种打法

HY-Embodied-0.5 提供了两个版本:

版本 参数 定位 性能
MoT-2B 2B 激活 / 4B 总参数 边缘部署(机器人本体) 22 基准测试,16 项碾压同级模型
32B 32B 参数 复杂推理(云端/服务器) 对标 Gemini 3.0 Pro

MoT-2B 的亮点:虽然总参数是 4B,但推理时只激活 2.2B 参数。这意味着一个 2B 模型的推理速度,却有超越 2B 的能力

🧠 四大核心技术

1. MoT(Mixture-of-Transformers)架构

传统 VLM(视觉语言模型)把视觉和语言混在一起处理。HY-Embodied 用了MoT 架构,通过 latent tokens 实现模态专用计算:

  • 视觉路径:专门的视觉处理模块
  • 语言路径:专门的文本处理模块
  • 协同推理:跨模态的联合推理

这样做的效果:视觉感知能力大幅提升,同时保持高效的推理速度。

2. 链式推理 + 自进化蒸馏

小模型怎么能有大模型的推理能力?答案是蒸馏

  • 32B 模型学会了复杂的逐步推理、规划、思考能力
  • 通过 on-policy distillation,把这些能力迁移给 2B 模型
  • 小模型也能做链式推理,一步步解决问题

3. 大规模具身预训练

数据规模:超过 100 million 个具身和空间相关数据点,超过 200 billion tokens。

这让模型学会了:

  • 3D 空间的深度理解
  • 物理对象的交互方式
  • Agent 的动态行为

这不是网上随便抓的文本数据,是专门为机器人场景 curated 的数据。

4. VLA(Vision-Language-Action)应用

HY-Embodied 不仅仅是跑基准测试的模型,它被设计为物理机器人的核心认知引擎

  • 无缝集成到 VLA 框架
  • 作为机器人”大脑”驱动复杂任务
  • 真实世界机器人控制的高成功率

🎯 基准测试:碾压同级

在 22 个具身智能相关基准测试中,MoT-2B 在16 项碾压同级模型

基准 HY-Embodied Qwen3-VL 2B RoboBrain 4B
CV-Bench 89.2 80.0 86.9
DA-2K 92.3 69.5 79.4
EmbSpatial-Bench 82.8 75.9 73.8
MindCube 66.3 28.4 26.9

差距最明显的是 MindCube:HY-Embodied 66.3 vs Qwen3-VL 28.4,这是2.3 倍的优势

🦾 为什么这个很重要?

具身智能是AI 下一个十年的关键赛道

  • 语言模型:解决了”理解”和”生成”的问题
  • 视觉模型:解决了”看”的问题
  • 具身智能:解决”理解 + 看见 + 动作”的完整闭环

机器人需要:

  1. 感知:理解 3D 空间、物体位置、环境变化
  2. 推理:规划动作路径、预测后果
  3. 执行:控制电机、完成物理操作

HY-Embodied 解决了前两个问题,让机器人有了真正的”大脑”。

🔧 如何使用?

开源地址:

# 安装
pip install git+https://github.com/huggingface/transformers@...

# 克隆仓库
git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt

# 运行推理
python inference.py

硬件要求

  • GPU:至少 16GB VRAM(推荐 NVIDIA GPU)
  • CPU:支持但较慢
  • 存储:20GB+(模型约 8GB)

📝 总结

腾讯混元 HY-Embodied-0.5 的开源,标志着具身智能进入”开源时代”

  • 2B 版本碾压同级,适合机器人边缘部署
  • 32B 版本对标 Gemini 3.0 Pro,适合云端推理
  • MoT 架构 + 链式推理 + 100M+ 数据的训练
  • VLA 应用让机器人有了真正的”大脑”

这是中国企业在具身智能领域的重大突破

机器人有了大脑,下一步就看怎么用了。

暂无介绍....

延伸阅读:

732字节通杀Linux:史诗级漏洞潜伏近十年

🚨 史诗级漏洞:732 字节通杀所有 Linux,近十年潜伏一个名为"Copy Fail"的 Linux 内核漏洞(CV...

itadol5j
2026年4月30日
732字节通杀Linux:史诗级漏洞潜伏近十年

🚨 史诗级漏洞:732 字节通杀所有 Linux,近十年潜伏一个名为"Copy Fail"的 Linux 内核漏洞(CV...

itadol5j
2026年4月30日
中国AI历史性突破:5家公司跻身全球十强

🏆 中国 AI 跻身全球十强:阿里、字节、智谱历史性突破权威第三方评测机构Artificial Analysis发布最新...

itadol5j
2026年4月30日
DeepSeek V4登顶:开源免费,击败顶尖对手

🏆 DeepSeek V4:迄今为止最伟大的 AI 模型深度求索(DeepSeek)发布了DeepSeek V4——一个...

itadol5j
2026年4月25日
OpenClaw双版本更新:图片生成改进+安全修复

🚀 OpenClaw 2026.4.21 更新:图片生成改进 + 多项安全修复OpenClaw 于4月22日发布了202...

itadol5j
2026年4月23日