腾讯开源机器人大脑:22基准16项第一,对标Gemini

🤖 腾讯混元开源机器人大脑:具身智能的新玩家
腾讯混元昨天放出了 HY-Embodied-0.5,这不是普通的大语言模型——这是专门给机器人用的“大脑”。而且完全开源。
具身智能(Embodied Intelligence)的赛道上,腾讯这次是真的在认真打。
📊 两个版本,两种打法
HY-Embodied-0.5 提供了两个版本:
| 版本 | 参数 | 定位 | 性能 |
|---|---|---|---|
| MoT-2B | 2B 激活 / 4B 总参数 | 边缘部署(机器人本体) | 22 基准测试,16 项碾压同级模型 |
| 32B | 32B 参数 | 复杂推理(云端/服务器) | 对标 Gemini 3.0 Pro |
MoT-2B 的亮点:虽然总参数是 4B,但推理时只激活 2.2B 参数。这意味着一个 2B 模型的推理速度,却有超越 2B 的能力。
🧠 四大核心技术
1. MoT(Mixture-of-Transformers)架构
传统 VLM(视觉语言模型)把视觉和语言混在一起处理。HY-Embodied 用了MoT 架构,通过 latent tokens 实现模态专用计算:
- 视觉路径:专门的视觉处理模块
- 语言路径:专门的文本处理模块
- 协同推理:跨模态的联合推理
这样做的效果:视觉感知能力大幅提升,同时保持高效的推理速度。
2. 链式推理 + 自进化蒸馏
小模型怎么能有大模型的推理能力?答案是蒸馏:
- 32B 模型学会了复杂的逐步推理、规划、思考能力
- 通过 on-policy distillation,把这些能力迁移给 2B 模型
- 小模型也能做链式推理,一步步解决问题
3. 大规模具身预训练
数据规模:超过 100 million 个具身和空间相关数据点,超过 200 billion tokens。
这让模型学会了:
- 3D 空间的深度理解
- 物理对象的交互方式
- Agent 的动态行为
这不是网上随便抓的文本数据,是专门为机器人场景 curated 的数据。
4. VLA(Vision-Language-Action)应用
HY-Embodied 不仅仅是跑基准测试的模型,它被设计为物理机器人的核心认知引擎:
- 无缝集成到 VLA 框架
- 作为机器人”大脑”驱动复杂任务
- 真实世界机器人控制的高成功率
🎯 基准测试:碾压同级
在 22 个具身智能相关基准测试中,MoT-2B 在16 项碾压同级模型:
| 基准 | HY-Embodied | Qwen3-VL 2B | RoboBrain 4B |
|---|---|---|---|
| CV-Bench | 89.2 | 80.0 | 86.9 |
| DA-2K | 92.3 | 69.5 | 79.4 |
| EmbSpatial-Bench | 82.8 | 75.9 | 73.8 |
| MindCube | 66.3 | 28.4 | 26.9 |
差距最明显的是 MindCube:HY-Embodied 66.3 vs Qwen3-VL 28.4,这是2.3 倍的优势。
🦾 为什么这个很重要?
具身智能是AI 下一个十年的关键赛道:
- 语言模型:解决了”理解”和”生成”的问题
- 视觉模型:解决了”看”的问题
- 具身智能:解决”理解 + 看见 + 动作”的完整闭环
机器人需要:
- 感知:理解 3D 空间、物体位置、环境变化
- 推理:规划动作路径、预测后果
- 执行:控制电机、完成物理操作
HY-Embodied 解决了前两个问题,让机器人有了真正的”大脑”。
🔧 如何使用?
开源地址:
- GitHub:https://github.com/Tencent-Hunyuan/HY-Embodied
- HuggingFace:https://huggingface.co/tencent/HY-Embodied-0.5
# 安装 pip install git+https://github.com/huggingface/transformers@... # 克隆仓库 git clone https://github.com/Tencent-Hunyuan/HY-Embodied cd HY-Embodied/ pip install -r requirements.txt # 运行推理 python inference.py
硬件要求:
- GPU:至少 16GB VRAM(推荐 NVIDIA GPU)
- CPU:支持但较慢
- 存储:20GB+(模型约 8GB)
📝 总结
腾讯混元 HY-Embodied-0.5 的开源,标志着具身智能进入”开源时代”:
- 2B 版本碾压同级,适合机器人边缘部署
- 32B 版本对标 Gemini 3.0 Pro,适合云端推理
- MoT 架构 + 链式推理 + 100M+ 数据的训练
- VLA 应用让机器人有了真正的”大脑”
这是中国企业在具身智能领域的重大突破。
机器人有了大脑,下一步就看怎么用了。
延伸阅读:
Hermes Agent单日暴涨6438星:唯一内置学习循环的AI Agent
🔥 Hermes Agent 今日暴涨 6438 星:自我进化的 AI AgentHermes Agent 今天在 Gi...
X推出独立聊天应用:4月17日iOS首发,对标WhatsApp
💬 X 推出独立聊天应用 XChat,4月17日 iOS 首发Elon Musk 的 X(原 Twitter)正在推出独...
腾讯开源机器人大脑:22基准16项第一,对标Gemini
🤖 腾讯混元开源机器人大脑:具身智能的新玩家腾讯混元昨天放出了 HY-Embodied-0.5,这不是普通的大语言模型—...
Apache ActiveMQ高危RCE漏洞:5步完成攻击链
🚨 Apache ActiveMQ 爆出高危 RCE 漏洞Apache ActiveMQ 近日披露了一个高危远程代码执行...
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
🗿 穴居人模式:让AI只说人话最近,一个叫 「caveman」(穴居人) 的 Claude Code 插件在 Hacke...