腾讯开源机器人大脑：22基准16项第一，对标Gemini

itadol5j
未分类
2026年4月11日

腾讯混元HY-Embodied架构

🤖 腾讯混元开源机器人大脑：具身智能的新玩家

腾讯混元昨天放出了 HY-Embodied-0.5，这不是普通的大语言模型——这是专门给机器人用的“大脑”。而且完全开源。

具身智能（Embodied Intelligence）的赛道上，腾讯这次是真的在认真打。

📊 两个版本，两种打法

HY-Embodied-0.5 提供了两个版本：

版本	参数	定位	性能
MoT-2B	2B 激活 / 4B 总参数	边缘部署（机器人本体）	22 基准测试，16 项碾压同级模型
32B	32B 参数	复杂推理（云端/服务器）	对标 Gemini 3.0 Pro

MoT-2B 的亮点：虽然总参数是 4B，但推理时只激活 2.2B 参数。这意味着一个 2B 模型的推理速度，却有超越 2B 的能力。

🧠 四大核心技术

1. MoT（Mixture-of-Transformers）架构

传统 VLM（视觉语言模型）把视觉和语言混在一起处理。HY-Embodied 用了MoT 架构，通过 latent tokens 实现模态专用计算：

视觉路径：专门的视觉处理模块
语言路径：专门的文本处理模块
协同推理：跨模态的联合推理

这样做的效果：视觉感知能力大幅提升，同时保持高效的推理速度。

2. 链式推理 + 自进化蒸馏

小模型怎么能有大模型的推理能力？答案是蒸馏：

32B 模型学会了复杂的逐步推理、规划、思考能力
通过 on-policy distillation，把这些能力迁移给 2B 模型
小模型也能做链式推理，一步步解决问题

3. 大规模具身预训练

数据规模：超过 100 million 个具身和空间相关数据点，超过 200 billion tokens。

这让模型学会了：

3D 空间的深度理解
物理对象的交互方式
Agent 的动态行为

这不是网上随便抓的文本数据，是专门为机器人场景 curated 的数据。

4. VLA（Vision-Language-Action）应用

HY-Embodied 不仅仅是跑基准测试的模型，它被设计为物理机器人的核心认知引擎：

无缝集成到 VLA 框架
作为机器人”大脑”驱动复杂任务
真实世界机器人控制的高成功率

🎯 基准测试：碾压同级

在 22 个具身智能相关基准测试中，MoT-2B 在16 项碾压同级模型：

基准	HY-Embodied	Qwen3-VL 2B	RoboBrain 4B
CV-Bench	89.2	80.0	86.9
DA-2K	92.3	69.5	79.4
EmbSpatial-Bench	82.8	75.9	73.8
MindCube	66.3	28.4	26.9

差距最明显的是 MindCube：HY-Embodied 66.3 vs Qwen3-VL 28.4，这是2.3 倍的优势。

🦾 为什么这个很重要？

具身智能是AI 下一个十年的关键赛道：

语言模型：解决了”理解”和”生成”的问题
视觉模型：解决了”看”的问题
具身智能：解决”理解 + 看见 + 动作”的完整闭环

机器人需要：

感知：理解 3D 空间、物体位置、环境变化
推理：规划动作路径、预测后果
执行：控制电机、完成物理操作

HY-Embodied 解决了前两个问题，让机器人有了真正的”大脑”。

🔧 如何使用？

开源地址：

GitHub：https://github.com/Tencent-Hunyuan/HY-Embodied
HuggingFace：https://huggingface.co/tencent/HY-Embodied-0.5

# 安装
pip install git+https://github.com/huggingface/transformers@...

# 克隆仓库
git clone https://github.com/Tencent-Hunyuan/HY-Embodied
cd HY-Embodied/
pip install -r requirements.txt

# 运行推理
python inference.py

硬件要求：

GPU：至少 16GB VRAM（推荐 NVIDIA GPU）
CPU：支持但较慢
存储：20GB+（模型约 8GB）

📝 总结

腾讯混元 HY-Embodied-0.5 的开源，标志着具身智能进入”开源时代”：

2B 版本碾压同级，适合机器人边缘部署
32B 版本对标 Gemini 3.0 Pro，适合云端推理
MoT 架构 + 链式推理 + 100M+ 数据的训练
VLA 应用让机器人有了真正的”大脑”

这是中国企业在具身智能领域的重大突破。

机器人有了大脑，下一步就看怎么用了。

itadol5j

暂无介绍....

腾讯开源机器人大脑：22基准16项第一，对标Gemini

🤖 腾讯混元开源机器人大脑：具身智能的新玩家

📊 两个版本，两种打法

🧠 四大核心技术

1. MoT（Mixture-of-Transformers）架构

2. 链式推理 + 自进化蒸馏

3. 大规模具身预训练

4. VLA（Vision-Language-Action）应用

🎯 基准测试：碾压同级

🦾 为什么这个很重要？

🔧 如何使用？

📝 总结

itadol5j

Apache ActiveMQ高危RCE漏洞：5步完成攻击链

X推出独立聊天应用：4月17日iOS首发，对标WhatsApp

延伸阅读:

一张图生成永不停歇的3D世界：LingBot-World 2.0今日开源，60fps无界交互

Kali Linux 2026.2发布：9款新工具入库，虚拟机开机速度直接干到3倍

30秒直出+原生4K！Seedance 2.5杀到，国产AI视频模型再次捅破天花板

AI Agent长出手脚：Strands+LeRobot打通机器人，Natural Language直接驱动真机

Hermes Agent v0.17狂飙：AI助手长出新触角，iMessage、Raft、后台子Agent全来了