全新发布!阿里千问全模态大模型 Qwen3.5-Omni 来了:215项SOTA霸榜,音视频理解超越Gemini
2026年3月30日,阿里巴巴旗下阿里千问正式发布全模态大模型 Qwen3.5-Omni,一经推出便凭借215项国际测试SOTA成绩、极致成本优势和突破性音视频理解能力,在开发者社区引发热议。这款模型不仅能无缝理解文本、图片、音频及音视频输入,更在多项任务上超越 Google Gemini-3.1 Pro,还自然涌现出了 Audio-Visual Vibe Coding 能力。本文将详细介绍 Qwen3.5-Omni 的核心亮点、技术突破和应用场景。

核心亮点一览
Qwen3.5-Omni 是阿里千问推出的最新一代全模态大模型,核心亮点包括:
- 全模态理解:无缝理解文本、图片、音频及音视频输入
- 215项SOTA霸榜:在音频及音视频分析、推理、对话、翻译等任务超越 Gemini-3.1 Pro
- Audio-Visual Vibe Coding:自然涌现的音视频编程能力
- 实时对话:支持语义打断、音色克隆及语音控制
- 超长上下文:支持256K超长上下文与113种语言识别
- 智能任务执行:原生支持WebSearch和复杂Function Call
音视频理解能力
视频创作与剪辑
上传一段视频,Qwen3.5-Omni-Plus能够遵循指令生成细粒度、结构化、带时间戳的准确Caption:
- 画面里是谁、说了什么话
- 背景音乐从哪一秒开始变化
- 镜头切了几次
- 每一帧发生了什么
- 判断视频是否有敏感内容
- 将长视频变成可搜索的结构化笔记
音视频指令生成代码
根据你的要求,Qwen3.5-Omni 能直接生成可运行的代码。这是本次最惊喜的发现:未进行专门训练,模型自然涌现出了Vibe Coding能力。它可以根据画面逻辑生成 Python 代码或前端原型,让创意验证从看到做只需一步。
更像真人的实时对话
和 Qwen3.5-Omni 聊天,更像是在跟真人交流:
- 懂得倾听的分寸:咳嗽声或随口附和不会让它误停下来,但你的真正插话它能瞬间接住
- 语音控制:指令它小声点、用开心的语气,像人一样自由控制声音的大小、语速与情绪
- 音色克隆:上传一段你的录音,就能定制专属的AI Assistant音色,支持多种语言生成
你可以打造一个数字分身式助手,让它用你的声音去沟通、去陪伴,让交互更具个性化。
智能任务执行
不止是聊天,Qwen3.5-Omni 还能帮你办事:
询问明天北京天气如何,推荐一家酒店,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持 WebSearch 和复杂工具调用,让模型真正成为你的执行助手。
性能表现:215项SOTA霸榜
Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215项SOTA成绩,涵盖:
- 音视频理解
- 音频理解
- 语音识别
- 语音翻译
- 语音生成
对比 Gemini-3.1 Pro:
- 通用音频理解、推理、识别、翻译、对话全面超越
- 音视频理解能力总体达到 Gemini-3.1 Pro 水平
- 视觉和文本能力与同尺寸 Qwen3.5 模型持平
三种尺寸,满足不同场景
| 版本 | 特点 | 适用场景 |
|---|---|---|
| Plus | 最强性能 | 复杂任务、专业应用 |
| Flash | 平衡性能与速度 | 日常使用、快速响应 |
| Light | 轻量级 | 移动端、资源受限场景 |
技术规格
| 规格 | 参数 |
|---|---|
| 上下文长度 | 256K |
| 语言支持 | 113种 |
| 音频处理 | 超过10小时 |
| 视频处理 | 1小时(720P,1 FPS) |
| 架构 | 混合注意力MoE |
如何使用
用户可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API,提供了 Plus、Flash、Light 三种尺寸,满足不同场景需求。
相比上一代的提升
- 长上下文:从128K提升至256K
- 多语言:支持语言从80+种提升至113种
- 音视频理解:能力大幅提升
- 实时交互:新增语义打断、音色克隆、语音控制
- 语音输出:配合ARIA技术,稳定性和自然度进一步改善
总结
Qwen3.5-Omni 的发布,标志着阿里千问在全模态大模型领域迈出了重要一步。215项SOTA成绩、超越Gemini-3.1 Pro的性能、自然涌现的Vibe Coding能力,都展示了这款模型的强大实力。
对于开发者而言,Qwen3.5-Omni 提供了一个功能全面、性能强劲、成本优化的选择。无论是音视频理解、实时对话,还是智能任务执行,都能胜任。
在AI大模型竞争日益激烈的今天,国产模型正在快速追赶甚至超越国际领先水平。Qwen3.5-Omni 的发布,无疑为中国AI产业注入了一剂强心针。
全模态、全场景、全能力,Qwen3.5-Omni 来了!
没有啦 (T▽T)
延伸阅读:
全新发布!阿里千问全模态大模型 Qwen3.5-Omni 来了:215项SOTA霸榜,音视频理解超越Gemini
2026年3月30日,阿里巴巴旗下阿里千问正式发布全模态大模型 Qwen3.5-Omni,一经推出便凭借215项国际测试...
从 Claude Code 源码泄露看 Vibe Coding 的真相:工程化才是尽头
2026年3月,Claude Code 源码泄露事件在开发者社区引发轩然大波。然而,这场意外却让我们有机会一窥 Anth...
Claude Code 源码泄漏事件:Anthropic 意外打包 60MB Source Map,完整代码遭还原
2026年3月30日,AI 圈爆出重大安全事件!Anthropic 旗下 AI 编程工具 Claude Code 的 n...
52天74个发布!Anthropic打造出了AI时代最疯狂的团队!
2026年3月,一张图在 X 上疯传:有人统计了 Anthropic 从2月1号到3月24号的产品发布记录,做了一张 s...
Obsidian知识库:Markdown编写规范与实践指南
在信息爆炸的时代,如何高效地管理知识、建立个人知识库成为越来越多人关注的话题。Obsidian 作为一款本地优先的 Ma...