全新发布!阿里千问全模态大模型 Qwen3.5-Omni 来了:215项SOTA霸榜,音视频理解超越Gemini

2026年3月30日,阿里巴巴旗下阿里千问正式发布全模态大模型 Qwen3.5-Omni,一经推出便凭借215项国际测试SOTA成绩、极致成本优势和突破性音视频理解能力,在开发者社区引发热议。这款模型不仅能无缝理解文本、图片、音频及音视频输入,更在多项任务上超越 Google Gemini-3.1 Pro,还自然涌现出了 Audio-Visual Vibe Coding 能力。本文将详细介绍 Qwen3.5-Omni 的核心亮点、技术突破和应用场景。

Qwen3.5-Omni封面

核心亮点一览

Qwen3.5-Omni 是阿里千问推出的最新一代全模态大模型,核心亮点包括:

  • 全模态理解:无缝理解文本、图片、音频及音视频输入
  • 215项SOTA霸榜:在音频及音视频分析、推理、对话、翻译等任务超越 Gemini-3.1 Pro
  • Audio-Visual Vibe Coding:自然涌现的音视频编程能力
  • 实时对话:支持语义打断、音色克隆及语音控制
  • 超长上下文:支持256K超长上下文与113种语言识别
  • 智能任务执行:原生支持WebSearch和复杂Function Call

音视频理解能力

视频创作与剪辑

上传一段视频,Qwen3.5-Omni-Plus能够遵循指令生成细粒度、结构化、带时间戳的准确Caption:

  • 画面里是谁、说了什么话
  • 背景音乐从哪一秒开始变化
  • 镜头切了几次
  • 每一帧发生了什么
  • 判断视频是否有敏感内容
  • 将长视频变成可搜索的结构化笔记

音视频指令生成代码

根据你的要求,Qwen3.5-Omni 能直接生成可运行的代码。这是本次最惊喜的发现:未进行专门训练,模型自然涌现出了Vibe Coding能力。它可以根据画面逻辑生成 Python 代码或前端原型,让创意验证从看到做只需一步。

更像真人的实时对话

和 Qwen3.5-Omni 聊天,更像是在跟真人交流:

  • 懂得倾听的分寸:咳嗽声或随口附和不会让它误停下来,但你的真正插话它能瞬间接住
  • 语音控制:指令它小声点、用开心的语气,像人一样自由控制声音的大小、语速与情绪
  • 音色克隆:上传一段你的录音,就能定制专属的AI Assistant音色,支持多种语言生成

你可以打造一个数字分身式助手,让它用你的声音去沟通、去陪伴,让交互更具个性化。

智能任务执行

不止是聊天,Qwen3.5-Omni 还能帮你办事:

询问明天北京天气如何,推荐一家酒店,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持 WebSearch 和复杂工具调用,让模型真正成为你的执行助手。

性能表现:215项SOTA霸榜

Qwen3.5-Omni-Plus 在音频/音视频的理解、推理和交互任务上,共取得 215项SOTA成绩,涵盖:

  • 音视频理解
  • 音频理解
  • 语音识别
  • 语音翻译
  • 语音生成

对比 Gemini-3.1 Pro:

  • 通用音频理解、推理、识别、翻译、对话全面超越
  • 音视频理解能力总体达到 Gemini-3.1 Pro 水平
  • 视觉和文本能力与同尺寸 Qwen3.5 模型持平

三种尺寸,满足不同场景

版本特点适用场景
Plus最强性能复杂任务、专业应用
Flash平衡性能与速度日常使用、快速响应
Light轻量级移动端、资源受限场景

技术规格

规格参数
上下文长度256K
语言支持113种
音频处理超过10小时
视频处理1小时(720P,1 FPS)
架构混合注意力MoE

如何使用

用户可以通过阿里云百炼搜索 Qwen3.5-Omni 调用 API,提供了 Plus、Flash、Light 三种尺寸,满足不同场景需求。

相比上一代的提升

  • 长上下文:从128K提升至256K
  • 多语言:支持语言从80+种提升至113种
  • 音视频理解:能力大幅提升
  • 实时交互:新增语义打断、音色克隆、语音控制
  • 语音输出:配合ARIA技术,稳定性和自然度进一步改善

总结

Qwen3.5-Omni 的发布,标志着阿里千问在全模态大模型领域迈出了重要一步。215项SOTA成绩、超越Gemini-3.1 Pro的性能、自然涌现的Vibe Coding能力,都展示了这款模型的强大实力。

对于开发者而言,Qwen3.5-Omni 提供了一个功能全面、性能强劲、成本优化的选择。无论是音视频理解、实时对话,还是智能任务执行,都能胜任。

在AI大模型竞争日益激烈的今天,国产模型正在快速追赶甚至超越国际领先水平。Qwen3.5-Omni 的发布,无疑为中国AI产业注入了一剂强心针。

全模态、全场景、全能力,Qwen3.5-Omni 来了!

暂无介绍....

延伸阅读:

全新发布!阿里千问全模态大模型 Qwen3.5-Omni 来了:215项SOTA霸榜,音视频理解超越Gemini

2026年3月30日,阿里巴巴旗下阿里千问正式发布全模态大模型 Qwen3.5-Omni,一经推出便凭借215项国际测试...

itadol5j
2026年4月1日
从 Claude Code 源码泄露看 Vibe Coding 的真相:工程化才是尽头

2026年3月,Claude Code 源码泄露事件在开发者社区引发轩然大波。然而,这场意外却让我们有机会一窥 Anth...

itadol5j
2026年4月1日
Claude Code 源码泄漏事件:Anthropic 意外打包 60MB Source Map,完整代码遭还原

2026年3月30日,AI 圈爆出重大安全事件!Anthropic 旗下 AI 编程工具 Claude Code 的 n...

itadol5j
2026年3月31日
52天74个发布!Anthropic打造出了AI时代最疯狂的团队!

2026年3月,一张图在 X 上疯传:有人统计了 Anthropic 从2月1号到3月24号的产品发布记录,做了一张 s...

itadol5j
2026年3月31日
Obsidian知识库:Markdown编写规范与实践指南

在信息爆炸的时代,如何高效地管理知识、建立个人知识库成为越来越多人关注的话题。Obsidian 作为一款本地优先的 Ma...

itadol5j
2026年3月31日