Claude Opus 4.7:编程能力+13%,价格不变

🔥 Claude Opus 4.7 正式发布:编程能力全面超越
Anthropic 正式发布Claude Opus 4.7,这是 Opus 系列的最新版本:
- 编程能力全面超越:93-task benchmark 提升 13%
- 更省 token:低努力的 Opus 4.7 ≈ 中等努力的 Opus 4.6
- 更听话:严格遵循指令,减少工具错误
Opus 4.7 在高级软件工程方面有显著改进,特别在最困难任务上表现出色。
📊 关键数据
| 指标 | Opus 4.7 vs Opus 4.6 |
|---|---|
| 93-task 编程基准 | +13% 提升 |
| 工具错误率 | 减少 1/3 |
| CursorBench | 70% vs 58% |
| 视觉精度基准 | 98.5% vs 54.5% |
🧠 核心改进
1. 复杂任务更可靠
Opus 4.7 在复杂、长期运行的任务上表现更出色:
- 严谨一致性:处理复杂任务时保持严谨和一致
- 精确遵循指令:严格遵循用户指令
- 自我验证:设计方法验证自己的输出
2. 更高分辨率视觉
视觉能力大幅提升:
- 更高分辨率:可以更高分辨率查看图像
- 更好的品味:完成专业任务时更有品味和创意
- 更高质量:生成更好的界面、幻灯片和文档
3. 减少工具错误
Opus 4.7 的工具调用更可靠:
- 工具错误减少 1/3:更稳定的工具调用
- 错误恢复:遇到工具失败时继续执行,而不是停止
- 更高的质量/工具调用比率:每个工具调用产出更高质量
💰 定价不变
Opus 4.7 定价与 Opus 4.6 相同:
| 类型 | 价格 |
|---|---|
| 输入 tokens | $5/百万 |
| 输出 tokens | $25/百万 |
更省 token:低努力的 Opus 4.7 ≈ 中等努力的 Opus 4.6,意味着成本更低。
🎯 与 Mythos Preview 的关系
Anthropic 明确表示:
- Mythos Preview 比 Opus 4.7 更强大,但限制发布
- Opus 4.7 是第一个测试新安全防护的模型
- 网络安全能力:Opus 4.7 不如 Mythos Preview
- 安全防护:自动检测和阻止高风险网络安全请求
网络安全验证计划
安全专业人员可以申请网络安全验证计划:
- 漏洞研究
- 渗透测试
- 红队测试
💡 用户反馈
Vercel:
- “单次编码任务非常出色,比 Opus 4.6 更正确、更完整”
- “更诚实地承认自己的限制”
- “甚至在开始工作前对系统代码做证明”
Cursor:
- “CursorBench 提升明显:70% vs 58%”
- “自主性和更创意的推理”
Devin:
- “可以连续工作数小时”
- “遇到困难问题坚持前进,而不是放弃”
- “解锁了以前无法可靠运行的深度调查工作”
Notion:
- “+14% 成功率,更少 token”
- “第一个通过隐式需求测试的模型”
- “继续执行工具失败,而不是停止”
Rakuten:
- “Rakuten-SWE-Bench 解决3倍更多生产任务”
- “代码质量和测试质量两位数提升”
📝 总结
Claude Opus 4.7 是编程能力的重大提升:
- +13% 编程基准,70% vs 58% CursorBench
- 更省 token:低成本高质量
- 更听话:严格遵循指令,减少工具错误
- 自我验证:验证自己的输出
- 视觉提升:98.5% vs 54.5% 视觉精度
- 定价不变:$5/1M 输入,$25/1M 输出
编程能力全面超越,但价格不变。这就是 Opus 4.7。
官方公告:https://www.anthropic.com/news/claude-opus-4-7
Claude API:https://platform.claude.com/docs/en/about-claude/models/overview
延伸阅读:
一行命令干翻5个API!阿里云百炼CLI开源,Agent水电煤之战正式开打
5月29日,阿里云干了一件让 Agent 开发者集体高潮的事——百炼核心能力正式 CLI 化,一行命令就能让 AI Ag...
20亿用户握手!PayPal钱包正式接入微信支付,老外来华扫码时代到了
5月27日,支付圈传出来一个让人眼前一亮的消息:腾讯财付通全球与 PayPal World 正式达成合作,PayPal ...
支付宝杭州扔下王炸:3亿笔智能体支付已跑通,AI付Token Pay四件套定义新范式
5月26日下午,支付宝在杭州未来科技城国际会议中心办了一场叫"AI 支付生态大会"的活动。表面看是常规的产品发布会,实际...
渗透圈一夜变天!Xalgorix 22阶段全自动 AI 攻击平台开源,国产模型直接接
渗透测试这行最累的是什么?不是写报告,是重复劳动——侦察、目录爆破、注入点测试、SSRF 验证、CORS 检查……一个标...
Claude Mythos 企业版挖出超1万高危漏洞:Anthropic 联手13家巨头建AI安全联盟
Anthropic 最近搞了个大动作,但这次不是发新模型那么简单。4月7日,它联合了一串你可能做梦都想不到会站在一起的公...