北京时间5月23日凌晨,AI圈又迎来了一个重磅新闻!Anthropic公司正式发布了下一代AI模型:Claude Opus 4和Claude Sonnet 4。本次发布的新模型号称全球最强编码模型,不仅能完成更复杂的推理任务,还能变身为超级AI Agent。
这次发布可不只是简单的升级,Claude 4的到来意味着AI技术,尤其是AI Agent的能力,将进入一个全新的阶段。更让人兴奋的是,普通用户也可以直接免费体验到Claude Sonnet 4的强大功能。
Anthropic本次发布了两款全新模型,分别是Claude Opus 4和Claude Sonnet 4,两者在功能定位上各自侧重,能够满足不同用户的需求。
Claude Opus 4被定位为旗舰产品,是Anthropic迄今为止最强大的模型。该模型专为处理复杂的推理流程和软件开发场景而设计,在权威的SWE-bench测试中取得了72.5%的高分。Anthropic将其称为“世界最强编码模型”,这个称号也确实名副其实。
Claude Sonnet 4主打性价比,让更多用户能够体验到Claude 4的强大能力。虽然定位为性价比版本,但其实力同样不容小觑。在SWE-bench测试中,Sonnet 4取得了72.7%的优异成绩,甚至略高于Opus 4。对于大多数日常应用和企业场景来说,Sonnet 4都能提供强大且实用的解决方案。
Claude Opus 4和Claude Sonnet 4模型均支持两种不同的工作模式。第一种是即时响应模式,能够在几秒内给出答案,非常适合日常聊天和快速问答等场景。第二种是扩展思考模式,允许模型进行深度推理,会花费更多时间来处理复杂问题,特别适合编写代码和进行学术研究等需要深入思考的工作。
在价格方面,Claude Opus 4和Claude Sonnet 4都保持了合理的定价。Claude Sonnet 4的API价格与前代3.7版本完全一致,每百万token的输入价格为3美元,输出价格为15美元。Claude Opus 4的API价格相对较高,每百万token的输入价格为15美元,输出价格为75美元,整体价格是Sonnet 4的五倍。
Anthropic官方直接表示,Claude Opus 4是全世界最优秀的编程模型。这个判断可不是随便说说的,而是有着扎实的数据支撑。
在SWE-bench Verified这个权威基准测试中,Claude Opus 4拿下了72.5%的优异成绩,而Claude Sonnet 4更是达到了72.7%的出色表现。SWE-bench测试专门用来考验AI模型解决真实软件工程问题的能力,Claude 4系列在这项测试中的亮眼表现充分说明了其技术实力有多强。
与主要竞争对手相比,Claude 4系列的表现确实抢眼。OpenAI的o3模型虽然在某些领域表现不错,但在编程场景下已经被Claude 4全面超越了。谷歌的Gemini 2.5 Pro在各项基准测试中都明显落后于Claude 4系列。更厉害的是,就连免费提供给用户的Claude Sonnet 4,和o3、Gemini 2.5 Pro比起来也完全不逊色。
这种编程能力的大幅提升对开发者来说意义重大。不管你是要写Python爬虫程序、搭建复杂的Web应用,还是解决高难度的算法问题,Claude 4都能给你更准确、更高效的解决方案。
代理能力(Agentic)是Claude 4的另一个重要亮点,这项能力让AI模型从简单的问答工具真正进化成了智能助手。
Claude 4现在具备了主动使用工具的能力。在扩展思考模式下,模型能够自主判断什么时候需要联网搜索最新信息,什么时候需要调用其他API接口,完全不用用户手把手地指导。这种自主决策能力让AI的实用性得到了大幅提升。
更让人印象深刻的是,Claude 4支持并行处理多项任务。模型可以同时使用多个工具,比如一边搜索相关资料一边分析数据,或者一边编写代码一边进行测试运行。这种并行处理能力目前只有OpenAI最先进的o3模型才能做到。
Claude Opus 4还具备了持久记忆功能。在用户授权的情况下,模型可以创建和维护”记忆文件”来存储关键信息。这意味着AI在执行长期任务时能够保持上下文的连贯性,甚至能够在协助项目开发时自主做笔记和总结工作。
最值得关注的是,Claude Opus 4能够连续工作将近7小时,这在AI领域创造了全新的纪录。以往的AI模型通常只能处理比较短时间的任务,而Claude 4的这种持久工作能力为复杂项目的完成提供了真正的可能性。
Claude 4在安全等级方面实现了重要突破。这个模型是首个达到ASL-3安全等级的AI产品。
在Anthropic的安全评估体系中,AI模型被划分为四个不同的安全等级。等级越高表示模型能力越强,但同时潜在的安全风险也会相应增加。Claude 4达到了ASL-3级别,而前一代的Claude 3.5/3.7以及OpenAI的GPT-4o都只是ASL-2级别。
Claude 4在指令执行方面的表现更加可靠了。新模型能够更准确地理解和执行用户的指令,大大减少了误解和偏差的情况。特别是在执行复杂任务时,模型的表现变得更加稳定和可预测。
特别值得一提的是,Claude 4显著减少了”捷径”行为。这种偷懒或者走捷径完成任务的不当行为比上一代Sonnet 3.7减少了超过65%。这个改进让AI在执行代理任务时变得更加可靠,也更值得用户信赖。
针对复杂的思考过程,Claude 4还引入了思考总结功能。当模型进行深度推理时,会自动生成清晰的思考总结,帮助用户更好地理解模型的决策逻辑和推理过程。这种透明度的提升对于建立用户信任来说意义重大。
国内用户使用Claude Opus 4和Claude Sonnet 4模型的方法有很多,我们为大家整理了五种最适合普通用户的常见方式,大家可以根据自己的实际情况选择合适的方法。更多详情请访问:国内使用Claude的五种方法:无需魔法,免费使用!