澳纽网5月30日讯 中国AI初创公司DeepSeek再次震撼全球人工智能界,其最新发布的DeepSeek-R1-0528模型在多项基准测试中表现卓越,已跃升为全球第二大AI实验室,并成为开源模型领域无可争议的领导者。
[xyz-ihs snippet=”In-article-ads”]性能实现历史性突破
DeepSeek在开发者平台Hugging Face上表示,R1-0528是R1的小版本升级,但显著改善了推理深度和推理能力,包括更好地处理复杂任务,使其性能更接近OpenAI的o3推理模型和Google的Gemini 2.5 Pro。
在AIME 2025数学竞赛测试中,新版本准确率从70%大幅提升至87.5%,这一突破源于推理过程中思维深度的显著增强。在AIME测试集中,DeepSeek-R1平均每个问题消耗12K token,而升级后的R1-0528平均每个问题使用23K token,体现了更深入的思考过程。
[xyz-ihs snippet=”GoogleADresponsive”]幻觉率大幅降低45%-50%
此前DeepSeek-R1因幻觉率高达14.3%而备受批评,经过先进的后训练优化,新版本实现了50%的AI”幻觉”减少。在改写润色、总结摘要、阅读理解等场景中,新模型能提供更加准确、可靠的结果。
该模型的幻觉率已经降低,有助于产生更可靠和一致的输出,特别是在论文、小说、散文等复杂文本处理方面表现出色。
[xyz-ihs snippet=”googleAD300x100″]技术能力全面升级
DeepSeek-R1-0528在三个关键领域实现了重大突破:
前端代码生成能力增强:模型可以在几分钟内创建完整的应用程序,包括复习卡片、搜索功能、学习统计等全套功能。
支持JSON输出和函数调用:新增工具调用功能,能主动调用爬虫插件获取网页内容并进行总结,在Tau-Bench测评中取得airline 53.5%/retail 63.9%的成绩。
蒸馏版本突破:基于Qwen3-8B开发的蒸馏版本DeepSeek-R1-0528-Qwen3-8B,可在单个GPU上运行,使爱好者也能使用,在AIME 2024测试中性能与参数量达235B的Qwen3-235B相当。
全球AI格局重新洗牌
根据独立AI分析网站Artificial Analysis的最新评估,DeepSeek的R1强势超越xAI、Meta和Anthropic,成为全球第二大AI实验室。DeepSeek-R1-0528在智能指数中从60分跃升至68分,这一提升幅度与OpenAI的o1到o3的进步(62分到70分)相当。
该成就使DeepSeek R1的智能水平超过了xAI的Grok 3 mini、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里的Qwen 3 253B,与谷歌的Gemini 2.5 Pro并驾齐驱。
[xyz-ihs snippet=”In-article-ads”]开源模式引领行业变革
DeepSeek今年凭借其免费开源的R1推理模型超越了包括Meta和OpenAI在内的竞争对手,一举成名。这一成功模式为全球AI发展带来三个重要启示:
开源与闭源差距缩小:DeepSeek今年1月的R1发布首次让开源模型登上第二位,此次R1更新再次巩固了这一地位。
中美AI技术并驾齐驱:来自中国AI实验室的模型几乎完全赶上了美国同行,在人工智能分析智能指数中领先于Anthropic和Meta等美国AI实验室。
强化学习推动技术进步:DeepSeek在相同架构和预训练基础上展示了显著的智能提升,证明了后训练的重要性,特别是通过强化学习技术训练的推理模型。
技术民主化的里程碑
中国人工智能初创公司DeepSeek在周四凌晨发布了其R1推理模型的更新版本,加剧了与OpenAI等美国竞争对手的竞争。这一发布不仅标志着中国AI技术的重大突破,也代表了全球AI技术从”单极霸权”转向”多极共生”的历史性转变。
DeepSeek的成功证明,通过开源模式和技术创新,中等规模的AI实验室同样能够在全球竞争中占据重要地位,为AI技术的普及和发展开辟了新的路径。随着R2版本的开发已经提上日程,DeepSeek有望在全球AI竞争中发挥更加重要的作用。
(澳纽网网综合报道)
[xyz-ihs snippet=”MoreTechNews”] [xyz-ihs snippet=”multiple-ads”]531 views