刚刚!DeepSeek紧要发布!梁文锋参与共创!
发布日期:2025-03-24 09:14 点击次数:67每经裁剪 金冥羽
2月18日,DeepSeek在外洋酬酢平台发布了一篇纯时刻论文叙述,论文主要内容是对于NSA(Natively Sparse Attention,原生稀少防卫力)。
据先容,NSA专为长文本考试与推理蓄意,能哄骗动态分层稀少政策等治安,通过针对当代硬件的优化蓄意,显耀优化传统AI模子在考试和推理流程中的施展,相配是提高长陡立文的推理才调,在保证性能的同期提高了推理速率,并有用裁汰了预考试资本。

在这篇名为《原生稀少防卫力:硬件对皆且可原生考试的稀少防卫力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文签字中,DeepSeek首创东谈主兼CEO梁文锋也行为共创在列。

其他盘考东谈主员来自DeepSeek、北大和华盛顿大学,其中第一作家Jingyang Yuan(袁景阳)是在DeepSeek实习时期完成的这项盘考。
值得一提的是,当天中午12点(太平洋时候17日晚8点),马斯克旗下AI公司xAI发布了Grok 3过甚精简版Grok 3 mini。发布会继承视频直播形势,不雅看东谈主数超越100万东谈主。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模子的复兴,它不错分析图像和回答问题,并为X上的很多功能提供撑握。此前马斯克在X上造势称,Grok 3是“地球上最贤达的东谈主工智能”。
在这次直播中,马斯克表现,内容上,到考试进行到92天时,集群的畛域还是扩大到了20万块GPU。
裁剪|金冥羽 杜波

累赘裁剪:何松琳