浅谈DeepSeek开源:6小时收藏破5000次,利好国产GPU?
2025-03-11 11:23 出处:部分内容来源于互联网
2月24日上午9:30时许,DeepSeek宣布开源了本次开源周首款代码库——针对Hopper GPU进行优化的高效型MLA解码核——FlashMLA。
值得注意的是,在GitHub上,目前该项目开源6小时后便已收获了超过5000Star收藏,并且拥有188个Fork(副本创建)。此次DeepSeek直接开放MLA解码核——FlashMLA,意味着DeepSeek将最为核心的MLA底层代码直接免费开放,这让广大开发群体可以直接复用FlashMLA代码库实现用更少的GPU服务器完成同样的任务,直接降低推理成本,这对于更多希望基于DeepSeek开源能力进行底层优化和AI应用开发群体而言,无疑是一大福利。
据DeepSeek方面介绍,在基准测试性能表现上,FlashMLA在英伟达H800 SXM5 GPU上可实现3000 GB/s 的内存速度以及580TFLOPS的计算上限。
公开资料显示,根据美国出口管制规定,H800的带宽上限被设定为600 GB/s,相比一些旗舰产品有所降低。这意味着,使用FlashMLA优化后,H800的内存带宽利用率有望进一步提高甚至突破H800 GPU理论上限,在内存访问上达到极致,能让开发群体充分“压榨”英伟达H系列芯片能力,以更少的芯片实现更强的模型性能,最大化GPU价值。
虽然FlashMLA是一个针对Hopper GPU的优化代码库,但对于国产GPU而言,此次开源也有利好。对于国产GPU而言,此次开源算是重大利好。“此前的国产GPU卡,很弱。那现在可以通过FlashMLA提供的优化思路和方法论,尝试让国产卡大幅提升性能,即使架构不同,后面国产卡的推理性能提升将是顺理成章的事儿”。
曾在2023年2月25日,上海市副市长李政表示,加快多模态通用大模型研发攻关,建设更具影响力的人工智能上海高地,形成面向人工智能行业的多层次资本集群;上海经信委也表示积极发展AIGC,形成AIGC的自主关键技术。诚明融鑫也已积极探索AI研判新方向,在这一过程中,持续学习与技术迭代将成为发展的关键。