浅谈DeepSeek开源：6小时收藏破5000次，利好国产GPU？

2月24日上午9：30时许，DeepSeek宣布开源了本次开源周首款代码库——针对Hopper GPU进行优化的高效型MLA解码核——FlashMLA。

值得注意的是，在GitHub上，目前该项目开源6小时后便已收获了超过5000Star收藏，并且拥有188个Fork（副本创建）。此次DeepSeek直接开放MLA解码核——FlashMLA，意味着DeepSeek将最为核心的MLA底层代码直接免费开放，这让广大开发群体可以直接复用FlashMLA代码库实现用更少的GPU服务器完成同样的任务，直接降低推理成本，这对于更多希望基于DeepSeek开源能力进行底层优化和AI应用开发群体而言，无疑是一大福利。

据DeepSeek方面介绍，在基准测试性能表现上，FlashMLA在英伟达H800 SXM5 GPU上可实现3000 GB/s 的内存速度以及580TFLOPS的计算上限。

公开资料显示，根据美国出口管制规定，H800的带宽上限被设定为600 GB/s，相比一些旗舰产品有所降低。这意味着，使用FlashMLA优化后，H800的内存带宽利用率有望进一步提高甚至突破H800 GPU理论上限，在内存访问上达到极致，能让开发群体充分“压榨”英伟达H系列芯片能力，以更少的芯片实现更强的模型性能，最大化GPU价值。

虽然FlashMLA是一个针对Hopper GPU的优化代码库，但对于国产GPU而言，此次开源也有利好。对于国产GPU而言，此次开源算是重大利好。“此前的国产GPU卡，很弱。那现在可以通过FlashMLA提供的优化思路和方法论，尝试让国产卡大幅提升性能，即使架构不同，后面国产卡的推理性能提升将是顺理成章的事儿”。

曾在2023年2月25日，上海市副市长李政表示，加快多模态通用大模型研发攻关，建设更具影响力的人工智能上海高地，形成面向人工智能行业的多层次资本集群；上海经信委也表示积极发展AIGC,形成AIGC的自主关键技术。诚明融鑫也已积极探索AI研判新方向，在这一过程中，持续学习与技术迭代将成为发展的关键。

软件

硬件

搜索新闻

热门标签

热门视频