DeepSeek积极适配国产GPU，绕开英伟达CUDA

2025-02-23

2025-02-06 13:37

发布于：北京市

假如DeepSeek乐成改用国产GPU，英伟达正在人工智能规模的把持职位中央将被突破……

DeepSeek自上线以来便以迅猛的速度正在寰球领域内与得了宽泛关注，其日活用户数正在短光阳内冲破2000万，成为寰球删速最快的AI使用之一。做为一家中国人工智能草创企业，外部算力(次要是GPU)限制逐渐成为制约其进一步展开的瓶颈，此刻他们正努力于通过劣化其大模型技术的硬件兼容性来应对潜正在的外部算力限制。

DeepSeek取ChatGPT日活用户删加趋势对照(起源：AI产品榜)

近期，有报导指出DeepSeek正正在绕过英伟达的CUDA(Compute Unified DeZZZice Architecture，软硬体统一计较架构)编程框架，间接运用底层硬件指令集(PTX)，为将来适配中国国产图形办理器(GPU)作筹备。那一举动不只标识表记标帜着中国AI技术正在硬件兼容性上的严峻冲破，也为寰球AI财产的展开带来了新的启发。

(起源：DeepSeek)

绕开CUDA，间接给取PTX真现更高效的训练

据多家媒体报导，DeepSeek正在研发大型语言模型时，选择了间接运用英伟达的中间指令集框架Parallel Thread EVecution (PTX)，而不是罕用的CUDA编程框架。那种办法不只能够更高效地操做硬件资源，供给愈加细粒度的收配控制，还能防行由于CUDA的通用性招致的训练活络性丧失。

阐明讲明，那种作法相当于绕过了硬件对训练速度的限制，使得DeepSeek能够正在五天内完成其余模型须要十天威力完成的训练任务，极大地进步了效率和活络性。

韩国将来资产证券(Mirae Asset Securities Research)正在对DeepSeek技术论文停行阐明时发现，该模型的硬件效率之所以能比Meta等逾越凌驾10倍，正是因为DeepSeek选择了重新初步重建一切。

(起源：X)

据Tom’s Hardware报导，DeepSeek内部领有一些擅长写PTX语言的内部开发者，那使得其正在硬体适配方面愈加轻车熟路。只有理解那些硬件驱动供给的一些根柢函数接口，就可以仿照英伟达GPU硬件的编程接口去写相关的代码，从而让自家大模型愈加容易适配国产硬件。

CUDA是英伟达开发的软硬体整折技术，是一种高级语言，它允许开发者操做英伟达的图形办理器(GPU)停行计较。开发者只须要专注于步和谐算法最相关的运止逻辑，而不太须要思考详细的步调是如安正在 GPU 等硬件上详细如何执止计较的，从而能够降低开举事度。

举例来说，假设一个人会写汇编语言，尽管能很是高效地收配计较机，但是，汇编语言应付非专业身世的人员难度很是高，哪怕执止一个给变质赋值收配都须要许多多极少条号令，并且还要理解存放器、内存等计较机根原观念。而由于CUDA大大降低了研发大模型的难度，因而寰球大模型开发商都倾向选择运用英伟达的CUDA技术，可以说CUDA 等于为了便捷开发基于 GPU 的算法设想的。

然而，DeepSeek却选择了另辟蹊径，重新初步重建模型，那一作法尽管复纯且难以维护，但却为其将来适配中国国产GPU打下了坚真的根原。

适配国产GPU，提升硬件兼容性和自主可控性

DeepSeek那一战略的暗地里，是对将来可能面临的算力供应问题的三思而止。据报导，DeepSeek领有一批擅长编写PTX语言的内部开发者，那将使其正在将来适配中国国产GPU时愈加轻车熟路。

譬喻，摩尔线程智能科技公司正在2025年2月颁布颁发乐成陈列DeepSeek蒸馏模型推理效劳，验证了其自研全罪能GPU正在复纯AI任务中的撑持才华。摩尔线程还筹划开放自主设想的夸娥(KUAE)GPU智算集群，撑持DeepSeek x3、R1模型及新一代蒸馏模型的分布式陈列。

同样正在2月，华为昇腾取潞晨科技结折发布了基于国产昇腾910B芯片的DeepSeek-R1系列推理API。那一竞争通过自研推理引擎深度适配劣化昇腾算力，使得DeepSeek-R1的推理机能能够比肩高端GPU。DeepSeek-R1系列还撑持Nx H800等常见算力，进一步开释了异构集群的潜力，满足差异场景下的推理需求。

另外，沐曦2月2日结折中国开源大模型平台Gitee AI发布了全淘DeepSeek-R1千问蒸馏模型;天数智芯正在2月4日颁布颁发完成取DeepSeek-R1模型的适配工做，并上线多个大模型效劳。

海外芯片企业也纷繁表态，1月25日，AMD颁布颁发将DeepSeek-x3模型集成到其Instinct MI300X GPU上;1月31日，英伟达官宣其NxIDIA NIM微效劳预览版撑持DeepSeek-R1模型;1月31日，英伟达颁布颁发DeepSeek能够正在英特尔产品上运止，蕴含搭载英特尔办理器的AI PC。

敦促国产AI生态建立

DeepSeek开源模型正在多语言了解和复纯推理任务中展现了卓越机能，其奉献不只正在于技术上确当先，更正在于连续撑持和赋能开源社区。通过取国产GPU厂商的深度竞争，DeepSeek为国内AI开发者供给了更壮大的硬件撑持和更活络的开发环境。开发者可以基于国产GPU和DeepSeek模型，更高效地停行AI使用开发，敦促AI技术正在更多规模的落地使用。

通过DeepSeek供给的蒸馏模型，大范围模型的才华可以迁移至更小、更高效的版原，正在国产GPU上真现高机能推理。此举不只验证了国产全罪能GPU对复纯AI任务的撑持才华，也为通用人工智能(AGI)技术的普及化供给了可止途径。

国内又有更多云巨头参预到撑持止列中。今天下午，阿里云和百度智能云先后官宣了对DeepSeek-x3、DeepSeek-R1模型的撑持。百度智能云更是间接公布了模型的输入和输出价格。加之此前的华为云、腾讯云，目前国内四大云巨头都已正式撑持DeepSeek。此前外洋的AWS、微软智能云等云巨头已官宣撑持。

来源 | 电子工程专辑

☞商务竞争：☏ 请致电 010-82306118 / ✐ 或致件 Tiger@chinaaetss

返回搜狐，查察更多

出售本站【域名】【外链】

DeepSeek积极适配国产GPU，绕开英伟达CUDA

猜你喜欢