高性能计算 | 国产GPU厂商知多少

重点内容速览：

1. 景嘉微：覆盖传统与新兴领域

2. 寒武纪：全面拥抱大模型时代

3. 海光：全面兼容“类CUDA”环境

4. 燧原科技：从千卡级迈向万卡级
5. 天数智芯：支持多种生态框架
6. 沐曦：从推理到训练芯片

7. 壁仞科技：高算力GPGPU

8. 摩尔线程：聚焦全功能GPU

图形处理器（Graphics Processing Unit，简称GPU），是一种专门在个人电脑、工作站、游戏机和移动设备（比如平板电脑、智能手机等）上负责图像和图形相关运算工作的微处理器。根据应用端的不同，GPU常分为移动端GPU和桌面端GPU，其中桌面端又分为服务器GPU和PC端GPU。

图：国产GPU厂商（来源：芯查查）

自从2014年4月，景嘉微研发出国内首款国产GPU芯片JM5400后，我国GPU行业正式步入发展新进程。2017年之后，国产GPU行业进入高投入期，2019年以来，多家GPU初创企业先后成立，壁仞科技、摩尔线程、沐曦、登临、天数智芯、燧原科技、格兰菲、象帝先、芯瞳等公司均在此期间成立。加上一些老牌芯片设计公司入局GPU行业，根据芯查查的统计，目前国内GPU企业有30多家。

其中，景嘉微、寒武纪、海光信息、芯原股份、航锦科技（收购长沙韶光）、龙芯中科、兆芯等已经是上市企业，初创企业中，2024年8月开始，燧原科技（8月）、壁仞科技（9月）、摩尔线程（11月）、沐曦（2025年1月），以及格兰菲（2025年2月）陆续都启动了IPO辅导备案。接下来，就请跟随芯查查了解一下主流国产GPU企业的大致情况吧。

景嘉微：覆盖传统与新兴领域

景嘉微成立于2006年，总部在长沙，2016年在深交所创业板上市，是国内最早系统性研发GPU的企业，其产品主要分为图形处理器系统、小型雷达系统、GPU芯片。景嘉微成立之初，恰逢我国军用飞机图形显控系统由使用DSP与FPGA图形加速器向使用GPU图形处理器升级，公司准确把握机遇，将大量资源投入到飞机图形显控领域的研究。

2014年4月推出了国内首款高性能GPU产品JM5400；2018年面向桌面应用场景推出了JM72系列GPU芯片；2021年推出面向高端显示和计算应用场景的JH92系列GPU；2024年3月，景嘉微成功研发了景宏系列高性能智算模块与整机产品，支持INT8、FP16、FP32、FP64等混合精度运算，支持全新的多卡互联技术进行算力扩展，适配国内外主流CPU、操作系统及服务器厂商，填补了公司在AI训练、AI推理和科学计算等应用领域的产品空白；2024年12月3日，景嘉微发布公告，披露了其JM11系列GPU芯片已经完成流片、封装，以及初步测试阶段工作，该系列芯片支持国内外主流CPU，兼容Linux，Windows等国内外主流操作系统，支持虚拟化，可应用于图形工作站、云桌面、云游戏等应用领域。

今年以来，随着国产大模型的表现越来越优秀，国产GPU芯片也快速跟进，纷纷适配国产大模型，景嘉微自然也不例外。根据其官网信息，景嘉微JM系列完成了DeepSeek-R1-Distill-Qwen-1.5B模型和DeepSeek-R1-Distill-Qwen-7B模型的适配。同时，景宏系列已全面兼容并适配DeepSeek R1全系列模型，覆盖从1.5B至70B参数规模的LLaMA及千问模型架构。基于vLLM推理框架的部署方案，实现了高效推理性能与经济性的双重优势，为开发者提供了便捷的开发支持。该方案支持快速启动和使用，无需复杂配置，助力AI技术的规模化落地应用。

根据景嘉微与投资者关系活动信息的记录，景嘉微坚定看好GPU未来广阔的发展前景，持续投入GPU研发，全力推进由“专用”到“专用+通用”的发展战略，瞄准人工智能领域的应用方向，持续开展高性能GPU、模块，以及整机等产品的研发，丰富产品类型，加强外部技术合作，完善产业布局，联合行业上下游共同推进国产GPU应用生态建设。

该公司在研发投入上也毫不吝啬，2022年，公司研发投入3.15亿元，占营业收入的比例27.33%；2023年，研发投入3.31亿元，占营业收入的比例46.44%；2024年度，研发投入2.81亿元，占营业收入的比例60.18%；最近三个会计年度累计研发投入总额占累计营业收入的比例39.74%。而且，景嘉微还在2024年实施定向增发，募集了38.33亿元，以用于“高性能通用GPU芯片研发机产业化项目”和“通用GPU先进架构研发中心建设项目”两大项目。

寒武纪：全面拥抱大模型时代

寒武纪成立于2016年3月，自成立以来一直专注于人工智能芯片产品研发与技术创新，致力于打造人工智能领域的核心处理器芯片。其主要提供云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器IP及配套基础软件开发平台，产品广泛应用于消费电子、数据中心、云计算等诸多场景。

寒武纪先后推出了用于终端场景的寒武纪1A、寒武纪1H、寒武纪1M系列智能处理器；基于思元100、思元270、思元290芯片和思元370的云端智能加速卡系列产品；基于思元220芯片的边缘智能加速卡。其中，寒武纪智能处理器IP产品已经集成于超过1亿台智能手机及其他智能终端设备中，思元系列产品也已经应用于多家服务器厂商的产品中。据悉，思元220发布以来，累计销量已经突破百万片。

据其2024年年报显示，寒武纪在智能芯片领域掌握了智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等七大类核心技术；在基础系统软件技术领域掌握了编程框架适配与优化、智能芯片编程语言、智能芯片编译器、智能芯片数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境等七大类核心技术。

其中，其新一代智能处理器微架构和指令集正在研发中。新一代智能处理器微架构及指令集将对自然语言处理大模型、视频图像生成大模型，以及垂直类大模型的训练推理等场景进行重点优化，将在编程灵活性、易用性、性能、功耗和面积等方面提升产品竞争力。

寒武纪在2024年投入了10.7亿元进行研发，占其营业收入的91.3%。目前，该公司拥有研发人员741人，占员工总人数的75.61%，其中78.95%以上的研发人员拥有硕士及以上学历。截至2024年12月31日，寒武纪累计申请了2,743项专利，其中，境内专利1,051项，境外专利427项；发明专利1,403项、实用专利38项、外观设计专利37项。此外，寒武纪还拥有软件著作权64项，集成电路布图设计6项。

目前的人工智能领域，除了需要硬件平台之外，软件的适配也非常重要，越来越多的芯片厂商在软件方面投入了很多的资源。寒武纪也在持续推进训练软件平台的研发和改进，以满足客户需求。在2024年，寒武纪迭代更新了Megatron、Transformer、MLU Graph等重要功能，支撑了多个训练和推理的重点业务落地，实现了快速跟进社区版本的长效机制，可在社区版本发布后快速实现MLU适配版本发布。此外，实现了Transformers、Accelerate、DeepSpeed社区原生支持MLU。支持了Triton3.0.x全部原生特性，性能接近BangC手写算子。

在大模型方面，训练软件平台增加了对 DeepSeek 系列、Llama 系列、Qwen 系列等主流模型训练的支持。训练软件平台已支持并行训练功能，持续优化热点算子性能，通过优化融合算子、支持通算融合等优化策略，使得训练性能达到了业界主流水平，具备了更强的行业竞争力。同时，训练软件平台全面支持基于 ROCE 网卡的分布式通信功能，能够充分发挥网卡的峰值带宽，实现了接近线性扩展的多机分布式训练性能。

在推理软件平台方面，寒武纪成功支持并优化了DeepSeek系列、Llama系列、Qwen系列等主流文生文模型，以及Flux、Hunyuanvideo、cogvideox等多模态模型。深度整合PyTorch生态系统的多个核心组件，完成了对主流开源推理引擎vllm的全面适配等。

海光：全面兼容“类CUDA”环境

海光成立于2014年，是一家Fabless企业，公司产品包括海光通用处理器（CPU）和海光协处理器（DCU），具有成熟而丰富的应用生态环境，内置专用安全硬件，可满足互联网、金融、能源等行业的广泛应用需求。

2016年，海光微电子和海光集成成立，并分别于2016年和2017年与AMD签署《技术许可协议》获得授权。2017年至2023年，海光陆续推出多款海光通用处理器及海光协处理器产品，产品矩阵逐渐丰富。

海光DCU产品以GPGPU架构为基础，在技术架构上全面兼容“类CUDA”环境，并支持国际主流计算软件和人工智能软件，适用于大数据处理、人工智能和商业计算等密集类应用领域，主要部署在服务器集群或者数据中心。

2021年以前，海光主要以CPU产品为主，随着2021年深算一号DCU产品8000系列实现规模销售并商用，产品矩阵及收入结构逐步优化。其DCU按照代际进行升级迭代，每代际产品细分为8000系列的各个型号。目前深算三号研发进展顺利，预计性能将比深算二号翻倍增长。近日Qwen3正式发布并开源，海光迅速跟进，其DCU已经完成Qwen3全部8款模型的无缝适配与调优。

海光 DCU 基于通用图形处理器设计理念，具有全精度支撑能力，包括双精度、单精度、半精度、整型等，能够充分挖掘应用的并行性，发挥其大规模并行计算的能力，快速开发高能效的应用程序，为科学计算、人工智能计算提供算力，可以全面支持深度学习训练、推理场景，以及大模型场景等。海光 DCU 具备自主研发的 DTK 软件栈，是目前国内最为完备的生态之一，极大的减少了应用迁移难度。

海光宣称其DCU主要具有三大技术优势：一是强大的计算能力。海光 DCU 基于大规模并行计算微结构进行设计，具备全精度各种数据格式的算力，是一款计算性能强大、能效比较高的通用协处理器。二是高速并行数据处理能力。海光 DCU 集成片上高带宽内存芯片，可以在大规模数据计算过程中提供优异的数据处理能力，使海光 DCU 可以适用于广泛的应用场景。三是良好的软件生态环境。海光 DCU 采用 GPGPU 架构，解决了产品推广过程中的软件生态兼容性问题。公司通过参与开源软件项目，加快了公司产品的推广速度，并实现与 GPGPU 主流开发平台的兼容。

燧原科技：从千卡级迈向万卡级

燧原科技成立于2018年3月，总部位于上海张江，是一家专注于人工智能高性能计算芯片及算力基础设施的硬科技企业。公司由清华大学电子工程系校友赵立东（前AMD高级总监、紫光集团副总裁）和芯片专家张亚林（前AMD中国研发中心核心负责人）联合创立。

成立至今，燧原科技已经完成了10轮融资，累计融资额高达70亿元，其背后汇聚有众多知名投资机构，包括国家集成电路产业投资基金、腾讯投资、武岳峰科创、中金资本、CPE源峰、红点中国等，腾讯更是从Pre-A轮开始，连续投了6轮，成为燧原科技最大的股东。

成立以来，燧原科技共开发了4代5颗芯片，核心业务涵盖了芯片、板卡、智算一体机、液冷算力集群，以及配套的软件，包括基于“邃思”的云端训练加速卡“云燧T100”和第一代推理产品“云燧i10”，以及第二代训练产品“云燧T20/T21”和推理产品“云燧i20”，还有配套的“驭算”软件平台等等。

2019年5月，燧原科技的第一颗云侧AI训练芯片开始流片；2021年，燧原科技发布第二代通用人工智能训练芯片“邃思2.0”；2024年，其第三代产品量产。根据其官网的信息，燧原科技二代产品交付已经突破3万卡，三代产品在2024年也交付了5万卡。

大模型浪潮出现后，燧原科技也开始搭建多卡算力集群，且正从千卡级向万卡级迈进。目前，燧原科技已经在江苏无锡、四川成都、湖北宜昌和甘肃庆阳展开了千卡规模智算中心的建设。而且基于燧原科技S60推理算力集群的太湖亿片芯（无锡）智算中心和甘肃庆阳智算中心已经从2025年1月起对外提供推理算力服务。值得一提的是，DeepSeek-V3/R1模型（满血版和蒸馏版）均已经部署完毕。

而且在2024年8月26日，证监会官网发布公告，燧原科技已经正式启动A股IPO进程，并获中金公司受理辅导。

天数智芯：支持多种生态框架

天数智芯成立于2015年，总部位于上海，是一家专注于通用GPU芯片研发的企业。但其实该公司成立之初主要是做软件的，直到2018年才开始转型做GPU芯片。2018年6月，天数智芯决定研发通用GPU产品；2019年6月便完成软件栈框架设计；2020年5月成功流片，12月点亮；2021年12月实现量产。其首款芯片“天垓100”主攻AI训练任务，填补了国内芯片产业在高性能GPUGPU领域的空白。该芯片采用7nm制程，采用全自研的架构、计算核、指令集，以及基础软件栈，2.5D CoWoS封装技术，包括240亿个晶体管。

据其官网介绍，天垓100可支持200多种AI模型训练，适配X86、Arm、MIPS等架构CPU指令集，业界标准的软件API（应用程序编程接口）支持垂直类行业应用开发，支持国内外各种深度学习开发框架，以及软硬件全栈支持等。

除了天垓系列产品，天数智芯还有2022年12月20日推出的聚焦大模型推理的智铠100系列产品，该系列产品支持FP32、FP16、INT8等多精度推理混合计算，兼容CUDA生态。

大模型浪潮出现后，天数智芯也紧跟趋势，适配主流大模型。目前，天垓和智铠系统通用GPU产品已经适配DeepSeek、Colossal、BM Train等各种大模型框架。此外，其GPU能够有效支持LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pre-train（预训练）、和Fine-tune（微调），并适配了清华、智源、复旦等在内的国内多个研究机构的开源项目。

2024年底，天数智芯还与无问芯穹合作，在智铠GPU百卡推理集群上成功部署了无问芯穹Infini-AI异构云平台，并实现了多种主流大模型在该推理集群上的全功能适配，并正式对外提供MaaS服务。

沐曦：从推理到训练芯片

沐曦集成电路成立于2020年，总部位于上海临港新片区，公司致力于设计具有完全自主知识产权的通用GPU芯片，主要面向异构计算领域，包括传统GPU、移动应用、人工智能、云计算、数据中心等高性能计算需求场景。其创始人陈维良曾是AMD公司的全球GPGPU设计总负责人。联合创始人兼首席技术官（CTO）彭莉，是AMD全球首位华人女科学家（Fellow），之前担任AMD的首席架构师，有15年的高性能GPU设计经验。另一位联合创始人兼软件CTO杨建博士，则是AMD大中华区的第一位科学家（Fellow），曾在AMD和海思等公司担任首席架构师，拥有20年的大规模芯片及GPU软硬件设计经验。

目前，沐曦已经推出了多款GPU产品，包括用于AI推理的MXN系列（曦思）；用于AI训练、推理，以及通用计算的GPGPU芯片MXC系列（曦云）；以及专门用于图形渲染加速的MXG系列（曦彩），专门用于图形渲染加速。

其首款异构GPU产品MXN100采用了7nm制程，2022年8月硅片点亮；MXC500采用的也是7nm制程，使用了GPGPU架构，且在2023年6月完成功能测试。据悉，此芯片支持多卡互联。
据其官网介绍，MXC500拥有千亿参数的AI大模型训练及通用计算GPU，已经与北京智谱华章科技有限公司开源的中英双语对话模型ChatGLM2-6B完成了适配。

今年2月初，沐曦联手中国开源大模型平台Gitee AI发布了完整的DeepSeek-R1千问蒸馏模型。随后，在其基于曦云GPU的训推一体化系统上成功运行DeepSeek-V3/R1大模型。2月24日，沐曦还宣布他们的GPU率先跑通了DeepSeek的开源代码库FlashMLA。

壁仞科技：高算力GPGPU

壁仞科技成立于2019年，总部位于上海，是一家专注于通用GPU芯片研发及人工智能计算的企业。该公司在GPU、DSA（专用加速器）和计算机体系结构等领域具有深厚的技术积累。

2022年8月，壁仞科技推出的通用GPU芯片BR100，该芯片采用Chiplet技术，PCIe5.0，支持CXL互联协议，同步推出原创架构“壁立仞”和自研BIRENSUPA 软件平台，实现了 BR100 性能的大幅提升。发布会上，壁仞科技还发布了创造全球性能纪录的OAM服务器“海玄”，以及OAM模组“壁砺100”，PCIe板卡产品“壁砺104”，和自主研发的BIRENSUPA软件平台。

2024年9月，壁仞科技发布中国首个三种异构芯片混训技术。2024全球AI芯片峰会上，壁仞科技首次公布其自主原创的异构GPU协同训练方案HGCT，异构协同通信效率大于98%、端到端训练效率90-95%，从而突破了大模型异构算力孤岛难题。该方案突破了大模型异构算力孤岛难题，实现了中国在异构多GPU芯片算力训练技术领域的首次突破。

与天数智芯一样，壁仞科技在2024年11月，其“壁砺106系列”和“壁砺110系列”GPU产品已完成与无问芯穹Infini-AI异构云平台的全面接入。这些产品支持中间层、大模型算法库、工具库和应用层的分级部署、管理、加速等平台能力，以及各项优化策略。

2025年3月，壁仞科技宣布推出基于壁砺106全系列一体机，包括便捷4卡机、通用8卡机、高密16卡机，全面支持阿里通义QWQ-32B大模型推理。此外，近期壁仞还宣布凭借八大自主创新技术，实现DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理。

此外，2025年3月，壁仞科技完成IPO前的最后一轮融资，领投方是上海国投先导人工智能产业母基金，另有数家投资机构和产业资本跟投，不过具体融资金额并未公布。其实，在2024 年 9 月 12 日，壁仞科技已在上海证监局办理辅导备案登记，拟首次公开发行股票并上市，辅导券商为国泰君安。

摩尔线程：聚焦全功能GPU

摩尔线程成立于2020年10月，总部位于北京，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供AI计算支持。其核心成员来自NVIDIA，创始人兼CEO张建中曾任NVIDIA全球副总裁及中国区总经理，拥有15年行业经验，团队具备GPU研发、量产及生态建设的完整能力。

摩尔线程与NVIDIA类似，是国内少数聚焦全功能GPU的初创企业，能够实现通用计算、人工智能加速、图形渲染和视频编解码等。

2022年3月，摩尔线程发布全新MUSA统一系统架构，并推出第一代全功能GPU芯片“苏堤”及多款MTT S系列显卡、物理引擎AlphaCore、DIGITALME数字人解决方案等。
2022年11月，摩尔线程便发布第二颗全功能GPU芯片“春晓”，国内首款游戏显卡 MTT S80、元计算一体机 MCCX、系列 GPU 软件栈与应用工具、AIGC 创作平台“摩笔马良”等。
2023年5月，摩尔线程推出DirectX 11驱动、整机“智娱摩方”、MCCX VDI云桌面一体机，发布MUSA Toolkit 1.0 软件工具包及代码移植工具MUSIFY等。
2023年9月，摩尔线程发布新一代全功能GPU芯片“曲院”，推出大模型智算加速卡MTT S4000。MTT S4000计算卡可以充分利用现有CUDA软件生态，通过摩尔线程自研的MUSIFY开发工具，实现CUDA代码零成本迁移到MUSA平台。

2024年7月，摩尔线程宣布其AI旗舰产品夸娥（KUAE）智算集群解决方案从千卡级别大幅扩展至万卡规模。摩尔线程夸娥（KUAE）万卡智算集群，以全功能GPU为底座，旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台，专为万亿参数级别的复杂大模型训练而设计。

2024年11月中旬，摩尔线程也启动了A股IPO辅导备案。根据相关信息，摩尔线程目前估值255亿元，启动上市前已完成数轮累积数十亿元的融资。投资方包括中国移动、深创投、中银国际、建银国际、招商局创投、红杉资本等知名国资和风投机构。

对于国产大模型，摩尔线程也是第一时间进行了适配和部署，比如今年摩尔线程已经成功实现对DeepSeek各个开源项目的全面支持，涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统（3FS）。这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

消费级显卡方面，摩尔线程的MTT S80图形显卡已经正式支持DirectX 12 API，成为国内率先支持DirectX 12的国产GPU产品，从而使其能够流畅运行《黑神话：悟空》。