涨幅超300%，市值重回1000亿，市场为何还不买账？|世界热头条

2023-04-20 22:50:16　　来源：凯恩斯

(资料图)

今天A股算力概念大涨，寒武纪强出天际，相比开年的54.56块每股，今天已经到了258块了，今年至今涨幅已达300%，总市值突破千亿关口，距离上市初的1200亿巅峰市值更近一步，海光信息今天也一举突破2000亿，天孚通信、中际旭创等个股跟涨。让这些各个大爆发的，无疑是国产大模型爆发，市场预计将调用超大规模算力，或将引发算力缺口。由于AI模型训练需要海量的算力，大模型或将引发算力缺口，不少厂商开始做算力方向，AI芯片又是AI算力基础设施的关键组成。国产大模型对上游AI芯片算力提出了更高的要求。今天顶着千亿市值光滑、科创板AI芯片第一股的寒武纪，目前主要的产品线包括云端产品线、边缘产品线、IP 授权及软件，其中AI算力专用芯片是属于寒武纪云端产品线，目前主推的云端产品思元290和思元370及相应的云端智能加速卡系列产品、训练整机。寒武纪做AI芯片做了很多年，2019年6月，就推出了第二代云端AI芯片思元270（MLU270）及板卡产品，思元270板卡产品面向人工智能推断任务，在ResNet50上推理性能超过10000fps。思元270芯片处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍，达到128TOPS（INT8）；同时兼容INT4和INT16运算，理论峰值分别达到256TOPS和64TOPS；支持浮点运算和混合精度运算。

还推出过思元220，是主要用来深度学习的SOC边缘加速芯片，采用TSMC 16nm工艺，具有高算力，低功耗和丰富的I/O接口。这款芯片采用了寒武纪在处理器架构领域的一系列创新性技术，其架构为寒武纪最新一代智能处理器MLUv02，实现最大32TOPS（INT4）算力，而功耗仅10W。去年三月份，寒武纪推出新款训练加速卡“MLU370-X8”，搭载双芯片四芯粒封装的思元370，MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370，也就是每张卡两颗芯片，每颗芯片内封装两个Die，因此可提供两倍于思元370加速卡的内存、编解码资源。架构基于Cambricon MLUarch03，支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算，峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。该卡采用7nm制造工艺，集成48GB LPDDR5内存，内存带宽614.4GB/s，PCIe 4.0 x16系统接口，整卡最大训练功耗250W，全高全长双插槽设计，系统被动散热。除了现有产品，在2022 年世界人工智能大会上，寒武纪的董事长透露了寒武纪最新一代云端智能训练芯片思元590，该芯片采用MLUarch05 全新架构，实测训练性能较在售旗舰产品思元290 系列有大幅提升，有望成为国产先进AI 算力芯片。该芯片目前尚未发布，但该芯片面积为800mm2，已经接近A100的826mm2。

之前百度集团的一份交流纪要显示，文心一言将调用超大规模算力，并且尝试使用寒武纪思元590替代英伟达A100，让寒武纪的思元系列更受到关注。不过我们也要意识到，思元的产品在百度文心一言中有小规模的部署，也只是文心一言中众多业务场景的一小部分，还是没有能够做到大规模部署。可能现在寒武纪的产品多用于大规模推理中的一小部分场景，在大模型训练上还有很多的不足。

有产品，还差在哪？

为什么思元的产品不能大规模部署和应用，大多是原因是寒武纪的思元590这款芯片智能运行大模型的推理部分，但这款产品不属于通用形式的GPU。而且寒武纪现有的产品还没有大规模部署的能力。那么为什么说没有这个能力，主要是要看寒武纪的供应链是不能支撑得起这些芯片的大规模出货，可能需要几万个芯片，寒武纪能不能生产和推广，如果可以做到，那么这些推广出的芯片是不是有庞大的客户购买这些芯片？这些芯片的质量和性能够不够支持大模型的推理和训练？是不是支持多种工具的机器学习模型？显然，这些都是寒武纪做不到的。英伟达的芯片性能是全球最佳的，有强大的计算能力，也有高效的AI加速，因为A100芯片专为AI加速而设计，采用了全新的Tensor Core技术，能够极大地提升AI计算的速度和效率。所以A100非常适合支持ChatGPT、Bing AI或Stable Diffusion等工具的机器学习模型。它能够同时执行许多简单的计算，这对于训练和使用神经网络模型很重要。根据New Street Research的数据，英伟达占据了可用于机器学习的图形处理器市场的95%。这款产品也是是供不应求的。即便是A100和H100被禁止，我国企业就已经将目光放到了它的替代品A800和H800上了。国内几家头部互联网企业都向英伟达下了1.5万~1.6万左右的A800和H800订单，却没有更多的选择国内产品。现实的情况是，国内很多的半导体芯片的产品整体水平还是比较低的，AI大模型的训练要求芯片能够处理高颗粒度的信息。很多国产GPU大多对信息处理的颗粒度不高，还不具备支撑大模型训练所需的能力。之前我们也提到过，一些国产GPU产品大多只能处理单精度的的浮点运算，像壁仞科技BR100、天数智芯的智铠100，还有寒武纪思元270等等，它们在FP32的理论指标上做得不错，但没有处理FP64的能力。国内能支持FP64双精度浮点运算的应该是海光推出的DCU深算一号，不过这款产品的性能应该也是不如英伟达的A100。英伟达A100的单精度浮点计算能力，从15.7TFLOPS提升至19.5TFLOPS；而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS。除了寒武纪的芯片，那还有海光等很多厂商都在做GPU，相比其他，GPU能够进行图像运算工作，还能够对图形数据、显示、可视计算等作出优化加速，现在被用于通用计算的GPU也可以叫做GPGPU。因为图形的结构像素点之间是独立的，图像以矩阵形式存储数据，所以GPU的设计之初就基于大量和并行计算，配置了很多的晶体管作为计算单元，CPU的晶管就不多，所以GPU的浮点运算能力和超长的流水线处理能力就强一些。比较适合用于AI计算对芯片进行大量重复运算的速度要求。也正是因为GPU所具备的峰值计算能力以及数据并行处理能力，GPU多用在深度学习的训练阶段。此外，数据中心依赖大量互连的通用计算节点，GPU能打造出速度极快的计算节点，性能高于数百个速度较慢的通用计算节点，大幅提高数据中心的计算性能和数据量。海光芯片（深算1号）可以运行通用的大模型，只是效率比较差，海光正在开发深算2号。深算1号相当于英伟达的P100的水平，但是性价比低，即便在openai最早训练GPT-3的时候，也采用了V100芯片。景嘉微最好的JM9系列产品，不过，景嘉微的产品目前只能用于图形处理、图像渲染。另外，还有国内的一些互联网大厂也在做AI芯片。比如阿里推出过含光800，百度在2020年发布的昆仑芯，腾讯在2021年发布的紫霄，以及华为的昇腾系列等等。但这些大厂的AI芯片大多也都属于的定制版本，不具备真正的通用性，昇腾910主要用于训练环节，而昇腾310主要用于推理环节。昇腾910半精度算力达到320 TOPS，整数精度算力达到640 TOPS，是英伟达V100的2倍以上，不过不如英伟达的H100，而且能运行大模型训练的多是英伟达的A100、A800、H100、H800，效率也是最高的，为什么不能用华为的昇腾910，主要是昇腾910通用性不佳，昇腾910只能用于华为自身生态中的大模型业务。在应用上也面临诸多限制。像华为的昇腾产品，应用是在MindSpore这类华为自己的开发框架下，以及他们优化好的大模型上。其他的模型想要用昇腾，就要经过华为的深度优化才能在华为的平台上运行。国产算力、芯片领域，在部分领域实现了一定的程度的国产替代，通用人工智能能力的涌现、生成式AI应用的商业落地均离不开云端AI算力芯片支撑，由此数字和科技一路走过来，调整几天就是一个新高突破，算力板块已经不知道反反复复的涨了多久了，只要算力需求在，就离不开对GPU产品的需求，自然也离不开这些寒武纪、景嘉微这些国产厂商。但这只是算力层面，而随着大模型的发展越来越热，市场对算力的需求仍将呈指数级上升，国产芯片厂商就要面临如何解决算力的问题，还要面临如何解决软件生态和工具的问题。

吕长顺（凯恩斯）证书编号：A0150619070003。【以上内容仅代表个人观点，不构成买卖依据，股市有风险，投资需谨慎】

关键词：

相关新闻