首页 > 热点 >
 
 

涨幅超300%,市值重回1000亿,市场为何还不买账?|世界热头条

2023-04-20 22:50:16  来源:凯恩斯


(资料图)

​​今天A股算力概念大涨,寒武纪强出天际,相比开年的54.56块每股,今天已经到了258块了,今年至今涨幅已达300%,总市值突破千亿关口,距离上市初的1200亿巅峰市值更近一步,海光信息今天也一举突破2000亿,天孚通信、中际旭创等个股跟涨。让这些各个大爆发的,无疑是国产大模型爆发,市场预计将调用超大规模算力,或将引发算力缺口。由于AI模型训练需要海量的算力,大模型或将引发算力缺口,不少厂商开始做算力方向,AI芯片又是AI算力基础设施的关键组成。国产大模型对上游AI芯片算力提出了更高的要求。今天顶着千亿市值光滑、科创板AI芯片第一股的寒武纪,目前主要的产品线包括云端产品线、边缘产品线、IP 授权及软件,其中AI算力专用芯片是属于寒武纪云端产品线,目前主推的云端产品思元290和思元370及相应的云端智能加速卡系列产品、训练整机。寒武纪做AI芯片做了很多年,2019年6月,就推出了第二代云端AI芯片思元270(MLU270)及板卡产品,思元270板卡产品面向人工智能推断任务,在ResNet50上推理性能超过10000fps。思元270芯片处理非稀疏深度学习模型的理论峰值性能提升至上一代MLU100的4倍,达到128TOPS(INT8);同时兼容INT4和INT16运算,理论峰值分别达到256TOPS和64TOPS;支持浮点运算和混合精度运算。         

还推出过思元220,是主要用来深度学习的SOC边缘加速芯片,采用TSMC 16nm工艺,具有高算力,低功耗和丰富的I/O接口。这款芯片采用了寒武纪在处理器架构领域的一系列创新性技术,其架构为寒武纪最新一代智能处理器MLUv02,实现最大32TOPS(INT4)算力,而功耗仅10W。去年三月份,寒武纪推出新款训练加速卡“MLU370-X8”,搭载双芯片四芯粒封装的思元370,MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370,也就是每张卡两颗芯片,每颗芯片内封装两个Die,因此可提供两倍于思元370加速卡的内存、编解码资源。架构基于Cambricon MLUarch03,支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算,峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。该卡采用7nm制造工艺,集成48GB LPDDR5内存,内存带宽614.4GB/s,PCIe 4.0 x16系统接口,整卡最大训练功耗250W,全高全长双插槽设计,系统被动散热。除了现有产品,在2022 年世界人工智能大会上,寒武纪的董事长透露了寒武纪最新一代云端智能训练芯片思元590,该芯片采用MLUarch05 全新架构,实测训练性能较在售旗舰产品思元290 系列有大幅提升,有望成为国产先进AI 算力芯片。该芯片目前尚未发布,但该芯片面积为800mm2,已经接近A100的826mm2。

之前百度集团的一份交流纪要显示,文心一言将调用超大规模算力,并且尝试使用寒武纪思元590替代英伟达A100,让寒武纪的思元系列更受到关注。不过我们也要意识到,思元的产品在百度文心一言中有小规模的部署,也只是文心一言中众多业务场景的一小部分,还是没有能够做到大规模部署。可能现在寒武纪的产品多用于大规模推理中的一小部分场景,在大模型训练上还有很多的不足。

有产品,还差在哪?

为什么思元的产品不能大规模部署和应用,大多是原因是寒武纪的思元590这款芯片智能运行大模型的推理部分,但这款产品不属于通用形式的GPU。而且寒武纪现有的产品还没有大规模部署的能力。那么为什么说没有这个能力,主要是要看寒武纪的供应链是不能支撑得起这些芯片的大规模出货,可能需要几万个芯片,寒武纪能不能生产和推广,如果可以做到,那么这些推广出的芯片是不是有庞大的客户购买这些芯片?这些芯片的质量和性能够不够支持大模型的推理和训练?是不是支持多种工具的机器学习模型?显然,这些都是寒武纪做不到的。英伟达的芯片性能是全球最佳的,有强大的计算能力,也有高效的AI加速,因为A100芯片专为AI加速而设计,采用了全新的Tensor Core技术,能够极大地提升AI计算的速度和效率。所以A100非常适合支持ChatGPT、Bing AI或Stable Diffusion等工具的机器学习模型。它能够同时执行许多简单的计算,这对于训练和使用神经网络模型很重要。根据New Street Research的数据,英伟达占据了可用于机器学习的图形处理器市场的95%。这款产品也是是供不应求的。即便是A100和H100被禁止,我国企业就已经将目光放到了它的替代品A800和H800上了。国内几家头部互联网企业都向英伟达下了1.5万~1.6万左右的A800和H800订单,却没有更多的选择国内产品。现实的情况是,国内很多的半导体芯片的产品整体水平还是比较低的,AI大模型的训练要求芯片能够处理高颗粒度的信息。很多国产GPU大多对信息处理的颗粒度不高,还不具备支撑大模型训练所需的能力。之前我们也提到过,一些国产GPU产品大多只能处理单精度的的浮点运算,像壁仞科技BR100、天数智芯的智铠100,还有寒武纪思元270等等,它们在FP32的理论指标上做得不错,但没有处理FP64的能力。国内能支持FP64双精度浮点运算的应该是海光推出的DCU深算一号,不过这款产品的性能应该也是不如英伟达的A100。英伟达A100的单精度浮点计算能力,从15.7TFLOPS提升至19.5TFLOPS;而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS。除了寒武纪的芯片,那还有海光等很多厂商都在做GPU,相比其他,GPU能够进行图像运算工作,还能够对图形数据、显示、可视计算等作出优化加速,现在被用于通用计算的GPU也可以叫做GPGPU。因为图形的结构像素点之间是独立的,图像以矩阵形式存储数据,所以GPU的设计之初就基于大量和并行计算,配置了很多的晶体管作为计算单元,CPU的晶管就不多,所以GPU的浮点运算能力和超长的流水线处理能力就强一些。比较适合用于AI计算对芯片进行大量重复运算的速度要求。也正是因为GPU所具备的峰值计算能力以及数据并行处理能力,GPU多用在深度学习的训练阶段。此外,数据中心依赖大量互连的通用计算节点,GPU能打造出速度极快的计算节点,性能高于数百个速度较慢的通用计算节点,大幅提高数据中心的计算性能和数据量。海光芯片(深算1号)可以运行通用的大模型,只是效率比较差,海光正在开发深算2号。深算1号相当于英伟达的P100的水平,但是性价比低,即便在openai最早训练GPT-3的时候,也采用了V100芯片。景嘉微最好的JM9系列产品,不过,景嘉微的产品目前只能用于图形处理、图像渲染。另外,还有国内的一些互联网大厂也在做AI芯片。比如阿里推出过含光800,百度在2020年发布的昆仑芯,腾讯在2021年发布的紫霄,以及华为的昇腾系列等等。但这些大厂的AI芯片大多也都属于的定制版本,不具备真正的通用性,昇腾910主要用于训练环节,而昇腾310主要用于推理环节。昇腾910半精度算力达到320 TOPS,整数精度算力达到640 TOPS,是英伟达V100的2倍以上,不过不如英伟达的H100,而且能运行大模型训练的多是英伟达的A100、A800、H100、H800,效率也是最高的,为什么不能用华为的昇腾910,主要是昇腾910通用性不佳,昇腾910只能用于华为自身生态中的大模型业务。在应用上也面临诸多限制。像华为的昇腾产品,应用是在MindSpore这类华为自己的开发框架下,以及他们优化好的大模型上。其他的模型想要用昇腾,就要经过华为的深度优化才能在华为的平台上运行。国产算力、芯片领域,在部分领域实现了一定的程度的国产替代,通用人工智能能力的涌现、生成式AI应用的商业落地均离不开云端AI算力芯片支撑,由此数字和科技一路走过来,调整几天就是一个新高突破,算力板块已经不知道反反复复的涨了多久了,只要算力需求在,就离不开对GPU产品的需求,自然也离不开这些寒武纪、景嘉微这些国产厂商。但这只是算力层面,而随着大模型的发展越来越热,市场对算力的需求仍将呈指数级上升,国产芯片厂商就要面临如何解决算力的问题,还要面临如何解决软件生态和工具的问题。 

吕长顺(凯恩斯) 证书编号:A0150619070003。【以上内容仅代表个人观点,不构成买卖依据,股市有风险,投资需谨慎】        ​​​​

关键词:

  
相关新闻
每日推荐
  • 滚动
  • 综合
  • 房产