在算力荒下,英伟达再发布最新AI芯片H200:性能较H100提升近一倍
数据来源: 芯片观察
发布时间:2023-11-12

近日,芯片巨头英伟达发布了H100芯片的继任者,也是目前世界最强的AI芯片——H200。这是英伟达新一代的GPU,专为训练和部署各种人工智能模型而设计。

作为继H100之后的升级产品,H200芯片性能更强大,适用于各种人工智能应用场景。它可以用于训练和部署各种大型语言模型、图像识别、语音识别等人工智能模型。在推理或生成问题答案时,性能较H100提高60%至90%。

该芯片直接采用141GB大内存,与H100的80GB相比直接提升76%。而作为首款搭载HBM3e内存的GPU,内存带宽也从3.35TB/s提升至4.8TB/s,提升43%。在HBM3e加持下,H200让Llama-70B推理性能几乎翻倍,运行GPT3-175B也能提高60%。

H200的性能提升最主要体现在大模型推理表现上,H200 在700亿参数的Llama2大模型上的推理速度比H100快了一倍,而且在推理能耗上H200相比H100直接降低了一半。

对于显存密集型HPC应用,H200更高的显存带宽能够确保高效地访问操作数据,与CPU相比,获得结果的时间最多可提升110倍。

不仅如此,H200与H100一样都是基于英伟达Hopper架构打造,这也意味着两款芯片可以互相兼容,对于使用H100企业而言,可以无缝更换成最新的H200。

整体来看,由于NVIDIA Hopper架构、TensorRT-LLM专用软件等软硬件技术加持,新的H200在超大模型训练和推理性能表现优异。与H100相比,H200在Llama 2(700亿参数)开源大模型的推理速度几乎翻倍,而未来的软件更新预计会带来H200的额外性能领先优势和改进。

据英伟达数据,在TF32 Tensor Core(张量核心)中,H200可达到989万亿次浮点运算;INT8张量核心下提供3,958 TFLOPS(每秒3958万亿次的浮点运算)。

不仅如此,基于H200芯片构建的HGX H200加速服务器平台,拥有 NVLink 和 NVSwitch 的高速互连支持。8个HGX H200则提供超过32 petaflops(每秒1000万亿次的浮点运算)的FP8深度学习计算和 1.1TB 聚合高带宽内存,从而为科学研究和 AI 等应用的工作负载提供更高的性能支持,包括超1750亿参数的大模型训练和推理。

英伟达表示H200预计将于2024年第二季度出货,但售价还暂未公布。据美国金融机构Raymond James透露,H100芯片成本仅3320美元,但英伟达对其客户的批量价格仍然高达2.5万至4万美元。这导致H100利润率或高达1000%,成为了有史以来最赚钱的一种芯片。而H200市场表现也将不遑多让,毕竟在当前算力荒的行业背景下,一些科技企业必然会疯狂扫货。

英伟达官网显示,NVIDIA H200将为40多台AI超级计算机提供支持。包括CoreWeave、亚马逊AWS、谷歌云、微软Azure、甲骨文云等公司将成为首批部署基于H200实例的云服务商。同时,华硕、戴尔科技、惠普、联想、Supermicro、纬创资通等系统集成商也会使用H200更新其现有系统。

免责声明:本网站内容来自作者投稿或互联网转载,目的在于传递更多信息,不代表本网赞同其观点或证实其内容的真实性。文章内容及配图如有侵权或对文章观点有异议,请联系我们处理。如转载本网站文章,务必保留本网注明的稿件来源,并自行承担法律责任。联系电话:0535-6792766