大模型发展之下,算力与网络设施建设成为刚需
算力:ChatGPT类人工智能需要更充足的算力支持其处理数据,带来更多高性能的算力芯片需求。英伟达表示,GPT-3 需要512颗V100显卡训练7个月,或者1024颗A100芯片训练一个月。2012年以来,AI训练任务中的算力增长(所需算力每3.5月翻一倍)已经超越摩尔定律(晶 体管数量每18月翻一倍)。
网络设施:以微软Azure为例,其AI基础设施由互联的英伟达Ampere A100 Tensor Core GPU组成,并由Quantum infiniBand交换机提供横向扩展能力。服务器节点多、跨服务器通信需求巨大,网络带宽性能成为GPU集群系统的瓶颈,解决方式包括增加单节点通信带宽与降低网络收敛比,带来光模块、交换机等需求。

























本文档共80页,请下载完整版阅读。
免责声明:本平台只做内容的收集及分享,内容版权归原撰写发布机构(或个人)所有,由小编通过公开合法渠道获得,如涉及侵权,请联系我们删除;如对报告内容存疑,请与撰写、发布机构联系。