做强算力生态,智神超算瞄准智算发展的关键
来源:通信世界全媒体 时间:2024-05-13 08:08

  1956年,“人工智能”一词首次被提出。彼时,数据与算力潜力尚未被挖掘,人工智能进入长达数十年的蓄势待发区。进入21世纪以来,在大数据和大算力的支持下,深度学习的浪潮席卷人工智能,人工智能迎来繁荣发展期。相应地,以大模型为代表的人工智能加速增长,智算也逐渐成为大模型竞赛的焦点。

  在智算愈发重要的当下,国内智算进展如何?面临哪些发展机遇?又有哪些挑战尚待攻克?想要赢在智算赛道,又该抓住哪些关键风口?近日,在2024年中国工业经济高峰论坛的智能算力产业高质量发展论坛上,通信世界全媒体记者采访了北京智神超算网络技术有限公司(以下简称“智神超算”)总经理夏珂,试图碰撞思维火花,为上述问题增添注解。

  算力迎发展机遇,挑战亦与之俱来

  当前,国内外大模型发展成果有目共睹,最直观地表现为大模型数量快速增长。国家互联网信息办公室最新公布的生成式人工智能备案信息显示,截至2024年3月,我国共有117个AI大模型完成了备案。大模型数量猛增的同时,规模也快速扩展,所需算力也逐渐呈现爆炸式增长。

  作为一名身处算力服务一线的资深从业者,夏珂坦言,算力近几年最直观的变化莫过于在2016年的时候,计算还基本以小模型为主,场景多用于工业质检、车牌识别、广告推荐和点击率预估等等,算力使用也多聚焦在推理层面为主。而随着大模型兴起,算力使用量也逐渐变化为从推理层场景为主过渡到训练需求占比更大,尤其是随着训练的大模型参数越来越大,传统算力卡已经难以支撑如此大规模的算力,由此也带来了底层算力架构的变革,也就是AIinfrastructure。

  大模型的训练效果、成本和时间与底层算力有密切的关系。最直观来看,大模型参数量从千万到万亿级的指数型增长直接带动了算力需求增加。以最为典型的ChatGPT来看,2020年5月的GPT-3参数量达到了1746亿个,所需要的算力达到每天3640PFlop/s-day(假如每秒计算一千万亿次,需要计算3640天),历经3年发展,2023年其推出的GPT-4参数数量就已经扩大到1.8万亿个,增长了10倍,据估算,GPT-4每天所需算力已达到248,842PFlop/s-day。

  如此大规模依赖算力,既体现了算力的重要,也潜在预示了算力短缺将带来巨大风险。要知道算力不足,会直接导致模型的智能化升级变慢,模型的能力落后。

  “算力的重要性毋庸置疑,但算力依然直面艰巨的挑战。”夏珂认为大模型时代算力面临的挑战主要体现在3个方面。

  一是GPU供给严重不足。据统计数据显示,当前全球芯片缺口超过100万张。就以在GPU行业独领风骚的英伟达来看,一方面,其产能取决于核心逻辑芯片、HBM内存芯片、CoWoS封装三者的叠加,产能难以准确预估;另一方面,在出货方面也面临诸多限制,有行业曝料,2023年第四季度,英伟达GPU供应量在全球范围内都被严格限制,导致全球市场都出现了明显的供不应求。

  二是开发生态难闭环。面对CUDA等仍处于生态垄断地位,夏珂认为国内芯片公司目前走的两条主要的路线,或兼容CUDA,拥抱CUDA生态;或兼容主流框架和大模型,形成自己的软件生态。当前,好在众多国产大模型出现,让框架层的重要性降低。“大模型就好比移动时代的超级APP,会屏蔽掉底层的安卓或ios一样,头部大模型会屏蔽掉训练框架,有望成为算力转型的破局点。”夏珂这样比喻道。

  三是模型与产业结合落地漫长。就如同在工程建设上要用最小的代价达到满意的效果,从而实现行业落地。夏珂提醒,大模型与产业的结合也应该针对具体场景具体分析,例如针对各种行业细分推理场景,可以建设边缘侧分部署集群,或集中式大规模集群;针对基础大模型的训练场景和行业大模型训推场景,需要配置更多的算力,从千卡到万卡甚至几十万卡级别的算力。

  打破大模型训练玄学,以做强算力生态取胜

  既然算力与大模型结合紧密,因此业内也有“得算力者得大模型”的说法。但事实上也并非如此,拥有上千、上万张GPU卡仅是成功的基础,并且投入大规模算力集群去做训练,一旦出现训练掉卡但没有及时更换,会造成企业训练前期的投入损失,金额可能是百万或千万级别,甚至更多。

  对此,夏珂也作了一个形象的比喻,大模型训练就好比是太上老君“炼丹”,既有技术成分也有其他各种各样的因素,当搜集到足够的高质量数据集后,训练启动,这时候需要经验丰富的工程师团队定期查看进展并且优化,确保算力训练的结果尽可能的收敛到合适的值;模型训练出来后,要通过各种类似方式如低比特量化模型、模型剪枝等等降低模型推理成本。

  由此可见,企业如果想借助大模型,实现业务提升,需要的不止是智能算力,还需要灵活可兼容的框架平台,强大的基础大模型,高质量的行业数据集,以及更为贴合业务场景的解决方案来落地行业大模型等。

  对此,夏珂表示,要实现智算产业生态的联动,需要鼓励形成良好的商业模式,形成闭环;要处理好资金成本、算力资源与用户需求三者之间的关系。同时利用自身和合作伙伴的软件平台和相关优势,致力于做好智算产业生态中的算力运营,智神超算也愿意为此贡献出自己的力量。

  据了解,目前,智神超算依托成熟算力供应链、建设、运营以及大模型优化等能力,能够为国内外大模型训练/推理场景提供强大的整体解决方案。聚合力而致一,实现智算更好地用起来,智神超算还构建了一站式算力交易和服务平台,既能保证高性能算力调度,也能借助平台实现大模型行业应用。

  就算力调度来看,夏珂介绍,智神超算的高性能调度主要体现在推理侧,当客户请求大模型服务的时候,优先选用服务能力更好、成本更低的节点来满足客户的算力需求。

  此外,值得注意的是,为了推进智算产业生态进程,智神超算也在积极推动国产人工智能生态适配。夏珂介绍到,具体策略体现在3个方面。一是凭借多年行业积累,精准寻找用户将已有算力用起来。二是在已有平台中投入更多国产芯片能力,并且做对应的适配。三是汇聚相关政策制定方、研究机构等多方力量,集合资源来推进产业生态构建。

  集众智者事无不成,聚合力者业无不兴。相信未来,在智神超算及众多合作伙伴的努力下,智算产业能够汇聚更多的创新资源和智慧力量,形成更加紧密的产业联盟与合作机制,为数字经济发展乃至社会进步注入更多的生机与活力,共同开创更为美好的数字未来。

附件下载

扫一扫在手机上查看当前页面

相关链接