大模型的落地能力,核心在于性能的穩定輸出,而性能穩定的底層支撐,是強大的算力集群。其中,構建萬卡級算力集群,已成為全球公認的頂尖技術挑戰。
但是,在華為,昇騰萬卡算力集群,已經可以做到近乎“永不罷工”了:
或許有小伙伴要問了:AI算力需要如此24小時不間斷的運作嗎?
答案是肯定的,需要,且有必要。
因為小到我們用手機導個航,背后都會有幾十個AI模型在發力來分析路況、預測擁堵;再如醫院用AI輔助診斷癌癥,系統得在瞬間處理掉成百上千的CT照片。
這些看似簡單的智能應用,其實都離不開如 “超級大腦” 般的AI算力集群,需要它們全天候不停歇地運轉著。
而要保證有這樣的能力,高訓練可用度、高線性度、快速消除故障,就相當于給AI發動機上了一份強有力的保險。
更嚴格來說,AI推理的可用度甚至還需要達到99.95%的程度。
那么華為又是如何做到這點的?
關于這一切背后的秘密,華為在今天首次把技術給公開了出來。
AI大集群出問題時,定位故障特別麻煩;畢竟系統規模龐大,軟件和硬件組成的技術棧錯綜復雜,而且調用鏈條還很長。
要解決問題,首先得確定故障出在哪個大的領域,接著再在這個領域內部一步步排查,確定具體的故障位置。在整個故障診斷過程中,面臨的挑戰非常大。
以往技術人員進行故障定位時,短則需數小時,長則可能耗時數天。這一過程不僅對技術人員的專業技能要求頗高,且往往難以快速鎖定故障設備及根本原因。
為此,華為團隊針對AI大集群面臨的復雜挑戰,構建了三大基礎能力。
首先是全棧可觀測能力。
它像是給集群裝了一套“火眼金睛”監控系統(故障感知),主要包含這幾部分: