作為全球首富,埃隆馬斯克(Elon Musk)在極短的時間內(nèi),摒棄了企業(yè)構建數(shù)據(jù)中心的傳統(tǒng)方式,為他旗下人工智能新興企業(yè)xAI部署了當前世界上規(guī)模最大、速度更快的超級計算機。此舉不僅令業(yè)界競爭對手深感震撼,同時也加劇了OpenAI、微軟、谷歌等公司在超大規(guī)模數(shù)據(jù)中心領域的競爭態(tài)勢。
今年10月份一個陽光明媚的日子,一架螺旋槳飛機在美國田納西州孟菲斯市中心附近一座被翠綠草坪環(huán)繞的宏偉工業(yè)建筑上空盤旋,機上的乘客紛紛記錄下該設施的影像資料。
此次飛行實則是一次秘密偵察行動。馬斯克近期將這棟原本是家用電器制造工廠改造成了數(shù)據(jù)中心,內(nèi)部有世界上規(guī)模最大的服務器集群,專門用于人工智能模型的訓練。馬斯克為xAI打造的人工智能超級計算機,其建設速度之快,在OpenAI等競爭對手的高層中引發(fā)了廣泛的憂慮與不解。
據(jù)看過這些照片的知情人士透露,機上乘客來自一家與馬斯克數(shù)據(jù)中心構成競爭關系的企業(yè),他們試圖深入了解這個被嚴密防護的數(shù)據(jù)中心的運營細節(jié)。這些知情者還觀察到,馬斯克利用卡車運送了多臺燃氣渦輪機至現(xiàn)場,為設施提供電力支持,并努力探尋xAI如何高效管理建筑內(nèi)服務器散熱的解決方案。
孟菲斯上空的偵察飛行,凸顯了科技領域最燒錢競賽中的一場高風險較量。微軟、Meta、谷歌和亞馬遜等科技巨頭都在競相投資新建數(shù)據(jù)中心,以支持ChatGPT等人工智能技術。
這是一個冒險的豪賭,它基于一個簡單的信念:服務器集群的規(guī)模越大,其訓練出來的人工智能表現(xiàn)就越出色。2022年末,OpenAI推出的聊天機器人ChatGPT風靡全球,不僅在科技行業(yè)掀起軒然大波,也加劇了各方對超大規(guī)模服務器集群的激烈爭奪。
作為OpenAI的聯(lián)合創(chuàng)始人及早期資助者(盡管后來分道揚鑣),馬斯克在數(shù)據(jù)中心競賽的序幕剛剛拉開之時便已加入戰(zhàn)局。憑借非凡的雄心壯志、不懈的努力以及對傳統(tǒng)數(shù)據(jù)中心建設常規(guī)的挑戰(zhàn),他成功地在業(yè)界掀起了軒然大波。
馬斯克的超級計算機“巨像”(Colossus)在兩個方面令競爭對手瞠目結舌:其龐大的規(guī)模以及xAI驚人的建造速度。這臺超級計算機配備了10萬顆GPU,它是訓練和運行人工智能軟件的理想選擇,其規(guī)模遠超Meta等科技巨頭以往打造的類似超級計算機。
將如此龐大的GPU集群整合到一臺超級計算機中絕非易事,因為服務器需要消耗巨額的電力,且連接芯片的網(wǎng)絡設備也面臨著嚴重的帶寬瓶頸。xAI如此迅速地完成這一項目,實屬前所未聞。
馬斯克與為“巨像”提供GPU的人工智能芯片領軍企業(yè)英偉達共同宣布,該數(shù)據(jù)中心與超級計算機僅耗時122天便宣告竣工。在最近的播客訪談中,英偉達首席執(zhí)行官黃仁勛坦言,如此規(guī)模的GPU集群往往需要三年的規(guī)劃與設計周期,再加上一年的建設時間方能投入使用。
談及“巨像”項目時,黃仁勛在播客中感慨道:“毋庸置疑,現(xiàn)在大家都輾轉難眠了!據(jù)我所知,全球唯有馬斯克一人具備這樣的能力,他對工程、建筑、大型系統(tǒng)構建以及資源調配的獨到見解,堪稱舉世無雙!
馬斯克之所以能在孟菲斯迅速建成數(shù)據(jù)中心,部分歸因于他省略了幾個關鍵步驟。例如,他在尚未從電網(wǎng)獲取足夠電力以運行“巨像”的情況下便啟動了建設。然而,這種打破常規(guī)的做法正是馬斯克在多家公司屢試不爽的策略之一。
例如,在特斯拉,馬斯克曾在一個停車場為Model 3汽車搭建了一條生產(chǎn)線,從而繞過了在加州擴建汽車廠所需的繁瑣許可流程。在SpaceX,他不斷催促工程師精簡火箭上他認為不必要的部件,或采用非太空專用設計的更廉價部件。
盡管xAI的人工智能工具目前仍顯著落后于OpenAI,但馬斯克建造超級計算機的速度已引起了OpenAI首席執(zhí)行官山姆阿爾特曼(Sam Altman)的高度警覺。據(jù)內(nèi)部消息透露,在馬斯克于X平臺發(fā)帖后,阿爾特曼與微軟的基礎設施高層發(fā)生了爭執(zhí),他表達了對xAI發(fā)展速度可能超越微軟的擔憂。
阿爾特曼還憂慮xAI可能會迅速擁有比OpenAI更強大的超級計算機。這一擔憂促使OpenAI首次考慮尋求微軟以外的合作方案。目前,一個備選方案正在得克薩斯州阿比林(Abilene)的一片荒蕪平地上緊鑼密鼓地建設中,有些公司正為即將落成的數(shù)據(jù)中心做前期準備,該中心預計明年將為OpenAI部署10萬顆芯片。
現(xiàn)場施工進展異常迅速。在最近的一次現(xiàn)場探訪中,一位項目承包商透露,多數(shù)建筑尚未砌墻。承包商正在場外預制該設施的大部分組件,以便到場后迅速組裝。
或許不久的將來,即便是阿比林和孟菲斯的超級計算機也會顯得相對渺小。包括微軟在內(nèi)的一些科技巨頭已著手討論建設規(guī)模更為龐大的數(shù)據(jù)中心項目,這些項目將包含數(shù)百萬個GPU,每個項目的成本預計超過1000億美元。
“數(shù)據(jù)中心市場相對狹小,每個人都緊盯著行業(yè)內(nèi)的一舉一動”,DPR Construction高級數(shù)據(jù)中心團隊的負責人約翰阿塞洛(John Arcello)表示。DPR Construction曾為Meta等大型企業(yè)建造數(shù)據(jù)中心,目前正參與阿比林的項目建設。
今年早些時候,馬斯克開始著手整合創(chuàng)建xAI所需的龐大算力。xAI是他在2023年創(chuàng)立的一家公司,迅速成為人工智能領域的強勁對手。當時,馬斯克已向甲骨文租用GPU,用于訓練xAI的大語言模型Grok的初始版本。
為了進一步提升Grok的性能,馬斯克亟需擴充算力資源。今年5月,他通過視頻連線與潛在的xAI投資者進行了交流,作為籌集數(shù)十億美元資金的前期鋪墊。據(jù)一位參會投資者透露,馬斯克在會上描繪了一幅打造全球最大超級計算機的愿景,他將其命名為“計算超級工廠”,就像特斯拉在全球布局的龐大生產(chǎn)基地一樣。
馬斯克與xAI不足12人的團隊圍坐一桌,詳細闡述了他的計劃:將10萬顆英偉達H100(當時市場上最尖端的GPU)集成至一個超級計算機集群中。屏幕上展示的一張圖表清晰地顯示,xAI建造超級計算機的速度將是大多數(shù)企業(yè)的五倍之快。該公司正以“令人難以置信的速度”全速前進,并鄭重承諾:“馬斯克將親自監(jiān)督數(shù)據(jù)中心的如期交付!
數(shù)周后,甲骨文的多位高層管理人員與馬斯克舉行了視頻會議,共同探討第一種合作方案。據(jù)知情人士透露,馬斯克向甲骨文提議,由甲骨文為xAI打造超級計算機,此舉將使這家人工智能初創(chuàng)企業(yè)一躍成為甲骨文的重要客戶之一。
馬斯克原本寄望于將xAI數(shù)據(jù)中心落戶于孟菲斯的Electrolux前工廠遺址,并期待在2024年秋季順利竣工。然而,據(jù)與會者透露,在一次電話會議中,甲骨文的高管向馬斯克坦言,他們難以按照馬斯克所期望的速度完成建設任務。
據(jù)知情人士透露,甲骨文高管指出,馬斯克所選中的大樓電力供應不足,無法滿足他計劃安裝的芯片數(shù)量所需的能源。馬斯克很快就對甲骨文高管的反對意見感到失望與沮喪。最終,他決定讓xAI拋開甲骨文,獨立開發(fā)孟菲斯數(shù)據(jù)中心。
馬斯克在社交媒體上寫道:“甲骨文無疑是一家偉大的公司……但是,當我們的命運取決于成為迄今為止最快的公司時,我們必須親自掌舵,而非僅僅作為乘客坐在后座!”
為了能在預期時間內(nèi)完工,馬斯克催促孟菲斯當?shù)毓賳T以前所未有的速度批準這個建設項目。而孟菲斯方面也表現(xiàn)得頗為急切,渴望滿足馬斯克的需求,以便能吸引他的業(yè)務,為這座城市帶來發(fā)展機遇。
大孟菲斯商會主席泰德湯森(Ted Townsend)在接受訪問時表示:“我們不分晝夜加班加點地工作,隨時都在接收短信和電話,力求展現(xiàn)出與xAI及其期望相匹配的干勁和效率!
今年6月初,湯森公開宣布,馬斯克已經(jīng)選定了孟菲斯作為xAI超級計算機的落戶地。緊接著的幾個星期里,馬斯克和他xAI的團隊迅速拆除了孟菲斯的舊工廠,為放置英偉達GPU的機架騰出了大片空間,并開始安裝各種電氣、機械和管道設備,并為服務器部署了先進的水冷系統(tǒng)。
然而,在這種飛快的施工進度中,電力供應卻成為了一個不小的障礙。起初,孟菲斯的這座工廠所提供的電力根本無法滿足xAI所有高能耗GPU的需求。通常情況下,這類問題很可能會讓數(shù)據(jù)中心項目的進度脫軌或是延期。
但馬斯克總能想出巧妙的應對之策:在等待地方當局批準他提出的在現(xiàn)場增加100兆瓦電力的請求期間,他引入了移動天然氣渦輪機來作為臨時的電力補充。而田納西河谷管理局也在上周通過了他的這一請求。
但馬斯克的這一舉動很快就引發(fā)了當?shù)丨h(huán)保組織的強烈反對。他們向當?shù)氐男l(wèi)生部門致信,指責xAI在未經(jīng)許可的情況下擅自運行天然氣渦輪機,對空氣造成了嚴重的污染。一位在微軟數(shù)據(jù)中心工作的高管也表示,考慮到微軟在氣候方面所設定的目標和倡議,該公司絕不可能做出類似的事情來。
南方環(huán)境法中心的高級律師阿曼達加西亞(Amanda Garcia)對田納西河谷管理局的決定表示反對,她表示:“使用天然氣渦輪機,就像是在未獲得批準的情況下偷偷建造違規(guī)發(fā)電廠,這著實令人震驚。畢竟,空氣污染已經(jīng)是孟菲斯西南部面臨的一個巨大挑戰(zhàn)!
然而,馬斯克能夠迅速完成這個項目,背后或許還有其他一些助力因素。數(shù)據(jù)中心業(yè)務的高管們透露,在xAI開始使用這一超級計算機集群之前,“巨像”超算很可能無需經(jīng)過任何合規(guī)性測試。這主要是因為xAI計劃將這臺超級計算機專用于自身需求,而非出租給其他客戶。
相比之下,微軟在將服務器移交給OpenAI或其他Azure云客戶之前,必須經(jīng)過多次數(shù)據(jù)安全測試。這些客戶通常希望服務器能達到一定的正常運行時間或隱私標準。
數(shù)據(jù)中心運營商DataBank的首席執(zhí)行官勞爾馬丁內(nèi)克(Raul Martynek)表示:“我們必須通過所有這些不同的行業(yè)認證。我可以肯定地說,xAI數(shù)據(jù)中心目前還無法通過這些認證!
馬斯克打造“巨像”超算的努力確實遭到了不少質疑。多位數(shù)據(jù)中心高管認為,將制造工廠等建筑改造為適用于GPU服務器和液體冷卻系統(tǒng)的設施極其困難。據(jù)兩名與xAI員工交談過的人士透露,在過去幾個月里,該設施的改造多次中斷。
但這些問題似乎并未拖慢xAI的腳步。馬斯克和英偉達表示,在首個服務器機架進入數(shù)據(jù)中心僅僅19天后,他們就已經(jīng)開始了下一代Grok模型的首次訓練。
在最近的一次訪談中,馬斯克的密友、他旗下多家公司的長期投資者安東尼奧格拉西斯(Antonio Gracias)透露,xAI正在重新思考構建數(shù)據(jù)中心的整個流程,“我們從最基本的原則出發(fā),努力使其更經(jīng)濟、更高效、更快捷!
格拉西斯繼續(xù)說道:“我在特斯拉、SpaceX等公司都看到過這種情況。在這些公司里,馬斯克是領航者,同時也有幾十名工程師在他的帶領下,共同致力于創(chuàng)造出盡可能最優(yōu)、最有效的系統(tǒng)!
今年夏天,隨著馬斯克在超級計算機領域取得顯著進展的消息逐漸傳開,亞馬遜、微軟和谷歌這些巨頭的數(shù)據(jù)中心高管們紛紛致電英偉達,詢問同一個問題:馬斯克是如何在超級計算機項目上取得如此神速進展的?
據(jù)與這些公司有過交流的人士透露,不僅如此,包括Meta在內(nèi)的其他一些公司的高管們還聯(lián)系了一家小型云提供商,探詢這些公司是否能以比他們自己建設數(shù)據(jù)中心更快的速度為他們提供所需的容量。
隨著有關孟菲斯數(shù)據(jù)中心的信息不斷被披露,這些公司對于揭開該項目成功奧秘的渴望愈發(fā)強烈。數(shù)據(jù)中心和云計算業(yè)務的管理人員們對該設施的圖像進行了仔細研究,試圖從中收集到關于其設計的任何信息。
馬斯克在社交媒體平臺X上發(fā)布了幾張數(shù)據(jù)中心內(nèi)部的照片,進一步滿足了公眾的好奇心。上個月,一位行業(yè)分析師在參觀了“巨像”所在設施后,還在YouTube上發(fā)布了一段視頻。
與此同時,在與xAI的談判于今年夏天破裂之后,甲骨文迅速與OpenAI達成了提供計算能力的協(xié)議。據(jù)悉,新的OpenAI數(shù)據(jù)中心將落戶阿比林,為此,甲骨文已經(jīng)與創(chuàng)業(yè)公司Crusoe和Lancium共同簽署了一項開發(fā)協(xié)議。
上個月,Crusoe成功籌集了超過30億美元的資金,用于推進數(shù)據(jù)中心的初期建設。這個數(shù)據(jù)中心將配備10萬顆英偉達即將推出的新型GPU,即GB 200。
與馬斯克在孟菲斯的項目一樣,Crusoe也在全力推動項目的快速完成。DPR公司的阿塞洛承擔了該項目的建設工作,并表示這是他參與過的建設速度最快的項目之一。兩家公司從3月份開始討論數(shù)據(jù)中心的設計方案,到了6月份就已經(jīng)破土動工。
幾個星期前,阿比林的工地上,建筑工人們正緊鑼密鼓地砍伐樹木,為新電站騰出空間,并且每天都在盡可能地加快混凝土澆筑工作。據(jù)三名知情人士透露,為了確保能夠按時向現(xiàn)場供電,OpenAI已經(jīng)要求項目合作伙伴考慮使用天然氣渦輪機作為備用方案。
在最近的一次現(xiàn)場參觀中,當被問及為何數(shù)據(jù)中心的快速建設會引起如此大的關注時,一位承包商回答道:“誰能更快地制造出自己的超級計算機,誰就幾乎可以統(tǒng)治世界!”