8月20日,國(guó)內(nèi)首款3A游戲大作《黑神話:悟空》正式上線,Steam平臺(tái)在線玩家人數(shù)一度突破 140 多萬(wàn),導(dǎo)致服務(wù)器承受巨大的并發(fā)訪問(wèn)壓力,出現(xiàn)短暫的崩潰現(xiàn)象。這一事件引發(fā)業(yè)內(nèi)對(duì)高負(fù)載服務(wù)器運(yùn)維問(wèn)題的廣泛關(guān)注。
圖片via.游戲科學(xué)官網(wǎng)
“網(wǎng)友有一句比較貼切的比喻,《黑神話:悟空》是游戲界的‘孫悟空’,但在服務(wù)器界卻成了‘閻羅王’?!泵纼xIT及數(shù)據(jù)組徐工說(shuō)。
關(guān)于服務(wù)器崩潰的原因,徐工指出,這種情況通常由多種因素引發(fā),包括高并發(fā)訪問(wèn)、服務(wù)器資源不足、網(wǎng)絡(luò)擁堵、服務(wù)器架構(gòu)設(shè)計(jì)不當(dāng)、數(shù)據(jù)庫(kù)負(fù)載過(guò)重,以及冷卻系統(tǒng)故障等。
大型3A游戲發(fā)布期間服務(wù)器崩潰并非沒(méi)有先例,2020年《賽博朋克2077》、2022年《艾爾登法環(huán)》解鎖日當(dāng)天,服務(wù)器均出現(xiàn)短暫崩潰現(xiàn)象。
大量的玩家涌入,導(dǎo)致服務(wù)器面臨極高的計(jì)算需求和數(shù)據(jù)處理壓力,服務(wù)器在高負(fù)載運(yùn)行時(shí)會(huì)產(chǎn)生大量熱量。
若此時(shí)服務(wù)器的冷卻系統(tǒng)無(wú)法有效管理溫度,將導(dǎo)致性能下降、系統(tǒng)宕機(jī),甚至可能引發(fā)能效比降低、運(yùn)營(yíng)成本增加、數(shù)據(jù)丟失等后果。
行業(yè)研究數(shù)據(jù)顯示,冷卻系統(tǒng)問(wèn)題占到服務(wù)器故障原因的5%至20%,具體比例取決于服務(wù)器類型、使用環(huán)境和維護(hù)水平等因素。
為了降低冷卻系統(tǒng)故障帶來(lái)的風(fēng)險(xiǎn),數(shù)據(jù)中心除了需要定期維護(hù)、備份和制定災(zāi)難恢復(fù)計(jì)劃外,采用高效能冷卻解決方案并實(shí)時(shí)監(jiān)控系統(tǒng)參數(shù)同樣至關(guān)重要。
目前,美儀的過(guò)程自動(dòng)化解決方案在多個(gè)數(shù)據(jù)中心的冷卻系統(tǒng)中得到了廣泛應(yīng)用,包括拼多多某數(shù)據(jù)中心和西部(重慶)科學(xué)城先進(jìn)數(shù)據(jù)中心等。
數(shù)據(jù)中心冷卻系統(tǒng)主要通過(guò)以下過(guò)程自動(dòng)化儀表實(shí)現(xiàn)精確監(jiān)控和管理:
溫度傳感器:實(shí)時(shí)監(jiān)測(cè)冷卻系統(tǒng)的進(jìn)水和出水溫度,確保冷卻液溫度始終保持在理想范圍內(nèi);
壓力變送器:監(jiān)測(cè)冷卻系統(tǒng)中的冷卻液壓力,保證冷卻液在管道中的順暢流動(dòng),避免因壓力異常導(dǎo)致的堵塞或泄漏;
流量計(jì):監(jiān)測(cè)冷卻液流量,確保其在系統(tǒng)中以合適的速度循環(huán),從而達(dá)到最佳冷卻效果;
物位傳感器:監(jiān)測(cè)冷卻液的液位,確保液位適當(dāng),避免因液位過(guò)低而導(dǎo)致的冷卻效果不佳;
分析儀表:監(jiān)測(cè)冷卻液的pH值、電導(dǎo)率等水質(zhì)參數(shù),防止冷卻液對(duì)管道和設(shè)備造成腐蝕或沉積物積累。
此外,通過(guò)美儀的數(shù)字化平臺(tái)——儀表云,用戶可以遠(yuǎn)程實(shí)時(shí)查看冷卻系統(tǒng)的各項(xiàng)參數(shù),確保在出現(xiàn)異常情況時(shí)能夠及時(shí)采取措施。
隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大和計(jì)算需求的急劇增加,服務(wù)器的穩(wěn)定運(yùn)行對(duì)業(yè)務(wù)連續(xù)性至關(guān)重要。如何維護(hù)服務(wù)器的高效與穩(wěn)定,是冷卻系統(tǒng)最重要的功能之一,也關(guān)乎著廣大用戶的切身體驗(yàn)。
冷卻系統(tǒng)的優(yōu)化和創(chuàng)新將成為確保服務(wù)器和數(shù)據(jù)中心持續(xù)發(fā)展的關(guān)鍵因素。未來(lái),美儀將與更多合作伙伴攜手,通過(guò)完整的過(guò)程自動(dòng)化解決方案,幫助數(shù)據(jù)中心中實(shí)現(xiàn)對(duì)冷卻系統(tǒng)的精準(zhǔn)控制,保障服務(wù)器穩(wěn)定高效運(yùn)行。