8月20日,國內(nèi)首款3A游戲大作《黑神話:悟空》正式上線,Steam平臺在線玩家人數(shù)一度突破 140 多萬,導(dǎo)致服務(wù)器承受巨大的并發(fā)訪問壓力,出現(xiàn)短暫的崩潰現(xiàn)象。這一事件引發(fā)業(yè)內(nèi)對高負載服務(wù)器運維問題的廣泛關(guān)注。
圖片via.游戲科學(xué)官網(wǎng)
“網(wǎng)友有一句比較貼切的比喻,《黑神話:悟空》是游戲界的‘孫悟空’,但在服務(wù)器界卻成了‘閻羅王’?!泵纼xIT及數(shù)據(jù)組徐工說。
關(guān)于服務(wù)器崩潰的原因,徐工指出,這種情況通常由多種因素引發(fā),包括高并發(fā)訪問、服務(wù)器資源不足、網(wǎng)絡(luò)擁堵、服務(wù)器架構(gòu)設(shè)計不當、數(shù)據(jù)庫負載過重,以及冷卻系統(tǒng)故障等。
大型3A游戲發(fā)布期間服務(wù)器崩潰并非沒有先例,2020年《賽博朋克2077》、2022年《艾爾登法環(huán)》解鎖日當天,服務(wù)器均出現(xiàn)短暫崩潰現(xiàn)象。
大量的玩家涌入,導(dǎo)致服務(wù)器面臨極高的計算需求和數(shù)據(jù)處理壓力,服務(wù)器在高負載運行時會產(chǎn)生大量熱量。
若此時服務(wù)器的冷卻系統(tǒng)無法有效管理溫度,將導(dǎo)致性能下降、系統(tǒng)宕機,甚至可能引發(fā)能效比降低、運營成本增加、數(shù)據(jù)丟失等后果。
行業(yè)研究數(shù)據(jù)顯示,冷卻系統(tǒng)問題占到服務(wù)器故障原因的5%至20%,具體比例取決于服務(wù)器類型、使用環(huán)境和維護水平等因素。
為了降低冷卻系統(tǒng)故障帶來的風(fēng)險,數(shù)據(jù)中心除了需要定期維護、備份和制定災(zāi)難恢復(fù)計劃外,采用高效能冷卻解決方案并實時監(jiān)控系統(tǒng)參數(shù)同樣至關(guān)重要。
目前,美儀的過程自動化解決方案在多個數(shù)據(jù)中心的冷卻系統(tǒng)中得到了廣泛應(yīng)用,包括拼多多某數(shù)據(jù)中心和西部(重慶)科學(xué)城先進數(shù)據(jù)中心等。
數(shù)據(jù)中心冷卻系統(tǒng)主要通過以下過程自動化儀表實現(xiàn)精確監(jiān)控和管理:
溫度傳感器:實時監(jiān)測冷卻系統(tǒng)的進水和出水溫度,確保冷卻液溫度始終保持在理想范圍內(nèi);
壓力變送器:監(jiān)測冷卻系統(tǒng)中的冷卻液壓力,保證冷卻液在管道中的順暢流動,避免因壓力異常導(dǎo)致的堵塞或泄漏;
流量計:監(jiān)測冷卻液流量,確保其在系統(tǒng)中以合適的速度循環(huán),從而達到最佳冷卻效果;
物位傳感器:監(jiān)測冷卻液的液位,確保液位適當,避免因液位過低而導(dǎo)致的冷卻效果不佳;
分析儀表:監(jiān)測冷卻液的pH值、電導(dǎo)率等水質(zhì)參數(shù),防止冷卻液對管道和設(shè)備造成腐蝕或沉積物積累。
此外,通過美儀的數(shù)字化平臺——儀表云,用戶可以遠程實時查看冷卻系統(tǒng)的各項參數(shù),確保在出現(xiàn)異常情況時能夠及時采取措施。
隨著數(shù)據(jù)中心規(guī)模的不斷擴大和計算需求的急劇增加,服務(wù)器的穩(wěn)定運行對業(yè)務(wù)連續(xù)性至關(guān)重要。如何維護服務(wù)器的高效與穩(wěn)定,是冷卻系統(tǒng)最重要的功能之一,也關(guān)乎著廣大用戶的切身體驗。
冷卻系統(tǒng)的優(yōu)化和創(chuàng)新將成為確保服務(wù)器和數(shù)據(jù)中心持續(xù)發(fā)展的關(guān)鍵因素。未來,美儀將與更多合作伙伴攜手,通過完整的過程自動化解決方案,幫助數(shù)據(jù)中心中實現(xiàn)對冷卻系統(tǒng)的精準控制,保障服務(wù)器穩(wěn)定高效運行。