26
2024-05
數(shù)據(jù)中心的人工智能:永不停歇


根據(jù)中國信息通信研究院(CAICT)的數(shù)據(jù)顯示,中國的數(shù)據(jù)中心產(chǎn)業(yè)在2010至2020這十年間高速發(fā)展。并且中國的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)市場連續(xù)三年保持30%以上的年復(fù)合增長率,于2020年達(dá)到1494.2億元人民幣。面對數(shù)據(jù)中心市場的繁榮發(fā)展,2020年4月,數(shù)據(jù)中心被正式納入“新基建”這一國家戰(zhàn)略的建設(shè)范圍,由此凸顯出該市場日益增長的重要性。
盡管一座數(shù)據(jù)中心通常有30-200名員工(具體取決于數(shù)據(jù)中心的規(guī)模和項目預(yù)期用途),但這些員工中只有一小部分負(fù)責(zé)IT方面的工作。除了更換設(shè)備,也就是眾所周知的“代客運維”之外,只要不發(fā)生停電,這些員工就沒有太多事可做。如此一來有了這樣的傳言:數(shù)據(jù)中心光線昏暗、室溫涼爽并且會發(fā)出具有“催眠效果”的嗡嗡聲,是一個睡覺的絕佳地方。
實際上,與電費和網(wǎng)絡(luò)通訊費等其他運行成本相比,數(shù)據(jù)中心的人力資源成本大多可以忽略不計。
數(shù)據(jù)中心正因為依靠較少的人員運作,所以已經(jīng)達(dá)到了先進(jìn)的自動化水平。許多傳統(tǒng)業(yè)務(wù)仍在探索需要在哪些方面實現(xiàn)自動化,但這個問題對于數(shù)據(jù)中心而言卻十分簡單,這是因為數(shù)據(jù)中心有明確的關(guān)鍵績效指標(biāo),比如縮短周期、部署頻率/速度和各項流程的平均處理時間等。
? 人工智能幫助進(jìn)一步降低成本
我們到底該如何降低數(shù)據(jù)中心的成本,以及該降低哪些成本呢?簡而言之,即“削減開支和優(yōu)化支出”。讓我們來看看下面幾種情況。
目前,一些常見的問題已經(jīng)有了解決方案:數(shù)據(jù)中心中的人工智能(AI)會在數(shù)據(jù)中心發(fā)生故障時幫助加快根本原因分析,還能夠通過預(yù)測分析來防止硬件故障,或者更準(zhǔn)確地說,能夠指出何時更換設(shè)備才能防止故障率達(dá)到閾值。
另外,人工智能能夠大幅提高基礎(chǔ)設(shè)施的利用率,機器可以在更短的時間內(nèi)查看更多的數(shù)值,因此在優(yōu)化利用率方面遠(yuǎn)超人類,在容量規(guī)劃等方面亦是如此。
盡管如此,數(shù)據(jù)中心的服務(wù)管理人員還是會“喜憂參半”。有些任務(wù),比如初始置備和持續(xù)編排等,已經(jīng)實現(xiàn)了高度自動化,可以毫無顧慮地完全交給AI。但有些任務(wù)可能一開始聽起來很簡單,實際上卻十分復(fù)雜,比如配置和補丁管理。由于存在許多變量,數(shù)據(jù)中心需要逐一決定何時打補丁、打什么補丁等,而這對于機器來說絕非易事。
在中期,人工智能可以在測試環(huán)境中運行補丁并自行模擬真實用戶的行為,以此評估補丁是否會對產(chǎn)品使用產(chǎn)生負(fù)面影響,但我們目前還沒有達(dá)到這個階段。
介于上述兩者之間的是一些特殊用例,比如已經(jīng)在應(yīng)用機器學(xué)習(xí)的健康和性能監(jiān)測等。我們可以把這稱之為可觀察性,下一步就是使用合適的人工智能。
因此,智能運維(AIOps)成為了這個領(lǐng)域當(dāng)下的熱門詞。Gartner就曾預(yù)測,2025年全球AIOps市場預(yù)計將達(dá)到31.2744億美元,2020年至2025年的年復(fù)合增長率為43.7%。
鑒于數(shù)據(jù)中心市場本身的規(guī)模,要想找到合適的解決方案具有一定的難度。許多企業(yè)機構(gòu)仍在尋求“最好的解決方案”,而不是退一步思考自己到底想要實現(xiàn)什么。問題在于每個AI解決方案的評估成本都十分高昂,如果僅僅為了得到一個自定義版本而從頭開始開發(fā),與此相比更好的辦法是采用具備某種集群智能的人工智能系統(tǒng),即便是已有現(xiàn)成的框架也不例外。同時請注意,處在AI解決方案的評估階段,也完全應(yīng)該進(jìn)行適當(dāng)?shù)谋O(jiān)控。
? 有光的地方,也有影子
正如同面對每項新技術(shù)或新用例時那樣,人們對人工智能既有合理的擔(dān)憂,也有不必要的抵制。對于自動化,人們主要擔(dān)心缺少開發(fā)和測試自動化腳本的時間,尤其是在沒有足夠的專業(yè)人士意見的情況下。
另一個問題是信任,這與部署AI時如出一轍。大多數(shù)人可能都曾認(rèn)為只有靠自己才能做好某項工作。在將任務(wù)交給機器去完成時,同樣會出現(xiàn)這種心理,而AI的出現(xiàn)讓人們突然對失去控制產(chǎn)生了更多的恐懼。
? 集成問題
集成一項解決方案并將其與現(xiàn)有的解決方案相聯(lián)系,是一項十分復(fù)雜且具有挑戰(zhàn)性的工作。在這方面,開發(fā)人員能夠提供很大的幫助,甚至是在部署階段之后。數(shù)據(jù)中心可以嘗試使用低代碼或無代碼,這兩項最新技術(shù)使不具備開發(fā)知識的管理員,也能夠通過創(chuàng)建簡單的應(yīng)用來提供更加定制化的服務(wù),無需學(xué)習(xí)深厚的代碼知識。
同時,一些構(gòu)建模塊只需通過一個用戶接口流程圖就能為基礎(chǔ)設(shè)施和服務(wù)管理“牽線搭橋”。這將為實現(xiàn)進(jìn)一步自動化開路,預(yù)計不久之后就會出現(xiàn)“低代碼AI接口”(這是一個筆者編出來的熱門詞)。
由此可見,數(shù)據(jù)中心管理目前所面臨的挑戰(zhàn),是評估低代碼平臺的整體成本,以及網(wǎng)絡(luò)或基礎(chǔ)設(shè)施管理員無法正常工作的時間,并將其與臨時雇用開發(fā)人員的成本進(jìn)行比較。
(來源:UPS公眾號)
凡本站注明來源的文章作品,均轉(zhuǎn)載自其它媒體,目的在于傳遞更多信息,并不代表本公司立場和觀點和對其真實性負(fù)責(zé)。