數(shù)智QA|AI大模型時(shí)代,IT運(yùn)維將有哪些變化?
數(shù)智QA|AI大模型時(shí)代,IT運(yùn)維將有哪些變化?

當(dāng)你春節(jié)假期抱著手機(jī)搶紅包的時(shí)候
當(dāng)你與TA煲視頻電話的時(shí)候
當(dāng)你買完東西掃碼支付的時(shí)候
當(dāng)你輸入目的地開始叫車的時(shí)候
...
你一定不愿看到手機(jī)應(yīng)用進(jìn)度一直轉(zhuǎn)圈、畫面卡頓
流暢的體驗(yàn),離不開背后萬千ICT基礎(chǔ)設(shè)施的支持
正是這些基礎(chǔ)設(shè)施不斷應(yīng)對(duì)互聯(lián)網(wǎng)流量洪峰的沖擊,時(shí)刻響應(yīng)用戶的應(yīng)用請(qǐng)求。而數(shù)字基礎(chǔ)設(shè)施和企業(yè)業(yè)務(wù)的穩(wěn)定運(yùn)行,更離不開IT運(yùn)維的精心管理和保障。
IT運(yùn)維,簡而言之,就是對(duì)IT環(huán)境、系統(tǒng)、設(shè)備及網(wǎng)絡(luò)進(jìn)行全面的維護(hù)和管理。IT運(yùn)維包括但不限于對(duì)硬件、軟件、網(wǎng)絡(luò)、數(shù)據(jù)庫及安全設(shè)施等的監(jiān)控、維護(hù)、優(yōu)化和故障排除,在IT基礎(chǔ)設(shè)施運(yùn)營等方面扮演著至關(guān)重要的角色。如今,IT運(yùn)維已經(jīng)成為保證企業(yè)穩(wěn)定運(yùn)營、提高系統(tǒng)效率、保障數(shù)據(jù)安全、快速響應(yīng)故障以及推動(dòng)技術(shù)創(chuàng)新和智能化轉(zhuǎn)型的關(guān)鍵力量。
隨著AI、云計(jì)算、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,特別是生成式人工智能及AI大模型的發(fā)展,IT運(yùn)維也在不斷創(chuàng)新和演進(jìn),進(jìn)入“智能運(yùn)維時(shí)代”。
本期的《數(shù)智QA》,我們將從多個(gè)維度,深入探討智能運(yùn)維為行業(yè)智能化帶來的影響。
數(shù)智 QA
當(dāng)前企業(yè)IT運(yùn)維普遍面臨哪些問題?
Artificial Intelligence for IT Operations
運(yùn)維機(jī)制不完善:沒有建立起穩(wěn)定、規(guī)范的IT運(yùn)維機(jī)制,導(dǎo)致運(yùn)維流程的操作層面缺乏統(tǒng)一的標(biāo)準(zhǔn)和指導(dǎo),使得運(yùn)維工作難以規(guī)范化、系統(tǒng)化。
運(yùn)維質(zhì)量低下:由于運(yùn)維工作的復(fù)雜性和繁瑣性,以及缺乏有效的運(yùn)維工具和技術(shù)支持,導(dǎo)致IT運(yùn)維本身的質(zhì)量很難提高,存在大量的重復(fù)性勞動(dòng)和手動(dòng)操作。
團(tuán)隊(duì)建設(shè)有待提升:運(yùn)維團(tuán)隊(duì)中技能水平參差不齊,一些關(guān)鍵技能和知識(shí)僅存在于少數(shù)核心人員中,導(dǎo)致過度依賴這些人員,一旦他們離職或生病,整個(gè)運(yùn)維工作可能面臨嚴(yán)峻考驗(yàn)。
運(yùn)維成本高昂:企業(yè)業(yè)務(wù)的不斷發(fā)展和IT系統(tǒng)日益復(fù)雜,導(dǎo)致運(yùn)維成本不斷攀升,成為企業(yè)的沉重負(fù)擔(dān)。如何降低運(yùn)維成本、提高運(yùn)維效率成為企業(yè)亟待解決的問題。
什么是智能運(yùn)維?
Artificial Intelligence for IT Operations
智能運(yùn)維即AIOps(Artificial Intelligence for IT Operations),由Gartner在2016年最先提出,是將人工智能和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于IT運(yùn)維領(lǐng)域的一種方法。AIOps可提高處理故障的響應(yīng)速度、降低故障影響范圍、增強(qiáng)系統(tǒng)穩(wěn)定性和可靠性,并提高IT運(yùn)維團(tuán)隊(duì)的工作效率和資源利用率。
相較于傳統(tǒng)IT運(yùn)維,智能運(yùn)維有哪些優(yōu)勢(shì)?
Artificial Intelligence for IT Operations
主要體現(xiàn)在五個(gè)方面:
1.強(qiáng)大的數(shù)據(jù)處理和分析能力:AIOps通過數(shù)據(jù)平臺(tái)廣泛采集、處理和分析數(shù)字化業(yè)務(wù)運(yùn)行過程中的多樣化運(yùn)維數(shù)據(jù),包括告警、指標(biāo)、日志、配置以及運(yùn)維工單等類別,提升了運(yùn)維大數(shù)據(jù)的治理能力、優(yōu)化數(shù)據(jù)質(zhì)量,為進(jìn)一步激活運(yùn)維數(shù)據(jù)的價(jià)值打下了良好基礎(chǔ)。
2.快速的故障預(yù)判及風(fēng)險(xiǎn)防范能力:AIOps能夠?qū)?shí)時(shí)數(shù)據(jù)進(jìn)行異常檢測(cè)和問題預(yù)判,有效降低數(shù)字化業(yè)務(wù)的運(yùn)行風(fēng)險(xiǎn),提升可用性和穩(wěn)定性。運(yùn)維人員能夠提前發(fā)現(xiàn)潛在問題并采取相應(yīng)的措施,從而避免或減少故障的發(fā)生。
3.更低的運(yùn)維人力成本:AIOps使真正意義上的跨域根本原因定位成為可能,降低對(duì)專業(yè)運(yùn)維人員經(jīng)驗(yàn)技能的依賴,迅速縮短故障排查時(shí)間并有效降低人力成本。
4.更高的自動(dòng)化和智能化效率:AIOps可以自動(dòng)化許多傳統(tǒng)的運(yùn)維任務(wù),如日志分析、事件管理、故障診斷等。同時(shí),AIOps還具備智能化的決策支持能力,可以為運(yùn)維團(tuán)隊(duì)提供實(shí)時(shí)的警報(bào)、推薦解決方案和執(zhí)行修復(fù)操作等智能化支持。
5.更好的業(yè)務(wù)理解能力:AIOps不僅能夠關(guān)注IT系統(tǒng)本身的狀態(tài)和性能,還能夠感知業(yè)務(wù)側(cè)的影響力。這使得運(yùn)維團(tuán)隊(duì)能夠更好地理解業(yè)務(wù)需求并優(yōu)先處理對(duì)業(yè)務(wù)影響較大的問題,從而確保業(yè)務(wù)的連續(xù)性和穩(wěn)定性。
中國信通院《中國AIOps現(xiàn)狀調(diào)查報(bào)告(2023)》顯示,2023年有55.69%的受訪企業(yè)加大了在AIOps智能運(yùn)維的投入資金。其中,保證運(yùn)維質(zhì)量,提高運(yùn)維效率仍為目前企業(yè)關(guān)注度最高的應(yīng)用方向。
全新AI時(shí)代,大模型加持的智能運(yùn)維將發(fā)揮什么作用?
Artificial Intelligence for IT Operations
1.智能化監(jiān)控和預(yù)警:AI大模型能夠處理海量的運(yùn)維數(shù)據(jù),通過實(shí)時(shí)監(jiān)控和智能分析,及時(shí)發(fā)現(xiàn)系統(tǒng)的異常和潛在問題。這將使得運(yùn)維團(tuán)隊(duì)能夠更快速、準(zhǔn)確地響應(yīng)故障,并提前采取預(yù)防措施,避免或減少故障的發(fā)生。
2.自動(dòng)化運(yùn)維和修復(fù):借助AI大模型,AIOps將實(shí)現(xiàn)更高程度的自動(dòng)化。從日志分析、事件管理到故障診斷和修復(fù),許多繁瑣的運(yùn)維任務(wù)將由AI系統(tǒng)自動(dòng)完成。
以Lenovo xCloud聯(lián)想混合云智能運(yùn)維解決方案為例,該方案基于聯(lián)想技術(shù)與解決方案交付團(tuán)隊(duì)多年來服務(wù)聯(lián)想內(nèi)部業(yè)務(wù)的實(shí)踐經(jīng)驗(yàn)積淀而成。聯(lián)想混合云AIOps以數(shù)據(jù)驅(qū)動(dòng)的智能分析為大腦、任務(wù)驅(qū)動(dòng)的自動(dòng)化平臺(tái)為手腳,實(shí)現(xiàn)對(duì)混合云環(huán)境端到端的智能管理,助力IT不同角色實(shí)現(xiàn)以業(yè)務(wù)價(jià)值為導(dǎo)向的IT運(yùn)營,保障業(yè)務(wù)連續(xù)性,實(shí)現(xiàn)快速業(yè)務(wù)交付,降本增效。
聯(lián)想混合云AIOps為客戶提供了豐富的運(yùn)維場(chǎng)景支持,并實(shí)現(xiàn)開箱即用,同時(shí)具備高靈活性,可為企業(yè)提供個(gè)性化運(yùn)維服務(wù)。通過建立企業(yè)統(tǒng)一的運(yùn)維數(shù)據(jù)湖,對(duì)數(shù)據(jù)進(jìn)行采集、治理、分析、存儲(chǔ),聯(lián)想混合云AIOps可為企業(yè)建立系統(tǒng)的知識(shí)圖譜并實(shí)現(xiàn)全方位、多視角的智能數(shù)據(jù)分析和可視,支持企業(yè)對(duì)業(yè)務(wù)運(yùn)營進(jìn)行智能決策,加速企業(yè)智能化進(jìn)程。目前,聯(lián)想混合云AIOps解決方案已經(jīng)在IT資產(chǎn)和配置管理、自動(dòng)化運(yùn)維管理、一體化運(yùn)維平臺(tái)等領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用。
在吉利星睿智算中心·智能仿真平臺(tái)建設(shè)中,依托聯(lián)想混合云AIOps解決方案,聯(lián)想為吉利提供了統(tǒng)一運(yùn)維入口及訪問控制,實(shí)現(xiàn)一體化運(yùn)維管理。集群自動(dòng)化運(yùn)維支持對(duì)高性能計(jì)算資源維護(hù)和使用過程中的日常運(yùn)維工作,統(tǒng)一的高性能計(jì)算任務(wù)調(diào)度、管理及執(zhí)行,使仿真任務(wù)計(jì)算效率提升10%。豐富的運(yùn)維自動(dòng)化場(chǎng)景進(jìn)一步降低了運(yùn)維技術(shù)門檻,智算中心運(yùn)維效率提升30%,平臺(tái)計(jì)算效率提升30%,并有望將計(jì)算效率進(jìn)一步提升10%-30%。
3.個(gè)性化運(yùn)維服務(wù):AI技術(shù)助力之下,AIOps將越來越注重為企業(yè)提供個(gè)性化服務(wù)。AI大模型能夠根據(jù)企業(yè)的業(yè)務(wù)需求和系統(tǒng)特點(diǎn),定制化提供運(yùn)維解決方案,滿足企業(yè)的特定需求。
4.知識(shí)圖譜與智能決策:AI大模型能夠構(gòu)建運(yùn)維知識(shí)圖譜,將分散的運(yùn)維知識(shí)整合起來,形成結(jié)構(gòu)化的知識(shí)體系?;谶@個(gè)知識(shí)體系,AI系統(tǒng)能夠提供智能的決策支持,幫助運(yùn)維團(tuán)隊(duì)作出更明智的決策。
在某省級(jí)大型能源集團(tuán)的IT運(yùn)維中,聯(lián)想為該集團(tuán)及分公司構(gòu)建了統(tǒng)一的運(yùn)維平臺(tái),支持企業(yè)資產(chǎn)管理、服務(wù)運(yùn)營、監(jiān)控告警等服務(wù),大幅提升了運(yùn)維標(biāo)準(zhǔn)化和成熟度。在聯(lián)想混合云AIOps解決方案助力下,該集團(tuán)數(shù)據(jù)中心故障切換時(shí)間縮短4.5倍,硬件成本節(jié)約40%,業(yè)務(wù)承載能力提升6倍。
5.安全性增強(qiáng):AI大模型在網(wǎng)絡(luò)安全領(lǐng)域也有廣泛應(yīng)用,能夠?qū)崟r(shí)監(jiān)測(cè)和識(shí)別潛在的安全威脅,自動(dòng)采取防御措施。這將使得IT運(yùn)維在保障系統(tǒng)安全方面更加高效和可靠。
Gartner的數(shù)據(jù)顯示,2023年AIOps在中國的市場(chǎng)滲透率只達(dá)到了目標(biāo)受眾的5%-20%。這一數(shù)據(jù)意味著仍有大量企業(yè)還未進(jìn)行AIOps建設(shè),未來AIOps市場(chǎng)前景廣闊。目前,已經(jīng)開始應(yīng)用AIOps的企業(yè),智能運(yùn)維水平普遍還處于輔助智能化運(yùn)維階段,主要以系統(tǒng)輔助分析,幫助人工進(jìn)行決策和操作為主。隨著AI大模型和生成式AI技術(shù)的加速落地,AIOps智能運(yùn)維也將循序漸進(jìn)不斷升級(jí),在質(zhì)量、成本、效率、安全等維度持續(xù)完善,助推企業(yè)智能化轉(zhuǎn)型。