編者按:
今年數據中心被納入新基建范疇,這個政策也體現了國家對數據中心建設的重視,各地也在加速新基建的落地。全國已有數據中心機架數量超200萬個,據中國信息通信研究院的專家判斷,數據中心市場的總體規模仍在快速增長,未來三年年均復合增長率不低于30%。數據中心建設如何向著大型化、規模化、節能化、智能化的方向發展,實現全國資源合理布局,成為當下的一個議題。
易捷行云新一代私有云EasyStack ECS將1000+家大中型企業客戶、數萬節點規模云平臺的運維經驗產品化,實現了輕運維。它基于安全、穩定、高效的新一代數據中心分布式云操作系統,通過一體化、場景化的設計理念將平臺與服務相分離,實現了全平臺的可進化能力和輕運維能力。在輕運維方面,它可實現超大規模云計算中心的智能統一運維,不僅實現了日志、監控、告警的可視化、自動化,還可以自主探測系統拓撲與服務狀態的變化,進而實現基于智能感知的故障預診斷分析和快速自愈。
本篇為易捷行云輕運維系列之智能監控篇。

隨著企業數字業務規模不斷擴大,上線的業務系統日益增多,IT系統的穩定運行也日益重要。面對日益復雜多變的IT系統,企業需要一套涵蓋基礎架構、系統應用性能和用戶體驗管理的統一監控平臺,提供統一監控、日志、告警服務,構建立體化IT監控和運維管理體系,無后臺操作實現故障自愈,提高IT系統運維工作的整體效率及服務水平,保障業務系統的持續穩定運行。
統一監控、日志、告警服務,無人值守智能運維
傳統私有云的監控管理、巡檢、日志等系統是分開建設的,監控工具需要通過手工方式進行數據集成與分析,并且只能臨時應付IT運營團隊遇到的問題。而易捷行云新一代私有云EasyStack ECS可實現超大規模云計算中心一體化統一運維,將1000+家大中型企業客戶、數萬節點規模云平臺的運維經驗產品化,常見問題內置于產品內,并且不斷更新告警知識庫,實現監控可進化。
易捷行云新一代私有云ECS提供智能運維監控服務,除了為每個項目提供項目視角的云資源監控之外,還為運維人員提供全局視角的智能運維監控,可以對平臺運行時的各類指標進行實時監控,第一時間了解各類資源的使用情況以及各項服務的運營狀態,從故障的預警、發現、診斷到處理,整個流程自動化實施,大大減輕了運維保障人員的工作量。

易捷行云ECS智能運維監控
易捷行云新一代私有云ECS具備完善的監控告警機制,提供完善的監控、日志、告警API,便于與企業已有系統集成,同時可以針對各類指標設置警報,及時通知管理員系統運行故障以及潛在的風險。此外,還提供日志管理服務,方便運維人員對平臺歷史運行狀態進行審計、排查等操作。
資源全棧覆蓋,智能故障處理
易捷行云新一代私有云ECS監控服務主要對云平臺的物理資源、云服務資源、分布式存儲集群以及控制平面服務狀態等進行統一監控管理,并提供豐富的監控大屏可視化展示,覆蓋多項監控指標,全面滿足用戶對于系統穩定性和可靠性的需求。
云平臺一體化態勢實時呈現:提供統一的界面,針對數據中心資源進行多維度全面監控;態勢感知底層資源數據,提供直觀友好的監控可視化展示,直觀的體現應用、基礎架構和告警等運維整體健康狀況,展示監控對象的關鍵數據,方便運維人員對所有業務應用和IT運營情況整體把控。

云資源多維度全面監控
助力運維決策與容量規劃:云監控為用戶提供即開即用式的監控體驗,用戶登錄云監控控制臺即可查看云服務的監控報表,細粒度監控指標,性能、容量、運行狀態,助力運維決策與容量規劃;報警服務和自動巡檢報告可通過郵箱進行推送告知,確保基礎設施出現異常時的快速預警。

基礎設施異常實時告警
故障預診斷分析和快速自愈:實時、準確掌握各業務應用系統的運行狀態,自主探測系統拓撲與服務狀態的變化,進而實現基于智能感知的故障預診斷分析和快速自愈。

高效故障定位,快速自愈
面向異構多云構建立體化IT監控和運維管理體系
隨著客戶對多云的接受程度越來越高,客戶IT資源中越來越多的應用x86和non-x86不同平臺,需要支持異構多云的云平臺,提供統一的服務監控。
易捷行云基于新一代私有云ECS打造異構多云的云服務平臺,為用戶業務應用提供x86和non-x86的異構計算能力,并對底層異構資源技術差異性進行有效屏蔽,充分滿足了企業用戶“多樣化計算、多云形態”訴求。同時,易捷行云基于新一代私有云ECS面向異構多云提供統一服務監控,打破數據孤島,構建立體化IT監控和運維管理體系。
案例:某大型國有銀行基于易捷行云新一代私有云ECS實現智能監控
某大型國有銀行總資產超過10萬億,該銀行把金融科技提升到全行戰略高度,積極推進互聯網金融平臺建設,采用易捷行云新一代私有云ECS,構建了基于OpenStack的金融生產云。由于該銀行云平臺跨越兩地三中心,部署數千節點,同時按照項目方式建設的云平臺比較多,存在多套控制平面以及監控系統,累加在一起對設備及資源的占用問題就浮現出來,資源統一管理、統一調配、統一運維的需求日益迫切。
易捷行云新一代私有云ECS通過整合集中化統一監控運維,在運維上采用了集中可視化管理:對包括兩地三中心云系統提供的云服務及建設的資源池實現統一監控、管理,最大化保障平臺的可用性。同時,借助AIOps思想,把總結的運維經驗產品化,實現故障智能化事件調度。當出現某一種故障時,云平臺自動觸發故障處理機制,全平臺故障自愈設計,全面保障平臺穩定運行,提升平臺管理和運維服務質量。
通過易捷行云新一代私有云ECS智能運維監控服務,可實時收集獲取私有云資源的監控指標或用戶自定義的監控指標,探測服務可用性,以及針對指標設置警報,全面掌控各核心系統的服務狀態及業務支撐能力,為業務和系統性能分析、IT運維管理決策奠定了數據基礎,以簡單高效的輕運維體驗保證云應用順暢運行。