過去十來年的發展,讓大智慧積累了眾多的IDC資源和服務器。而近些年來證券行業所呈現的浪潮式增長態勢,也開始讓公司服務器端承受越來越嚴峻的考驗。
2012年,我開始接手整個IDC部門。在對線上的業務系統資源利用率進行了排查整理后,幾個突出的問題點擺在了眼前:
1.業務系統發布在過多的IDC機房,這樣雖然可以解決單點故障,但增加了成本支出同時增加故障定位周期。
2.業務上線周期過長,采用一個應用系統一臺服務器。受制于硬件采購、IDC資源申請周期。
3.90%的服務器資源利用率不超過10%,剩余資源極度浪費,大量的服務器放置于租用的IDC機房產生的費用相當可觀。
4. 經常找不到技術人員,工作效率低,不是忙著上線眾多服務器,就是忙于在現場處理各類硬件故障。
上述問題并非大智慧IDC部門所獨有,不少數據服務企業也時常面臨著相似的困境。但受限于傳統技術方案的局限性,這些問題的解決往往投鼠忌器,難有周全之法。
歷程:由虛擬化到ZStack規模部署

基于上述原因,團隊開始尋找一種能突破傳統藩籬限制的解決方案。回顧這個歷程,我們總共經歷了四個階段:
第一階段: 2012年起開始測試環境進行虛擬化嘗試。單個服務器的利用率提升,業務上線周期提高。
第二階段:尋找可統一管理的平臺,Openstack 、Cloudstack、等IaaS軟件進行小規模部署。
第三階段:對IDC資源進行整合。結合用戶來源分析,建立多個核心機房。
第四階段:使用私有云ZStack平臺規模部署。
云平臺選擇:如何解決安全穩定性、管理效率與成本
一般而言,私有云領域常采用OpenStack和CloudStack兩大開源云平臺。在選型之初,根據企業本身的特點,我們將安全穩定性列為首要條件。
但是由于缺乏技術力量,我們對于開源項目的底層核心改造沒有經驗和能力。這導致對于CloudStack的測試使用,始終是控制在極小的范圍內。私有云的項目也因此停滯了很長時間。
一次偶然的機會,我們接觸到了國內的IaaS開源產品ZStack。企業的私有云之路,也出現了新的轉機。
在ZStack官方公布的技術文檔中,可以發現有很多不同于現有IaaS產品的架構設計,其主要特色為全異步架構、微服務和一致性哈希,可承載高并發的API請求,具備穩定的架構、非常簡化的部署和升級的特點。
總結起來,ZStack的優勢切中了我們兩大痛點:其一是閑置資源無法充分利用;其二是缺乏足夠技術人才。其安全穩定性也有足夠保障,這使得我們迅速將其確定為第一解決方案。
從0.7版本開始,我們一直用到了現在的1.04版。期間針對平臺使用中的改進意見和Bug修復,得到開發團隊很好的回復和解決。多次版本的升級如官網所說一鍵完成,平臺的容災恢復也經過多次驗證,確實安全可靠。
目前大智慧部署近百臺宿主機,500多個云主機實例運行中,系統創建交付周期以秒計。所有宿主服務器只是將現有服務器增加內存和硬盤,讓所有設備的利用率提升到最大。
平臺架構如下:

1.ZStack管理節點:
機器數量2臺,負責管理一個站點內所有的計算和存儲節點,并提供容災和高可用。
2.Hosts計算節點:
每個機柜部署12-15臺
硬件配置,直接對現有服務器改造,(2x Intel Xeon/ 128G Mem/ 5x 600G
HD)。型號相同的服務器放置在一個cluster
操作系統,Centos 7.1
3.本地盤存儲:
考慮到分布式存儲的硬件投入已經維護技術要求高,故障發生影響范圍巨大,并且本身業務系統非IO高并發。
采用最成本最節省的方式。同時在部署的時候利用系統的分布式部署在多臺宿主機上避免單點故障。
4.網絡:
采用扁平網絡(無虛擬路由方案),平臺只提供DHCP功能。所有網絡流量都由物理網絡設備處理。提供服務的Public網路Trunk模式VLAN隔離。SDN方案需等成熟穩定可靠廉價的出現以后再做調整。
在ZStack社區(ZStack
QQ群410185063)中,其創始團隊會根據用戶的一些實踐體會和改進意見,進行評估快速解答,并在后續版本更新中加入新功能、修復bug。平臺的日常維護和升級只需1-2人,經過簡單的培訓即可上手。從ZStack0.7版本到現在1.04版的使用,每次版本升級根據官網提供的升級手冊操作。只需要短短幾分鐘就可以完成,升級過程中用戶無感知。
現狀:工作效率與人力成本大幅優化
目前,大智慧的眾多新業務系統都在逐步向ZStack平臺上部署。運維人員只需要關注資源利用率是否在安全水位,便可以在事先做好資源上線。
從系統申請到進行部署,僅需要幾分鐘。公司私有云平臺從ZStack
0.7版本開始,每次ZStack發布后都會安排運維人員及時升級。ZStack的無縫升級功能可以最大化的降低軟件升級的成本,幾次升級過程都較為順利。
與早期基于傳統數據中心的簡單服務器堆疊相比,依托ZStack云平臺的新系統在設備利用率,工作效率等方面都有了極大的提升,同時又大幅度降低了固定資產投資和運營成本。
如今,大智慧已在私有云平臺上累計創建超過5000個云主機實例。如果按照傳統部署方式,搭建一臺物理機生產環境平均需要2個小時,那么私有云平臺已經累計節省了10000個工時,相當于1250人天。由此帶來的整個公司工作效率的提升遠非簡單的數字運算可以體現。
運維團隊工作從簡單、重復的工作中解放出來,有精力放在研究和部署更好的技術架構和方案上,提升了工作效率,減少了人力投入,運維人員的人力成本節省。
展望:整合更多的物理資源進入私有云環境

由于ZStack底層的基礎平臺已經搭建完成,添加物理機的工作可以通過UI界面點擊完成,未來會整合更多的物理資源進入私有云環境。由于環境規模的不斷提升,多租戶管理以及內部的賬單系統就變得非常重要了,據悉這些功能也會在ZStack后續產品能夠提供。
隨著私有云平臺的使用深入,未來將CMDB、安全、監控報警平臺、發布平臺與私有云進行整合,實現故障自動恢復,業務自動上線發布等自動化管理。利用公有云例如AWS、Azure等作為系統彈性擴展。運維人員有精力去關注業務,利用線上系統狀態流量等底層數據分析,提供產品等做業務調整。無疑會真正改善程序的運行環境,提升產品運行質量。
ZStack 微信二維碼公眾號

作者簡介:朱煜華,大智慧高級運維經理。上海大智慧股份有限公司公司作為中國領先的互聯網金融信息服務提供商,以軟件終端為載體,以互聯網為平臺,向投資者提供及時、專業的金融數據和數據分析,提供行情顯示、行情分析和行情交易的股票軟件。在行業內具有重要影響力。
