211高校的VMware遷移之路:遷至深信服云平臺,更高效、更穩定
某211高校為國家 “雙一流” 建設高校、省一流大學,在教育領域占據舉足輕重的地位。其教學單位構成豐富多元,學科體系廣泛而全面。然而,學校面臨著VMware虛擬化平臺維保到期、服務器老化等嚴峻挑戰,嚴重干擾了教學、科研及管理工作的有序開展。為確保各項業務平穩過渡與升級,學校決定采用深信服超融合替換原有的VMware,以實現網絡可視化、智能監控與告警,并構建高效的災難恢復能力,為智慧校園的建設奠定堅實的基礎。
一、 現狀與挑戰
(一) 平臺維保問題
VMware虛擬化平臺維保到期,平臺廠商停止提供售后服務和升級服務,給學校使用帶來諸多不便,潛在風險增加。
影響:隨著學校業務的發展,對平臺的穩定性和功能要求越來越高,維保到期可能導致平臺出現故障,影響教學、科研和管理工作的正常進行。
(二) 服務器老化問題
大量硬件服務器老舊過保,頻繁宕機,已經影響到正常業務運行。
影響:服務器老化嚴重降低了系統的可靠性和穩定性,導致業務中斷頻繁,不僅影響了工作效率,還可能造成數據丟失和業務損失。
(三)資源瓶頸問題
學校現有內存資源和存儲資源使用率已達80%,而建議計算資源使用率不超過70%。隨著智慧校園建設的推進,信息化業務不斷增加,新業務將逐步上線,當前云平臺資源無法滿足未來3 - 5年的擴展需求。
影響:資源不足將限制學校業務的發展,導致系統性能下降,用戶體驗變差,無法滿足教學、科研和管理工作對信息化資源的需求。
(四)管理混亂問題
學校目前有多個虛擬化平臺管理端,登錄入口分散,管理員需要分別登錄不同入口操作不同服務器,多個平臺之間缺乏統一管理、流程打通和調度,無法有序結合。
影響:管理混亂增加了運維成本和難度,降低了工作效率,容易出現錯誤和漏洞,影響系統的整體穩定性和安全性。
(五)災備機制不完善問題
學校當前災備機制不完善,僅有備份一體機且空間有限,僅對部分數據進行備份,大量重要業務數據未建立備份。同時,多校區數據中心之間容災機制尚未建立,缺乏有效的異地災備機制。
影響:在面對電力故障等突發情況時,業務無法快速恢復,可能導致數據丟失和業務中斷,給學校帶來嚴重的損失。
二、整體方案
通過本次項目建設助力學校信息化實現以下目標:
1. 先進替換目標
對原VMware服務器虛擬化承載的核心業務進行逐步替換,采用先進廠家平臺,提高學校信息化系統的穩定性和可靠性,為學校的發展提供有力保障。
2. 統一平臺納管目標
搭建統一資源管理平臺,將VMware虛擬化平臺、物理服務器資源以及GPU場景等資源由統一云計算管理平臺納管,統一進行資源調度和分配,提高學校數據中心設施利用率,避免重復 投資 ,同時降低運維成本。另外通過SCP云管平臺統一納管多資源池,包括全閃資源池、混閃資源池、容災資源池、VMware利舊資源池。
(1)納管超融合資源池
(2)納管VMware資源池
3. 建立高穩定、高可靠的業務管理平臺目標
利用高配置服務器搭建資源池集群,滿足學校關鍵業務和通用業務的穩定承載,通過云平臺內存ECC、主機、磁盤、RAID 亞健康檢測、HA、DRS等機制實現高可靠性,確保學校核心業務的穩定運行,提高系統的可靠性和可用性,為教學、科研和管理工作提供堅實的支撐。
4. 構建一朵安全的云目標
全面提高云平臺整體安全性,充分考慮網絡安全功能及其擴展功能,包括虛擬機橫向流量隔離能力、虛擬機殺毒能力、網絡層安全防護能力、應用層安全防護能力等。保障云平臺的安全運行,防止網絡攻擊、數據泄露等安全事件的發生,保護學校的信息資產和師生的個人信息安全。
5. 建立一體化的災備體系目標
依據教育部相關規范要求,構建集中化的災備體系,實現數據集中備份,健全備份策略和恢復機制,確保在突發情況下業務能夠快速恢復。提高學校的災備能力,保障數據的安全性和可用性,降低因災難導致的業務損失。
6. 一整套平滑虛擬化遷移服務目標
基于成熟方法論和工具,將VMware平臺中的不同業態、不同架構和停機要求的虛擬機平滑穩定地遷移至新平臺,確保業務的連續性和穩定性。實現業務的平滑遷移,減少對學校教學、科研和管理工作的影響,確保業務的正常運行。
三、 業務遷移
( 一 ) 信息收集
1. 目標
全面了解VMware平臺的現有配置和運行狀況,為后續遷移方案的精準設計提供詳細、準確的數據基礎。
識別不同業務系統在硬件、軟件和網絡層面的依賴關系和特性,確保遷移過程中不丟失任何關鍵信息,保障業務的完整性和連續性。
2. 關鍵點
通過獲取主機、虛擬機、存儲、網絡等全面信息,能夠提前評估遷移的難度和風險,為制定合理的遷移計劃和資源分配提供依據。
準確的信息收集有助于避免在遷移過程中因配置不匹配或信息缺失導致的業務中斷和數據丟失,提高遷移的成功率和效率。
3. 細致入微的信息收集過程
( 1 ) 主機信息目標: 明確平臺的計算資源和基礎架構信息,了解主機的性能瓶頸和潛在風險點。
重點關注點: 為評估平臺是否滿足業務需求以及確定新平臺的資源配置提供關鍵數據,確保遷移后的性能提升。例如,通過獲取CPU總容量和內存總容量等信息,可以合理規劃新平臺的硬件選型和資源分配,避免資源浪費或不足。
導出CSV報告,獲取平臺CPU總容量,內存總容量,共有11臺主機,vCenter版本為6.0。
( 2 ) 虛擬機信息目標: 掌握虛擬機的配置細節,包括硬件、存儲和網絡設置,以便在遷移過程中準確復制和恢復虛擬機環境。
重點關注點: 保障虛擬機在遷移后能夠正常運行,維持業務系統的正常服務。例如,對于具有特殊配置的虛擬機,如掛載外置存儲LUN卷的虛擬機,準確的信息收集有助于選擇合適的遷移方式,避免數據丟失和業務中斷。
登錄VMware vSphere Web Client客戶端,進入虛擬機和模板視圖,導出虛擬機相關配置信息。對于有快照回滾、配置SR - IOV直通類型網卡、磁盤為RDM類型或者虛擬磁盤為獨立模式、掛載外置存儲LUN卷的虛擬機,不能通過VMware納管方式遷移,建議采用SCMT有代理方式遷移。
( 3 ) 其他信息( HA&DRS 配置、存儲信息、集群網絡信息和操作系統信息等)目標: 全面了解平臺的高級配置、存儲架構、網絡拓撲和操作系統環境,確保遷移過程中這些關鍵組件的兼容性和正常運行。
重點關注點: 這些信息對于構建穩定、可靠的新平臺至關重要。例如,存儲信息的收集有助于規劃新平臺的存儲策略,確保數據的高效存儲和訪問;操作系統信息的收集則可以提前解決兼容性問題,保障業務系統在新平臺上的順利運行。
HA&DRS 配置: 查看群集HA策略,已啟用DRS,策略為全自動,遷移至HCI后將啟用HA機制和DRS全自動。
存儲信息收集: 登錄VMware vSphere Web Client控制臺,點擊集群名稱,進入 [管理] - 數據存儲,導出存儲相關信息,包括總容量、可用容量、類型等。
集群網絡信息收集: 登錄VMware vSphere Web Client,選擇主機后,點擊 [管理 / 網絡] 進入網絡選項卡,統計網絡信息,包括VLAN、IP地址段等,用于創建超融合物理出口 - 端口組。
統計好VXLAN信息后,用于創建超融合物理出口-端口組。
操作系統信息收集: 收集學校在用操作系統版本,用于確認SCMT agent兼容性。部分虛擬機使用的X64 Openeuler22.03 內核 5.10、UOSv20 內核 4.19.0 - 91.82.112.uelc20.x86 64不在SCMT有代理遷移插件兼容性列表里,需使用VMware納管遷移或者ISO遷移。
( 二 ) 遷移方案設計
1. 目標
根據信息收集的結果,制定科學合理、切實可行的遷移方案,確保業務系統能夠平穩、高效地從VMware平臺遷移到新平臺。
充分考慮業務的復雜性和多樣性,通過合理的規劃和設計,降低遷移過程中的風險,保障業務的連續性和數據的安全性。
2. 重點關注
科學合理的遷移方案能夠提高遷移效率,減少業務停機時間,降低對學校教學、科研和管理工作的影響。
通過嚴謹的方案設計,可以有效避免因遷移過程中的錯誤操作或不合理規劃導致的業務中斷和數據丟失,保障學校信息化系統的穩定運行。
3. 嚴謹細致的方案設計過程
( 1 ) 原則遵循目標: 確保遷移工作按照既定的規則和順序進行,避免混亂和無序操作,降低遷移風險。
重點關注點: 遵循先易后難、先常規業務后核心業務的原則,可以在遷移過程中逐步積累經驗,及時發現和解決問題,避免因核心業務遷移失敗導致的重大影響。例如,先遷移簡單的業務系統可以測試遷移流程和工具的有效性,為核心業務遷移提供參考和保障。
( 2 )方式確認目標: 根據不同業務系統的特點和需求,選擇最合適的遷移方式,確保遷移過程的高效和穩定。
重點關注點: 不同的業務系統可能具有不同的硬件、軟件和網絡配置,選擇合適的遷移方式可以提高遷移成功率,減少數據丟失和業務中斷的風險。例如,對于對停機時間要求較高的業務系統,可以選擇對業務影響較小的遷移方式,如SCMT熱備遷移模式,以保障業務的連續性。
( 3 )耗時預估目標: 準確預估虛擬機遷移所需的時間,合理安排遷移計劃,確保遷移工作按時完成。
重點關注點: 合理的時間規劃有助于協調學校各部門的工作,避免因遷移時間過長影響學校的正常教學、科研和管理工作。同時,準確的耗時預估也可以提前發現可能存在的問題,如資源不足或網絡帶寬限制等,及時采取措施加以解決。
( 4 )全面考慮(端口連通性和兼容性檢查)目標: 確保新平臺與VMware平臺之間的端口連通性和系統兼容性,保障遷移過程中數據的正常傳輸和系統的穩定運行。
重點關注點: 端口連通性和兼容性是遷移成功的關鍵因素之一。通過提前檢查和解決這些問題,可以避免因網絡連接問題或系統不兼容導致的遷移失敗,提高遷移的成功率和效率。
與用戶分工界面:
( 三 ) 遷移中
1. 重點關注項
嚴格的測試和監控可以提前發現系統的潛在問題和風險點,及時采取措施加以解決,避免在遷移完成后出現業務中斷和數據丟失等嚴重問題。
對核心應用和其他應用的成功遷移是整個遷移項目的關鍵環節,直接關系到學校教學、科研和管理工作的正常進行。通過精心組織和實施遷移過程,可以保障業務系統在新平臺上的穩定運行,為學校的信息化建設提供有力支持。
2. 全面保障的遷移過程
( 1 ) 嚴格測試性能測試 :評估平臺在各種故障情況下的性能表現,確保系統在面臨硬件故障、網絡故障等異常情況時仍能正常運行。
重點關注點: 通過性能測試,可以提前發現系統的性能瓶頸和潛在風險點,及時優化系統配置,提高系統的可靠性和穩定性。例如,在單網口故障、單交換機故障等情況下的測試結果,可以為網絡架構的優化提供依據,保障業務系統在復雜網絡環境下的正常運行。
性能測試結果:(NVMe SSD 全閃池+Turbo+RDMA集群性能)
( 2 ) 可靠性測試: 驗證系統在硬件組件故障(如磁盤拔盤、電源故障等)情況下的容錯能力和恢復能力,確保系統具有足夠的可靠性。
重點關注點: 可靠性測試可以保障系統在面對硬件故障時能夠快速恢復,減少業務中斷時間。
( 3 ) 核心應用遷移: 確保學校核心業務系統(如智慧校園 E - campus)能夠順利遷移到新平臺,保障核心業務的連續性和穩定性。
重點關注點:
對于大型應用群,需根據應用特點區分為單體應用、集群類應用和數據庫類應用,梳理應用架構圖,理清應用脈絡。
Memcached無法進行持久化,數據不能備份,只能用于緩存使用,且重啟后數據全部丟失,因此Memcached虛擬機遷移后,數據需要重新緩存,性能有一個爬坡階段。
數據庫類業務遷移完成后進行數據完整性驗證和業務可用性時,可以通過分布式防火墻添加ACL規則,僅允許測試終端訪問,驗證數據無誤、業務可用性后再全部開放,避免未充分驗證時有其他終端的新增數據寫入,導致無法回退。
( 4 ) 其他應用遷移: 將其他非核心業務應用系統(如 XGC - ihome k8s 容器云平臺)遷移到新平臺,實現學校信息化系統的全面遷移。
重點關注點: 其他應用系統雖然不是核心業務,但也是學校信息化建設的重要組成部分。其成功遷移可以保障學校整體信息化系統的完整性和一致性,提高學校信息化管理的效率和水平。
( 四 ) 遷移后
業務切換協調有序: 協調停機時間進行業務切換,源機斷開網絡,目標機拉起,確保了業務的連續性和穩定性。
業務驗證嚴格細致: 業務部門人員對業務應用的各項關鍵功能進行了可用性驗證,同時對數據遷移前后進行了交叉驗證,確保了業務的完整性和數據的準確性。
四、 保障業務平穩運行
在業務遷移后,為保障用戶業務的持續穩定運行,深信服采取了一系列重要動作,主要包括智能監控與告警以及定期巡檢,具體如下:
( 一 ) 智能監控與告警監控機制
1. 構建快速感知風險的監控體系: 聯動云端智能大腦,對學校云平臺實現7*24小時不間斷的監控和告警。這一機制能夠及時捕捉到平臺運行過程中的各種異常情況,為風險預測和預防性處置提供了堅實的數據支持。
2. 問題發現與處理內存不足問題: 通過云端智能大腦的精準分析,及時發現了centos7-Ecampus-DBexchangeServer等核心數據庫虛擬機內存不足以及MongoDB內存不足的問題。
優化措施:針對這些問題,迅速采取增加內存的措施來優化系統運行,有效解決了內存不足對業務的潛在威脅,確保了虛擬機的穩定運行,為業務的正常開展提供了有力保障。
3. 意義與價值: 智能監控與告警系統的有效運行,能夠及時分析預測風險點,提前采取預防性處置措施,避免了風險的升級,從而保障了業務的穩定運行。這不僅提高了系統的可靠性和穩定性,還為用戶節省了因業務中斷而帶來的巨大損失,提升了用戶對平臺的信任度。
( 二 ) 定期巡檢
1. 主動服務準備: 提前了解歷史問題,覆蓋中基層并爭取與高層溝通匯報,了解不同層級關注點,為個性化服務奠定基礎。
2. 產品運行診斷: 傳遞服務理念,了解使用情況,采用工具與checklist點檢設備,處置問題與優化項,保障業務最佳狀態。
3. 差距分析與建議: 解讀診斷結果,提供深化建議、培訓與匯報,強化用戶價值感知,助力解決問題提升業務。
4. 主動服務收尾: 及時實物反饋,處置遺留問題,確保用戶感知服務水平,提升滿意度。
5. 目的與意義: 檢查風險與差距,維持業務良好狀態;識別短板與需求,獲認可提升滿意度;提供技術方案,利于業務發展承載。
五、 替換總結
某211高校的VMware遷移項目取得了顯著的成果,為學校的發展帶來了新的機遇和可能性。同時,也為其他高校的信息化建設提供了寶貴的經驗和借鑒。
借助云平臺升級的契機,學校實現了業務的全面轉型與升級,有力地推動了教學、科研和管理工作的信息化進程。在此過程中,安全可靠的云平臺得以構建,為學校的信息資產和師生的個人信息安全筑牢了防線,為學校的可持續發展奠定了堅實基礎,也為教學改革和科研創新注入了新的動力。
具體價值體現:
1. 價值業務平穩遷移
學校業務順利完成了從VMware平臺到深信服超融合平臺的遷移,核心業務更是遷移至全閃資源池,這一舉措顯著提升了業務的性能。使得學校的各項業務能夠更加穩定、高效地運行,為教學和科研工作提供了更強大、更可靠的支撐。
2. 網絡可視化
通過運用網絡可視化工具(aNI,Advanced Network Insight),學校各二級學院、科室的虛擬機訪問關系得以實現自動采集和梳理。這不僅提供了詳細的訪問關系拓撲圖和訪問詳情,還為優化網絡策略配置提供了有力依據,有助于及時發現業務訪問過程中的潛在風險,有效減少了風險端口的暴露,為網絡安全提供了更有效的保障。
3. 業務實現高可用
遷移至深信服超融合平臺后,憑借SCP云平臺集成的異地容災功能,無需安裝第三方軟件和插件,即可輕松獲取容災功能。核心業務基于aDR實現了同架構數據中心級別容災,這意味著在面對突發情況時,業務能夠迅速恢復,為學校的業務連續性提供了堅實的保障,確保學校正常運營不受影響。
六、 用戶價值
本次VMware遷移項目得到了用戶的廣泛好評。與VMware平臺相比,深信服云平臺在功能、性能、可靠性和日常運維便捷性等方面都展現出了明顯的優勢。其豐富的功能、高效的資源調度和全面的安全防護,特別是分布式防火墻的靈活應用,極大提升了工作效率。同時,深信服云平臺運行更穩定、流暢,系統響應迅速,能快速恢復業務。遷移團隊提供的全面保障措施,包括數據備份、系統測試和故障排查,為學校提供了專業、高效和可靠的服務,也為學校的信息化建設注入了新活力。