成功遷移!從VMware至深信服云平臺,大型制造企業的替換實踐
某制造業企業為全球領先的通信服務及解決方案提供商,業務廣泛且復雜,對 IT 基礎設施的穩定性、可靠性和靈活性有著極高的要求。然而,公司原VMware系統許可到期,存在安全風險及存儲管理、資源利用問題,業務連續性受威脅,且系統兼容性需求逐漸提升。為滿足業務發展需求,集團決定使用深信服超融合替換原有的VMware,以增強業務連續性和安全性。
一、 現狀與挑戰
( 一 ) 技術層面
1. 許可與安全問題
VMware許可到期,在出現漏洞時無法及時得到修復,存在一定的安全風險。
2. 功能缺失
網絡安全防護: 未使用NSX,因此業務系統東西向流量互訪無法得到有效保障,網絡安全防護存在漏洞,容易受到外部攻擊。
虛擬化和存儲管理: 物理機在存儲管理方面的功能相對有限,無法滿足日益增長的業務需求,如資源動態分配、存儲優化等。
( 二 ) 業務層面
資源利用效率低: 物理機靈活性差,資源分配固定,無法根據業務負載的變化進行動態調整,導致部分資源閑置,而部分業務系統卻面臨資源不足的困境。
業務連續性風險高: 物理機上線時間長,故障風險持續增高,沒有HA機制保障,一旦出現故障,將導致業務中斷,影響用戶業務的正常運行。
兼容性問題: 隨著新業務系統的不斷上線,對基礎設施的兼容性要求越來越高,VMware平臺在某些方面無法滿足需求,限制了業務的拓展。
二、 VMware 替換方案設計
( 一 ) 整體規劃
遷移目標: 將用戶的業務系統從VMware平臺遷移到深信服的HCI平臺,實現業務的平穩過渡,提高資源利用率,增強業務連續性和安全性。
資源整合: 對原有的物理機和VMware虛擬機資源進行整合,統一管理和分配,充分發揮HCI平臺的優勢,提高資源利用率。
業務承載優化: 根據業務系統的特點和需求,為其在HCI平臺上規劃合適的資源配置,確保業務系統能夠穩定運行,滿足業務發展的要求。 具體優化措施包括: 對于計算密集型業務系統,增加CPU和內存資源;對于存儲密集型業務系統,增加存儲容量、提高存儲性能。
( 二 ) 分層規劃
1. 計算資源層
CPU 和內存配置: 根據業務系統的性能需求,為其分配合適的CPU和內存資源。例如,對于一般的業務應用服務器,可配置 2 - 4 顆CPU和 8 - 16GB 內存;對于數據庫服務器,可根據數據庫的規模和并發用戶數,配置 8 - 16 顆CPU和 32 - 64GB 內存。同時,考慮到業務的增長趨勢,適當預留一定的資源余量,以確保系統的穩定性和可擴展性。
計算資源優化: 利用HCI平臺的智能資源調度功能,實現計算資源的動態分配和優化,提高資源利用率,避免資源浪費。例如,當某業務系統的CPU利用率超過70%時,系統會自動將部分CPU資源分配給該業務系統,確保其性能不受影響;當業務系統的負載降低時,系統會將多余的資源分配給其他負載較低的業務系統,提高資源利用率。
2. 存儲資源層
( 1 ) 存儲類型選擇: 根據業務數據的特點和訪問頻率,選擇合適的存儲類型。
全閃卷存儲: 對于性能要求較高的業務系統,如數據庫系統、在線交易系統等,采用全閃卷存儲,具有讀寫速度快、響應時間短等優點。
混閃卷存儲: 對于存儲容量要求較大、性能要求相對較低的業務系統,如文件服務器、備份服務器等,采用混閃卷存儲。混閃卷存儲采用固態硬盤和機械硬盤(HDD)混合配置,在提供一定存儲容量的同時,也能保證一定的性能水平。本次混閃集群,緩存比10%,共容量1.7PB,分為XX生產集群、XX測試集群 、核心ERP集群。
( 2 ) 存儲容量規劃:
數據評估: 通過對業務系統的數據量進行評估,確定存儲容量的需求。例如,對于用戶的核心數據庫系統,可通過數據庫管理工具查看數據庫的大小、數據增長速度等信息,結合業務發展規劃,預測未來幾年的數據量增長情況,從而確定存儲容量的需求。
冗余設計: 為了確保數據的安全性和可靠性,在存儲容量規劃時應考慮一定的冗余。一般來說,冗余比例可根據業務的重要性和數據的價值來確定,通常在10% - 20%之間。以用戶的核心數據庫系統為例,可根據未來3年的數據量規劃存儲容量,并在此基礎上增加20%的冗余容量,以確保在數據量增長超過預期時,存儲系統仍能滿足需求。
三、 遷移方案設計與實施
(一) 遷移目標
1. 業務平穩遷移: 確保所有業務系統在遷移過程中平穩過渡,不影響業務的正常運行。
2. 資源優化整合: 將原有的物理機和VMware虛擬機資源進行整合,實現資源的統一管理和高效利用。
技術要點: 在遷移過程中,對于CPU的評估至關重要。需獲取用戶業務最高峰時的CPU利用率,并按照物理CPU核數 / 50%的公式來計算。例如,原先某物理機的使用情況為48C,其CPU利用率達到80%,那么按照公式計算:48C * 80% / 50% = 76.8C。所以,在配置虛機CPU時,其核數不應低于76C,以此確保遷移后系統的性能和穩定性。
3. 性能提升優化: 通過優化系統配置和架構,提升業務系統的性能,提高用戶體驗。
4. 安全可靠保障: 建立完善的安全防護體系,確保業務數據的安全和可靠。
( 二 ) 遷移策略
1. 分階段遷移: 根據業務系統的重要性和依賴關系,分階段進行遷移,先遷移非核心業務系統,再遷移核心業務系統,確保關鍵業務的穩定運行。
2. 數據備份與恢復: 在遷移前對所有核心業務數據進行備份,遷移過程中確保數據的完整性和準確性,遷移完成后進行數據恢復和驗證,確保業務數據的可恢復性。
3. 風險評估與應對: 對遷移過程中可能出現的風險進行全面評估,制定相應的風險應對措施,如網絡故障、數據丟失、系統兼容性問題等,確保遷移工作的順利進行。
( 三 ) ERP 系統 遷移
ERP系統作為用戶全球業務的核心支撐系統,承載著財務報表、財務支付、倉庫管理等關鍵業務流程。這些業務涉及到公司的資金流動和物資管理,對公司的運營和發展至關重要。
1. 遷移考慮與解決方案
業務可用性與時間考量
( 1 ) 總體思路: 在遷移過程中,重點考慮了遷移所需時間和速度問題,確保遷移后業務能正常使用。
( 2 ) 業務切換時間與方案選擇
時間限制: 用戶期望業務遷移切換時間在 10 分鐘內 。
方案決策: 與用戶業務部門探討后,鑒于重新搭建軟件投入成本和負載配置變更等因素,選擇了 SCMT 點對點的遷移方案 。
綜合方案:成本最優、時間控制在 10 分鐘內
虛擬機遷移: 采用深信服 SCMT 進行虛擬機級別遷移,此方式不改變業務訪問,成本最優,并且能夠將中斷時間 控制在 5 分鐘以內 。
業務發布: 由于ERP已具備容災能力,在遷移主生產ERP時,先提前將業務切換至災備ERP。生產ERP遷移完成后,先進行業務測試,驗證無問題后,再正式發布到生產業務中。
節省時間方案:中斷在 1 分鐘內
重建業務系統: 協調業務部門重新搭建一套新的ERP業務系統。
調整負載均衡: 調整前端負載均衡配置,增加負載節點池新節點,通過負載進行業務切換。
( 3 ) 具體實施
遷移規劃: 鑒于用戶的ERP業務有容災環境,超融合實施完成后,先進行一輪遷移測試。從22號開始,逐個服務組件進行遷移測試,順序為先遷移ascp業務(前端portal組件),后遷移wms倉庫系統,最后遷移ebs財務核心系統,遵循從邊緣業務到核心業務的原則。
業務驗證方式: 遷移完成后,臨時將業務切換至新環境,設置為容災IP,并使用用戶現有的容災環境,通過jmeter模擬上千客戶端訪問,對業務和壓力進行驗證,以確保業務能正常訪問。
( 4 ) 遷移過程細節
物理機與遷移速度: 每臺物理機空間約為1T,每個遷移任務的速度約為 80MB/s ,整體遷移測試耗時 約兩天 。
數據量與遷移階段: 本次遷移ERP核心業務系統,從2024年9月20號開始實施,至24年10月1號結束。整個過程包括遷移前期測試、遷移過程和遷移切換后的業務驗證,共約 10 天完成 核心業務遷移。
( 5 ) 遷移問題解決
軟件沖突問題:用戶的所有物理機均安裝了愛數和科力銳備份軟件。在安裝agent進程之前,必須對這些軟件進行卸載,并尋找合適的窗口進行重啟。否則,將會出現無法正常識別源機的問題,從而影響遷移工作的順利進行。
安裝環境問題:源業務虛擬機內部安裝了殺毒軟件,這有可能導致scmt的agent進程無法正常運行。因此,在遷移時,建議先退出殺毒軟件,然后再進行agent的安裝操作。
2. 賦能用戶自主遷移
( 1 ) 背景
用戶面臨著上百臺虛擬機的遷移任務。從以用戶為中心的理念出發,幫助用戶節約成本是方案設計的重要考量,同時考慮到用戶運維人員對業務系統的運行情況更為熟悉,且深信服的遷移方案已實現標準化,經與用戶溝通并達成一致后,決定通過為用戶提供詳細文檔和專業培訓的形式,使用戶能夠自主進行業務遷移。這樣一來,減少了對外部技術支持的依賴,從而降低了直接的技術支持費用支出。
( 2 ) 培訓及落地關鍵思路
技術培訓內容: 為用戶制定詳細的技術培訓方案,包括HCI平臺的基本架構、虛擬機的管理、數據遷移工具的使用等方面。通過理論講解、實際操作演示和案例分析等方式,讓用戶深入了解HCI平臺的技術原理和操作方法。
業務流程培訓: 結合用戶的業務特點,培訓用戶如何在HCI平臺上進行業務系統的部署、遷移和管理。包括業務系統的安裝、配置、優化以及故障排除等方面,讓用戶能夠熟練掌握業務系統在新環境中的運行和維護。
技術支持保障: 作為廠商,深信服為用戶提供技術兜底服務,在用戶自主遷移過程中,若遇到技術難題或突發問題,廠商將及時進行支撐處置。確保用戶在任何時候都能得到專業的技術援助,為用戶的自主遷移之路保駕護航。
( 3 ) 成果
在用戶具備遷移能力后,成功且平穩地完成了MES(制造執行系統)、PLM(產品生命周期管理系統)、BPM(業務流程管理系統)、SRM(供應商關系管理系統)等業務系統的遷移。這一成果在為用戶節約成本方面成效顯著。這得益于用戶自身所具備的一定的技術能力,同時借助于深信服遷移方案的成熟性、工具的易用性以及全方位的技術支撐。正是在這些因素的共同作用下,才使得此次遷移得以順利完成,充分展現了用戶與深信服在業務系統遷移過程中的高效協作與卓越執行。
四、 業務替換總結與現狀
( 一 ) 遷移成果
截至目前,已完成大量業務系統的遷移。其中包括上百臺VMware虛擬機遷移以及幾十臺物理機遷移,VMware還有約三分之一的虛擬機未遷移。預計25年初,還計劃將10臺物理機上的業務遷移至HCI。
( 二 ) 關鍵業務承載現狀
在HCI平臺上實現多種功能,為業務系統帶來全方位的提升,為用戶帶來了顯著價值。
1. 業務系統性能提升
( 1 ) 資源利用率優化
成功將業務系統部署在HCI集群,實現資源利用率的優化。
在正常情況下,內存和CPU的使用率均在40%以下,有效避免資源浪費,確保系統高效運行。
當業務繁忙時,內存利用率能夠達到80%,充分滿足業務高峰需求,同時保證系統的穩定性。
( 2 ) 虛擬機互斥保護
對核心業務系統配置虛擬機互斥保護,例如優先保障ebs資源,有效防止應用集中在同一臺物理機上。
這種配置方式顯著提高系統的穩定性,避免因單一物理機故障影響多個核心業務應用。
通過合理分配資源,提升業務系統的整體性能,確保各項業務的順暢運行。
( 3 ) HCI 平臺功能優勢
分布式防火墻配置
實現分布式防火墻配置,增強安全防護能力,有效抵御外部網絡威脅,保障業務數據安全。例如,在一次針對用戶的網絡攻擊模擬測試中,HCI平臺的分布式防火墻成功識別并攔截了來自外部的惡意訪問嘗試,阻止了潛在的數據泄露風險,確保了財務報表、用戶信息等重要業務數據的安全性。
問題及時處理
具備快速處理問題的能力,提高運維效率,減少因系統故障導致的業務中斷時間。此前有一次,用戶的某個業務系統出現了異常,導致部分用戶無法正常訪問相關功能。HCI平臺的監控系統迅速發出警報,運維團隊借助平臺提供的工具和信息,快速定位問題為服務器內存溢出。通過及時調整內存分配和優化相關配置,在短短30分鐘內就解決了問題,業務恢復正常,將對業務的影響降到了最低。
業務性能分層
能夠進行業務性能分層,合理分配資源,優先保障核心業務資源使用,確保核心業務的高效運行。以用戶的ERP系統為例,在財務結算期間,核心的財務計算和報表生成任務被分配到高性能的計算資源層,確保這些關鍵業務能夠快速、準確地完成。而其他非核心業務,如一些日常的查詢和報表預覽功能,則在相對較低性能的資源層運行,既滿足了業務需求,又避免了核心業務因資源競爭而受到影響,提高了整體業務處理效率。
網絡訪問關系清晰
可以清晰查看網絡訪問關系,優化網絡管理,便于排查網絡故障和優化網絡配置。用戶在一次網絡架構調整過程中,通過HCI平臺提供的網絡訪問可視化功能,運維團隊清晰地看到各個業務系統之間的網絡連接情況以及數據流向。他們發現某個部門的業務系統與其他部門的部分系統存在不必要的大量數據交互,導致網絡擁堵。基于此,他們對網絡訪問權限和路由進行了優化,減少了不必要的網絡流量,提高了整個網絡的運行速度和穩定性。
數據備份防護
可對核心業務數據進行備份防護,提高數據安全性,在數據丟失或損壞時能夠及時恢復。例如,用戶的倉庫管理系統數據因一次意外的服務器故障出現部分丟失風險。由于HCI平臺的備份防護機制,系統能夠迅速從最近的備份點恢復數據,確保倉庫庫存信息、出入庫記錄等關鍵數據的完整性,避免了因數據丟失可能導致的倉庫管理混亂和業務損失。
( 4 ) 程序升級保障
在程序升級等變更操作時,可使用快照技術做兜底保障。
這種保障機制有效降低業務風險,確保在升級過程中即使出現問題,也能夠快速恢復到之前的穩定狀態,避免對業務造成嚴重影響。
( 5 ) 定期主動做深度檢測
根據業務系統的重要性和運行特點,制定每兩周一次的巡檢計劃。明確巡檢的時間窗口、范圍以及重點關注的指標和系統組件。
通過定期的巡檢與同步,能夠在問題尚未對業務造成嚴重影響之前及時發現潛在的系統故障、性能瓶頸或配置錯誤。
由于巡檢過程中已經對問題進行了詳細的分析和記錄,并提供了建議解決方案,運維人員可以快速定位問題并實施修復,減少系統停機時間,保障業務系統的穩定運行。
2. 成本節約與靈活性提升
( 1 ) 減少外部依賴
通過培養用戶自主遷移能力,減少對外部技術支持的依賴。這不僅降低遷移過程中的人力成本,還使用戶能夠更好地掌控遷移過程,提高遷移效率和質量。
( 2 ) 平臺優勢體現
HCI平臺的使用帶來多方面的成本節約和靈活性提升。
解決原有問題
解決原有物理機靈活性差和資源利用率低的問題,提高資源的統一管理和高效利用,避免資源閑置和浪費。
降低硬件成本
減少對硬件設備的依賴,降低硬件采購和維護成本,為企業節省大量資金。
( 3 ) 根分區案例體現
例如在10月15日11時發生根分區使用過載的問題時,HCI平臺展現出其靈活性和成本優勢。
快速擴容
借助HCI的靈活性,能夠快速完成擴容操作,及時滿足業務對存儲空間的需求。
避免中斷
有效避免業務中斷,確保業務的連續性,減少因業務中斷帶來的 經濟 損失和不良影響。
解決隱患
成功解決業務安全隱患,保障業務系統的穩定運行,體現HCI平臺在應對突發情況時的可靠性和經濟性。
五 、 用戶價值
深信服為用戶提供更穩定、性能更優、更安全的云底座,大幅提升平臺的易用性——相較于VMware需要聯合第三方備份工具操作,HCI平臺操作更加簡單易懂,例如有回收站和備份恢復等功能,使得用戶體驗更為流暢。同時,在遷移過程中,深信服可為用戶提供更及時、高效的技術支持,以完整的遷移工具及服務、細致嚴謹的評估與規劃,確保遷移過程順暢,保障業務連續性。