機房管理為網強IT綜合管理系統(tǒng)/網絡管理系統(tǒng)的增值(可選)功能模塊,已有網強IT綜合管理系統(tǒng)/網絡管理系統(tǒng)的用戶,可在原有系統(tǒng)基礎上直接升級即可。
機房監(jiān)控的必要性
隨著社會信息化程度的不斷提高,機房建設規(guī)模日益擴大,其設備數量也日益增多,機房環(huán)境設備(如供配電系統(tǒng)、UPS電源、空調、消防系統(tǒng)、安防系統(tǒng)等)必須時時刻刻為業(yè)務系統(tǒng)提供正常的運行環(huán)境。任何影響整個業(yè)務系統(tǒng)的隱患,將對數據傳輸、存儲及系統(tǒng)運行的可靠性構成一定的威脅,若出現故障又不能及時處理就可能造成嚴重后果。對于金融、運營商、政府、互聯網等需要實時交換數據的信息機房,其機房管理尤為重要,一旦系統(tǒng)發(fā)生故障,造成的經濟損失將不可估量。
為了保證機房能給設備提供一個良好的運行環(huán)境,從而保障業(yè)務系統(tǒng)的正常運行,就有必要對機房環(huán)境的運行狀態(tài)變量,進行24小時實時監(jiān)測與智能化調節(jié)控制。而各行業(yè)用戶對于機房監(jiān)控的管理力度和方法也不盡相同,很多單位甚至仍然采用傳統(tǒng)的24小時專人值班的方式定時巡查機房環(huán)境。
機房與網管系統(tǒng)有效集成,6招擺脫機房監(jiān)控現狀
網強機房管理系統(tǒng)(簡稱:Environment Manager)通過與網強IT綜合管理系統(tǒng)實時聯動,利用智能分析和影響度關聯技術,將機房環(huán)境中的溫濕度、漏水、電源、UPS、煙霧、視頻監(jiān)控、消防及門禁等與用戶的網絡設備、應用、服務等IT資源關聯在一起,并完整集成到業(yè)務模型。通過智能業(yè)務模型,系統(tǒng)將自動對各項業(yè)務以及承載業(yè)務的各個設備、服務器、應用等資源進行整體全面分析,同時在業(yè)務結構中清晰的反映機房環(huán)境對整體業(yè)務的影響程度。任何一個業(yè)務中的細小變化和端倪,都能通過系統(tǒng)實時組合成及展現出各個符合個人所關注的性能數據或信息,并進行實時直觀展現,如整體業(yè)務健康度、可用率等。當機房環(huán)境出現異常時,系統(tǒng)則會可根據不同的異常等級進行告警,并通過多種告警方式及時通知運維人員,從而保障各設備、業(yè)務系統(tǒng)的高效運行,大大降低了業(yè)務系統(tǒng)運行中產生的風險。
現狀一:機房的環(huán)境和動力設備如供電源、UPS、空調、煙感、消防等必須時時刻刻為計算機信息系統(tǒng)提供正常的運行環(huán)境。一旦它們出現異常或故障,后果將不堪設想。為此很多單位已經重視并對機房環(huán)境進行監(jiān)控與管理。但傳統(tǒng)的機房監(jiān)控軟件只能對機房動力環(huán)境進行監(jiān)控,而這些環(huán)境的變化對單位關鍵業(yè)務的影響度為多少,運維人員卻無從得知。
機房管理系統(tǒng)與網管集成,使機房環(huán)境與業(yè)務系統(tǒng)相關聯
網強機房管理系統(tǒng)通過與網強IT綜合管理系統(tǒng)的有效集成,利用智能分析和影響度關聯技術,將機房環(huán)境中的溫濕度、消防設施(煙霧、漏水)、UPS電源設備、供配電系統(tǒng)(電流、電壓、空氣開關)、機房空調、安防系統(tǒng)(視頻、門禁、紅外)等與業(yè)務系統(tǒng)及承載業(yè)務系統(tǒng)的各種下屬網絡設備、應用系統(tǒng)、服務器等IT資源關聯在一起,自動進行整體全面的分析,實現統(tǒng)一的資源管理。同時在業(yè)務結構中清晰的反映機房環(huán)境對整體業(yè)務的影響程度,任何一個業(yè)務系統(tǒng)中的細小變化和端倪,都能通過系統(tǒng)實時組合成及展現出各個符合個人所關注的性能數據或信息,并進行實時直觀展現,從而有效反映影響業(yè)務系統(tǒng)健康度、利用率的關鍵因素,幫助運維人員盡快找到相關瓶頸或隱患。
現狀二:通常機房環(huán)境監(jiān)控數據的采集都是通過特定的硬件監(jiān)控設備協助完成的,每一套機房管理軟件都需要部署硬件設備,對于采集的數據都有對應的指標。一般十幾個指標,運維人員基本能應付查看,但對于幾十個甚至上百個指標,如果無法通過數據或圖形形式對機房的運行情況進行直觀展現,運維人員了解起來也就有點力不從心了。
機房變量數據實時采集,指標一覽、示意拓撲圖直觀展現
系統(tǒng)通過對機房環(huán)境中的各個硬件設備進行數據采集,并將采集的數據在IT綜合管理系統(tǒng)的監(jiān)控指標列表中集中展示。通過指標一覽,可以直觀了解到各個指標的類型、當前值、當前狀態(tài)、異常規(guī)則、監(jiān)控頻度等。不僅如此,用戶還可以通過增加示意圖元、示意鏈路的方式建立示意拓撲圖來模擬機房實際物理環(huán)境的擺設與布局等,將機房環(huán)境實時的在示意拓撲圖中直觀的展現出來。通過機房示意拓撲圖,可以了解到機房環(huán)境中的溫度、漏水、煙霧探測、視頻、消防設備、空調與門禁等設備的運行情況和分布情況。另外,還可以根據每個示意圖元的顏色狀態(tài)來判斷該設備的異常等級情況。當設備發(fā)生故障時,在機房示意拓撲圖上可以直觀看到相關設備的異常提示,直接點擊異常設備則可以自動關聯到該異常設備的詳細信息。
現狀三:一般情況下機房環(huán)境出現的問題不會直接影響業(yè)務系統(tǒng)運行的,都是在異常變化出現后,問題無法及時發(fā)現并處理,使環(huán)境不斷的惡化致使業(yè)務系統(tǒng)的運行受到影響;為了保證機房能給設備提供一個良好的運行環(huán)境,保障業(yè)務系統(tǒng)的正常運行,企業(yè)不得不采用24小時專人值班的方式定時巡查機房環(huán)境。即便如此,當業(yè)務系統(tǒng)不能正常運行時,運維人員才發(fā)現是機房環(huán)境運行情況出現異常所致。
機房環(huán)境出現異常實時告警,及時通知運維人員恢復故障
結合IT綜合管理系統(tǒng)的告警敏感度、告警合并、告警過濾以及異常依賴、根源分析等多種高端技術手段,能夠避免大量的無謂重復告警信息,防止告警泛濫。并能在眾多的告警信息中,屏蔽不重要的告警信息,幫助運維人員將精力集中在關鍵問題上,準確定位可能的故障根源,真正做到事先運維、整體運維,將影響業(yè)務系統(tǒng)健康度和可用率的一切因素事先排除。當機房環(huán)境產生異常時,例如當前機房煙霧漏水積水、門禁開關量狀態(tài)不符合規(guī)范等,將通過配置的告警功能自動觸發(fā)IT綜合管理系統(tǒng)進行告警。系統(tǒng)可以根據不同的異常等級,通過聲音、消息框、電話、手機短信、電子郵件、廣播及燈光警鈴等多種告警方式及時通知運維人員,將影響業(yè)務系統(tǒng)健康度一切因素事先排除,真正做到事先運維。運維人員還可以由異常直接關聯到系統(tǒng)的知識庫,并從知識庫中找到故障的解決方案,從而及時恢復故障,滿足24 小時機房管理要求,最大限度保證了業(yè)務的服務水平。
現狀四:當機房環(huán)境出現異常時,運維人員可以通過相關告警方式得知異常信息并及時排查。在排查故障時,如果只是單點的報警,運維人員的排查與故障恢復的效率通常都會比較高。但有多點頻繁發(fā)生異常并告警時,運維人員由于無法有效判斷故障的輕重緩急,常常沒有針對性的排查而拖延了故障恢復的時間。
詳細的異常信息一覽便于直觀判斷輕重緩急,使排查更有針對性
系統(tǒng)對機房環(huán)境進行全盤監(jiān)控,當產生不同等級的異常時,并自動記錄異常信息,如異常的指標名稱、異常來源、異常等級、時間、恢復狀態(tài)、異??倲导按_認人等。運維人員只需查看異常列表即可了解到具體異常情況,點擊異常列表中的任意指標異常可能進一步了解該異常指標的詳細信息,如異常來源、指標名稱、最新異常等級、異常時間段、異常總數,是否已恢復及事件合并記錄描述信息等。以便于進一步確定異常的輕重緩急,以及異常的根源,從而使運維人員能更快更有效的解決故障。
現狀五:任何一個有經驗的運維人員都可以在發(fā)生異常接到告警后及時的解決故障,但每天圍著機房環(huán)境出現的異?,F象日復一日已是司空見慣,運維人員疲于奔命并且仍無法根除問題。當機房某個設備或環(huán)境出現異常,運維人員也由于缺少關于該設備或環(huán)境的一些歷史數據來進行判斷和分析,從而無法從根本上確定該異常問題是偶然性的還是由于該設備或機房環(huán)境已經長時間負荷過高所致使的。
機房環(huán)境運行情況實時和統(tǒng)計分析,全面了解以及預測變化趨勢
系統(tǒng)支持當日性能分析、指標時段分析(實時分析和統(tǒng)計分析)、資源對比分析及時段對比分析,運維人員可以通過相關統(tǒng)計分析數據,來詳細查看機房異常情況的出現頻率和變化規(guī)律。例如、通過多指標分析圖可以直觀了解到個人所關注的某幾個指標于不同時間段的對比分析情況。根據指標的性能分析來確定機房出現的問題和存在的潛在威脅,以便于給出更準確、更徹底的解決方案。
現狀六:企業(yè)目前諸多的IT管理工具由于功能層次不齊、管理范圍受限,相互不能兼容,從而造成信息孤島,很難協同辦公建立最大價值。面對再次的網絡擴展和升級,原有的監(jiān)控工具和維護人員都將面臨著再投入與再集成的困境。另外,傳統(tǒng)IT管理系統(tǒng)對于IT設備的僅僅具有最基礎的監(jiān)控項,對于用戶而言如果需要保證IT管理質量,這些基本監(jiān)控指標是必須實時監(jiān)控的,但是這樣不可避免就會增加新的額外軟件開發(fā)資金和大量的人力工作量投入。
開放的系統(tǒng)兼容性與自定義指標,有效應對各種網絡變更與擴展
基于IT綜合管理系統(tǒng)所支持的WEB Service 、CORBA及RMI 等服務接口還能供第三方調用,全面保證系統(tǒng)的兼容性,大大滿足了用戶在實際的網絡管理中,與其它多種應用和業(yè)務系統(tǒng)能夠高效整合的需要。同時,系統(tǒng)在對具體的資源監(jiān)控上,不僅有內建的監(jiān)控指標、擴展的監(jiān)控指標,還有自定義的監(jiān)控指標,用戶可以把一個資源本身的指標,將若干個個人所關注的內建指標與擴展指標組建成一個新的指標。并可以對此新的指標設置閾值、異常類型、異常過濾等,有效滿足運維人員對IT設備指標的靈活監(jiān)控需求,省去了傳統(tǒng)網管系統(tǒng)高昂的二次開發(fā)費用的同時,真正幫助運維人員應對各種網絡的變更、調整與擴展等,以不變應萬變維護好整個網絡。
來源:機房監(jiān)控 http://m.ycshaen.cn/ 本文采集于網絡,如有問題有聯系刪除
北京金恒智能系統(tǒng)工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網站XML
智慧機房
在線體驗