對于IaaS層的監控,本質來說就是監控組成IaaS層的各個資源對象,那么資源對象代表什么呢?
例如物理服務器、交換機、一條專線與一個公網IP等等都是一個個資源對象。通常來說對于資源對象的監控可以分為以下4個維度。
狀態的監控:通指設備的的狀態,如設備的存活狀態、網絡設備的端口狀態、電源、風扇狀態等;
性能監控:通指設備內存大小,端口流量包量、CPU利用率等等;
質量監控:通指設備的丟包率、錯包率、網絡訪問的延時等等;
容量監控:通指設備的負載使用率、專線帶寬使用率、網絡設備的負載使用率、服務器的負載使用率等等。 自研 ArgusNMS,增強 Zabbix 網管功能, 實現模塊動態擴展。系統智慧運維監控案例
在云原生時代,基礎設施與應用的部署構建都發生了極大變化,傳統的監控方式已經無法適應云原生的場景。Prometheus支持對kubernetes和容器的監控,基本上是完美選擇,那么通過Prometheus監控體系如何搭建PAAS監控體系?監控哪些對象?
k8s管理組件、節點、pod容器、各種中間件數據庫組件指標:mysql、redis、kafka、rocketmq、activemq、zookeeper、elasticsearch、mongodb、nginx、clickhouse。同時,還提供了kingbase、polardb、GreatDB等國產數據庫的監控。
怎么監控?
k8s組件監控:Prometheus直接拉取各組件的metrics接口數據;
節點監控:在各節點部署node_exporter,Prometheus自動發現所有節點對象拉取exporter提供的數據;
pod容器監控:用各節點部署的kubelet的cadivisor功能,使Prometheus自動發現并拉取cadivisor提供的容器運行時指標,并部署kube-state-metrics拉取pod容器元數據。 信創統一運維監控方案打破信息孤島,集成運維監控升級!
遇到多集群場景問題
多達上百個集群數,而有些業務系統擁有多個集群,其多集群場景特點有:
服務發現隔離:Prometheus的服務發現機制無法發現多個集群的被監控對象;
網絡隔離:跨集群可能存在連通性問題;
業務需求:業務系統可能需要跨集群聚合數據。
只用Prometheus能解決嗎?
Prometheus本身只支持單機部署,沒有自帶支持集群部署,對于集群化和水平擴展,官方和社區都沒有銀彈,需要合理選擇VictoriaMetrics、Thanos等開源方案或自研方案。Prometheus的存儲空間也受限于單機磁盤容量,磁盤容量決定了單個Prometheus所能存儲的數據量,數據量大小又取決于被采集服務的指標數量、服務數量、采集速率以及數據過期時間。在數據量大的情況下,我們可能就需要做很多取舍,比如丟棄不重要的指標、降低采集速率、設置較短的數據過期時間等。
Argus運維監控系統擁有靈活的策略告警和多種通知方式,告警豐富是為了后續告警事件分析做準備,需要輔助信息去判斷該怎么處理、分析和通知。設定指標產生告警的條件定義告警規則策略,條件包含指標閾值的上限或下限。Argus的告警通知方式包括系統內、移動APP、郵件、短信、企業微信等,并提供擴展開發接口增加其他的通知方式。對告警發生、處置(確認、忽略)、恢復的全生命周期跟蹤快照,統計告警處置的用戶、處理響應時長、故障恢復用時,為信息運維管理提供行為效能數據支撐。 Argus運維監控系統可手動設置貼合業務的事件聚合規則、消息分派規則,并可查看與管理事件集、事件。
基于信創環境建立信創運維服務體系,滿足跨平臺對信創軟硬件設備提供運維監控管理功能,包括不限于服務器(ARM架構、MIPS架構、X86架構等)、網絡設備、數據庫(國產數據庫及非國產數據庫)、應用服務器、存儲、業務系統等全域多視角地監控和管理,幫助用戶在極短時間發現問題、分析出原因、得出解決方案,使故障問題能夠在極短時間內解決,保證業務系統的連續性。Argus 運維監控平臺是跨區域、跨部門的運維系統監控平臺,實現包括不限于服務器(ARM架構、MIPS架構、X86架構等)、網絡設備、數據庫(國產數據庫及非國產數據庫)、中間件、存儲、業務系統等運維監控。通過對基礎實施、信息系統、項目進度的總體監控實現運維體系的有效運行,保障信創項目順利開展。提供自動化運維、智能化運維功能,打破了人工現場運維效率低下的現狀;從信息采集、健康巡檢、補丁分發等場景實現功能自動化;利用智能學習、大數據分析、機器學習等技術手段,實現故障從人工處理到無人值守的變革,降低故障處理時間的同時,實現被動運維到主動干預的轉變。運維監控的目的是什么?哪個運維監控管理平臺好用
Argus運維監控全自動拓撲生成,準確率高達90%以上。系統智慧運維監控案例
Flow是一種數據交換方式,其工作原理是:
Flow利用標準的交換模式處理數據流的第1個IP包數據,生成Flow緩存,隨后同樣的數據基于緩存信息在同一個數據流中進行傳輸,不再匹配相關的訪問控制等策略,Flow緩存同時包含了隨后數據流的統計信息。
一個Flow流定義為在一個源IP地址和目的IP地址間傳輸的單向數據包流,且所有數據包具有共同的傳輸層源、目的端口號。
相對于會話(“Session”)而言,“Flow”具備更細致的標識特征,在傳統的TCP/IP五元組的基礎上增加了一些新的域值,至少包括以下幾個字段:
|源IP地址|目的IP地址|源端口|目的端口|IP層協議類型|ToS服務類型(dscp)|輸入物理端口(ifindex)|
以上七個字段可以唯1地確定任意一個數據包屬于哪個特定的Flow。
換而言之,任何一個字段出現了差異都意味著一個新Flow的發生。對于Flow的分析展示同樣也是要基于多維度的:
IP(目的與源)、port(目的與源)、業務、網絡架構、城市、IDC等。
具體所需的維度依賴于自己的業務場景。Flow是廠商的私有協議,業界也有多種的Flow格式。例如CISCO、華為、juniper等等的主流廠商的Flow也是均有一定差異性與優劣的,常用的有NetFlow與SFlow。所以這部分的后臺能力是需要有異構。 系統智慧運維監控案例
觀縱科技,2022-11-14正式啟動,成立了webfunny前端監控,webfunny前端埋點,全鏈路應用性能監控,Argus-IT運維監控等幾大市場布局,應對行業變化,順應市場趨勢發展,在創新中尋求突破,進而提升webfunny,walkingfunny,argus的市場競爭力,把握市場機遇,推動傳媒、廣電產業的進步。旗下webfunny,walkingfunny,argus在傳媒、廣電行業擁有一定的地位,品牌價值持續增長,有望成為行業中的佼佼者。我們在發展業務的同時,進一步推動了品牌價值完善。隨著業務能力的增長,以及品牌價值的提升,也逐漸形成傳媒、廣電綜合一體化能力。值得一提的是,觀縱科技致力于為用戶帶去更為定向、專業的傳媒、廣電一體化解決方案,在有效降低用戶成本的同時,更能憑借科學的技術讓用戶極大限度地挖掘webfunny,walkingfunny,argus的應用潛能。