簡(jiǎn)介:E-MapReduce 推出面向開(kāi)源大數(shù)據(jù)集群的智能運(yùn)維診斷系統(tǒng) E-MapReduce Doctor,有效提升大數(shù)據(jù)集群運(yùn)維效率,輔助 EMR 用戶完善集群監(jiān)控體系。
大數(shù)據(jù)運(yùn)維的挑戰(zhàn)—如何保證集群穩(wěn)定與運(yùn)行效率
企業(yè)級(jí)大數(shù)據(jù)集群通常擁有海量的數(shù)據(jù)存儲(chǔ)、日常運(yùn)算成干上萬(wàn)的計(jì)算任務(wù),需要滿足各類上層業(yè)務(wù)的計(jì)算需求。對(duì)于這類集群的運(yùn)維往往充滿著挑戰(zhàn):海量的數(shù)據(jù)、龐雜的組件以及組件之間復(fù)雜的依賴關(guān)系、對(duì)于時(shí)效要求的的運(yùn)算任務(wù),都會(huì)提升運(yùn)維難度。作為支撐平臺(tái),大數(shù)據(jù)集群的穩(wěn)定性和運(yùn)行效率,會(huì)直接影響到公司業(yè)務(wù)的正常運(yùn)作和發(fā)展。
集群管理員往往對(duì)整體集群做好了監(jiān)控運(yùn)維體系,對(duì)于大數(shù)據(jù)集群,簡(jiǎn)單的監(jiān)控運(yùn)維體系能夠幫助管理員在遇到故障的時(shí)候定位問(wèn)題。但對(duì)于整體集群的運(yùn)行效率,集群的狀態(tài),通過(guò)單純的監(jiān)控指標(biāo)很難給出一個(gè)全面的解答。
對(duì)于大數(shù)據(jù)集群,管理員以及 CIO 等更關(guān)注以下的內(nèi)容:
● 集群內(nèi)的節(jié)點(diǎn)的運(yùn)行狀態(tài)和資源使用狀況;
● 運(yùn)行在集群上的服務(wù)組件的狀態(tài)監(jiān)控和異常處理,包括 YARN、HDFS、Hive 和 Spark 等;
● 計(jì)算任務(wù)運(yùn)行情況和執(zhí)行效率;
● 整體集群的健康程度和如何改進(jìn)。
面對(duì)運(yùn)維挑戰(zhàn),EMR重磅推出:智能運(yùn)維診斷系統(tǒng)(EMR Doctor)
為了提升大數(shù)據(jù)集群運(yùn)維效率,輔助 EMR 用戶完善集群監(jiān)控體系。E-MapReduce 推出面向開(kāi)源大數(shù)據(jù)集群的智能運(yùn)維診斷系統(tǒng) E-MapReduce Doctor(簡(jiǎn)稱EMR Doctor)。 EMR Doctor 作為開(kāi)源大數(shù)據(jù)集群的管家,會(huì)自動(dòng)每日巡檢集群。集群管理員只需要定期查看健康檢查報(bào)告,并且根據(jù)報(bào)告中的建議對(duì)集群做相應(yīng)的優(yōu)化調(diào)整,即可全局了解集群的健康狀況和動(dòng)態(tài)走勢(shì),并保持集群的健康度。
如何使用 EMR Doctor
進(jìn)入 EMR 控制臺(tái)健康檢查頁(yè)面。
登錄 EMR on ECS 控制臺(tái)。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在集群管理頁(yè)面,單擊目標(biāo)集群的集群ID。
單擊上方的健康檢查頁(yè)簽。
在健康檢查頁(yè)面,您可以看到當(dāng)前集群的健康檢查報(bào)告(T+1)。健康狀態(tài)列顯示了該集群的健康度,您可以點(diǎn)擊查看報(bào)告進(jìn)入檢查報(bào)告頁(yè)面。
健康檢查報(bào)告中包含集群計(jì)算資源的總體分析
健康檢查報(bào)告中包含計(jì)算任務(wù)從各個(gè)維度的排名并給出任務(wù)調(diào)優(yōu)建議
健康檢查報(bào)告中包含對(duì)集群存儲(chǔ)的總體分析,以及大小文件和冷熱數(shù)據(jù)的詳細(xì)分析
健康檢查報(bào)告主要分析內(nèi)容如下,更詳細(xì)說(shuō)明請(qǐng)參見(jiàn)查看健康檢查狀態(tài)和報(bào)告
計(jì)算資源分析
概述
狀態(tài)概述
需要關(guān)注的問(wèn)題
計(jì)算基礎(chǔ)信息
集群計(jì)算評(píng)分
集群算力內(nèi)存時(shí)
集群算力CPU時(shí)
計(jì)算引擎內(nèi)存算力時(shí)
計(jì)算任務(wù)信息
計(jì)算任務(wù)算力內(nèi)存時(shí)分析
計(jì)算任務(wù)評(píng)分排行榜
Spark
Spark任務(wù)算力分析及調(diào)優(yōu)建議
Tez
Tez任務(wù)算力分析及調(diào)優(yōu)建議
MapReduce
MapReduce任務(wù)算力分析及調(diào)優(yōu)建議
HDFS存儲(chǔ)資源分析
(需開(kāi)啟存儲(chǔ)資源信息采集開(kāi)關(guān))
概述
狀態(tài)概述
需要關(guān)注的問(wèn)題
HDFS基礎(chǔ)信息
HDFS存儲(chǔ)資源使用趨勢(shì)
文件總數(shù)隨時(shí)間變化趨勢(shì)
評(píng)分趨勢(shì)
HDFS文件大小分布
HDFS文件大小比例
一級(jí)目錄空文件個(gè)數(shù)Top10
一級(jí)目錄極小文件個(gè)數(shù)Top10
一級(jí)目錄小文件個(gè)數(shù)Top10
一級(jí)目錄中等文件個(gè)數(shù)Top10
一級(jí)目錄大文件個(gè)數(shù)Top10
HDFS冷熱數(shù)據(jù)分布
HDFS冷熱數(shù)據(jù)
一級(jí)目錄極冷數(shù)據(jù)大小Top10
一級(jí)目錄冷數(shù)據(jù)大小Top10
一級(jí)目錄溫?cái)?shù)據(jù)大小Top10
一級(jí)目錄熱數(shù)據(jù)大小Top10
HIVE存儲(chǔ)資源分析
(需開(kāi)啟存儲(chǔ)資源信息采集開(kāi)關(guān))
概述
狀態(tài)概述
需要關(guān)注的問(wèn)題
Hive基礎(chǔ)信息
存儲(chǔ)趨勢(shì)
文件數(shù)量趨勢(shì)
評(píng)分趨勢(shì)
Hive庫(kù)信息
庫(kù)存儲(chǔ)排名
庫(kù)文件總數(shù)排名
庫(kù)評(píng)分
Hive表文件大小分布
Hive表文件大小分布比例
Hive表空文件個(gè)數(shù)Top10
Hive表極小文件個(gè)數(shù)Top10
Hive表小文件個(gè)數(shù)Top10
Hive中等文件個(gè)數(shù)Top10
Hive大文件個(gè)數(shù)Top10
Hive冷熱數(shù)據(jù)分布
Hive冷熱數(shù)據(jù)分布
Hive表極冷數(shù)據(jù)大小Top10
Hive表冷數(shù)據(jù)大小Top10
Hive表溫?cái)?shù)據(jù)大小Top10
Hive表熱數(shù)據(jù)大小Top10
Hive表存儲(chǔ)格式分布
Hive表存儲(chǔ)格式分布
Hive表TextFile/Parquet/ORC格式文件分析