又快又好用的數(shù)據(jù)分析工具ApacheKylin來了！

來源：北大青鳥總部 2023年08月21日 09:28

摘要： ApacheKylin是一個開源的分布式數(shù)據(jù)分析引擎，基于Hadoop提供SQL查詢接口能力、多維數(shù)據(jù)分析能力，支持超大規(guī)模數(shù)據(jù)分析計算，能夠在亞秒級別內查詢超級大的Hive表數(shù)據(jù)，由eBay貢獻開源。

互聯(lián)網(wǎng)進入下半場，以數(shù)據(jù)資產(chǎn)為核心，數(shù)據(jù)分析做決策變?yōu)樾乱淮ヂ?lián)網(wǎng)特色。在數(shù)據(jù)分析領域，涌現(xiàn)的產(chǎn)品形態(tài)有數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)集市，涌現(xiàn)的技術有實時計算、離線計算。涌現(xiàn)的工具框架有純計算類HIve/Spark/Presto、存儲框架Kudu、計算+存儲框架Clickhouse/Druid/Elasticsearch、Hadoop生態(tài)HDFS+YARN+MapReduce。隨著大家對數(shù)據(jù)分析的要求變高，希望耗時更短，使用更簡單，新的數(shù)據(jù)分析工具也出現(xiàn)了，那就是ApacheKylin.

ApacheKylin是一個開源的分布式數(shù)據(jù)分析引擎，基于Hadoop提供SQL查詢接口能力、多維數(shù)據(jù)分析能力，支持超大規(guī)模數(shù)據(jù)分析計算，能夠在亞秒級別內查詢超級大的Hive表數(shù)據(jù)，由eBay貢獻開源。劃重點：開源、亞秒查詢、SQL查詢、分布式，這表明Kylin免費、查詢速度快、上手簡單、高可用。我們互聯(lián)網(wǎng)人的新福音又來了，又快又好用還免費，真的是太好了。

在了解Kylin為什么快之前，我們先看看其它的工具為什么慢？我們以Hadoop家族的Hive來看，Hive它是基于Hadoop的數(shù)據(jù)倉庫工具，可將結構化的數(shù)據(jù)直接轉換成數(shù)據(jù)庫表，HIve系統(tǒng)將HQL語句轉化成MapReduce進行執(zhí)行，本質上就是一款基于HDFS的MapReduce計算框架。所有的數(shù)據(jù)分析任務都轉化成MapReduce任務進行執(zhí)行，當數(shù)據(jù)量變成PB、ZB級別時，當然就會變得很慢了，所有的數(shù)據(jù)也都存儲在HDFS中，獲取也很慢，業(yè)務人員在使用Hive時常常都需要等十幾分鐘或上半個小時。

那ApacheKylin到底是什么樣子呢？在Kylin的技術架構中包含四大模塊，即數(shù)據(jù)源、中心處理引擎、存儲引擎、對外接口層，在數(shù)據(jù)源層可直接接收來自Kafka、RDBMS關系型數(shù)據(jù)庫如Mysql、數(shù)據(jù)倉庫Hive來的數(shù)據(jù)，在中心處理引擎層通過Cube構建引擎來做數(shù)據(jù)預聚合，聚合數(shù)據(jù)存儲Hbase，最后支持通過API接口方式直接調用（對于使用JAVA開發(fā)的服務，也可以通過JDBC直接鏈接Kylin），業(yè)務人員通過SQL語句直接查詢使用。

那Kylin又是怎么變快的呢？在Kylin的設計中，有一個模塊是Cube引擎，就是它幫助Kylin變快的。我們知道在數(shù)據(jù)分析的時候，經(jīng)常要獲取多個維度的數(shù)據(jù)，就商品的售賣額來說，在做數(shù)據(jù)分析時，我們會關注某地區(qū)、某個時間點（比如雙十一）、某商品（比如最熱銷商品）等維度的售賣額。這些分析內容映射到數(shù)據(jù)倉庫時，分別是事實表和維度表，事實表按各個維度存儲數(shù)據(jù)，每個數(shù)據(jù)的結果就是度量。數(shù)據(jù)分析就是結合若干個維度查看度量值，找到其中變化的規(guī)律。

在Kylin中通過Cube立方體的概念從多維度把數(shù)據(jù)給串聯(lián)起來，接著我們剛剛的例子，因為有三個維度做分析，因此在Kylin中會建立一個三維的數(shù)據(jù)表（時間、地區(qū)、品類）。在數(shù)據(jù)分析時可以拆分到三維、二維、一維，三維包含地區(qū)&品類&時間，二維包含地區(qū)品類、地區(qū)時間、品類時間，一維包含地區(qū)、品類、時間，每一維度的數(shù)據(jù)都提前聚合號存儲在HBase中了，因此當數(shù)據(jù)分析時，直接拿聚合好的數(shù)據(jù)，當然比一個個的去執(zhí)行MapReduce任務快了。

在計算層面快了，存儲層面Hbase也是毫不遜色的。Hbase的數(shù)據(jù)存儲實現(xiàn)方式是先將數(shù)據(jù)存儲在內存，當內存的數(shù)據(jù)量超過限定時在存儲磁盤，并且在磁盤中存儲的數(shù)據(jù)是有順序的（Hbase利用預寫日志和內存把隨機寫的數(shù)據(jù)先排序好之后再寫入內存）。因此在Hbase查詢數(shù)據(jù)時，會先從內存去獲取，內存找不到了再去磁盤獲取，在磁盤獲取的時候又是順序獲?。p少了磁盤尋道時間），所以當然很快了。在計算和存儲兩個方向都實現(xiàn)了加速，因此Kylin變快是毫無疑問的。

不過在使用Kylin時也需要注意一點，那就是Cube的多維度預聚合，如果聚合的維度比較多，比如有10個維度，那Kylin聚合出來的維度就會有2的10次方也就是1024多種，在Cube本身的聚合計算中也會變慢，因此業(yè)務可以根據(jù)自己需要來選擇聚合的維度。

目前Kylin在數(shù)據(jù)分析領域已經(jīng)火起來了，很多互聯(lián)網(wǎng)公司，如滴滴、美團、攜程、京東等都把Kylin融入到了他們的數(shù)據(jù)分析模型當中，除此之外，在物聯(lián)網(wǎng)領域，它也正在大放異彩。工欲善其事，必先利其器，想要做好數(shù)據(jù)分析，有一款又快又好用的數(shù)據(jù)分析工具是必備的喔～

標簽: 大數(shù)據(jù)