來(lái)源:北大青鳥(niǎo)總部 2023年06月26日 10:58
隨著互聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的人涌進(jìn)互聯(lián)網(wǎng),通過(guò)瀏覽器、智能終端、各種設(shè)備,產(chǎn)生了海量的數(shù)據(jù),同時(shí)也產(chǎn)生了很多數(shù)據(jù)的概念,如數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)集市、數(shù)據(jù)中臺(tái)等,這些概念相互交錯(cuò),互相關(guān)聯(lián)。對(duì)于它們分別是什么,又怎么使用,彼此之間的關(guān)系又怎么樣?今天一篇文章就能給你整明白。
數(shù)據(jù)庫(kù),本質(zhì)上是一個(gè)二維關(guān)系存儲(chǔ)系統(tǒng),存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),比如某學(xué)校的學(xué)生信息表、某年級(jí)的學(xué)生成績(jī)表等。它因?yàn)槭褂煤?jiǎn)單,結(jié)構(gòu)化程度高,極大的促進(jìn)了互聯(lián)網(wǎng)的發(fā)展。它包含操作性數(shù)據(jù)庫(kù)和分析型數(shù)據(jù)庫(kù)兩類。
所謂操作型數(shù)據(jù)庫(kù),主要是針對(duì)一個(gè)“事務(wù)”型操作而言,用于支持日常業(yè)務(wù),比如購(gòu)買商品、點(diǎn)外賣、打滴滴等。
所謂分析型數(shù)據(jù)庫(kù),主要是對(duì)歷史數(shù)據(jù)進(jìn)行分析,比如分析某商品的銷售量、某店的訂單量、某師傅的車訂單量等。
由于操作型數(shù)據(jù)庫(kù)寫多查少、數(shù)據(jù)動(dòng)態(tài)變化、存儲(chǔ)時(shí)間要求不高等特點(diǎn),它注定與分析型數(shù)據(jù)庫(kù)不會(huì)是同一個(gè)數(shù)據(jù)庫(kù),分析型數(shù)據(jù)庫(kù)寫少查多、數(shù)據(jù)基本穩(wěn)定、存儲(chǔ)時(shí)間長(zhǎng)。隨著我們對(duì)分析數(shù)據(jù)的要求變高,我們希望看到更多維度的分析,傳統(tǒng)的分析型數(shù)據(jù)庫(kù)的支持就變得很難了,比如我們想看淘寶某店家的披薩在什么情況下最好銷售,這時(shí)候需要披薩信息表、訂單銷售表、消費(fèi)者信息表、中國(guó)天氣表等多個(gè)表聯(lián)同起來(lái),才能分析出在什么天氣、什么地理位置、什么口味、什么價(jià)格的時(shí)候最好售賣,因此數(shù)據(jù)倉(cāng)庫(kù)應(yīng)運(yùn)而生。
數(shù)據(jù)倉(cāng)庫(kù),本質(zhì)上是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,是比數(shù)據(jù)庫(kù)范圍更大的庫(kù)。所謂面向主題,它指的是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息按照某個(gè)主題進(jìn)行聚合,比如地區(qū)、成本、商品、收入、利潤(rùn)等等;所謂集成的,它指的是可以把不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)都匯聚在一起;所謂相對(duì)穩(wěn)定的,它指的是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不會(huì)像操作型數(shù)據(jù)庫(kù)那樣經(jīng)常變化;所謂反映歷史變化,它指的是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息不只是反映企業(yè)當(dāng)前情況,還可以記錄分析從過(guò)去某一個(gè)時(shí)間點(diǎn)到現(xiàn)在的變化。
在數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展及探索過(guò)程中,還出現(xiàn)了數(shù)據(jù)集市、商業(yè)智能BI的概念。所謂數(shù)據(jù)集市,它是一個(gè)小型的數(shù)據(jù)倉(cāng)庫(kù),只關(guān)注某一個(gè)主題,比如只關(guān)注成本,那么它就會(huì)只收錄成本相關(guān)的數(shù)據(jù),數(shù)據(jù)來(lái)源可以是自己的源數(shù)據(jù)庫(kù),也可以從數(shù)據(jù)倉(cāng)庫(kù)中獲取某一主題的數(shù)據(jù);所謂商業(yè)智能,則是運(yùn)營(yíng)分析數(shù)據(jù)的進(jìn)階,通過(guò)數(shù)據(jù)倉(cāng)庫(kù)獲取到了分析型數(shù)據(jù)后,BI人員會(huì)結(jié)合業(yè)務(wù)現(xiàn)況、市場(chǎng)現(xiàn)況、分析數(shù)據(jù)對(duì)當(dāng)下的業(yè)務(wù)做一個(gè)判斷,提供老板決策。
數(shù)據(jù)湖,它是一個(gè)比數(shù)據(jù)倉(cāng)庫(kù)更大、對(duì)于數(shù)據(jù)也沒(méi)有任何限制的大型倉(cāng)庫(kù),里面的數(shù)據(jù)像湖水一樣可以自然流動(dòng),數(shù)據(jù)可以供存儲(chǔ)、處理、分析。在數(shù)據(jù)湖中,存儲(chǔ)的數(shù)據(jù)沒(méi)有經(jīng)過(guò)任何的處理,是直接從源系統(tǒng)導(dǎo)入的數(shù)據(jù),它包含結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),范圍非常廣,也是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源。此外,它還用于機(jī)器學(xué)習(xí)、預(yù)測(cè)分析、信息追蹤等場(chǎng)景,提供海量的數(shù)據(jù)供科學(xué)家們進(jìn)行模型訓(xùn)練、在某個(gè)領(lǐng)域做推薦引擎。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的區(qū)別可見(jiàn)下表所示。
數(shù)據(jù)中臺(tái),本質(zhì)上是服務(wù)于業(yè)務(wù)的數(shù)據(jù)分析系統(tǒng),它從一出生開(kāi)始就是為業(yè)務(wù)而生。數(shù)據(jù)倉(cāng)庫(kù)提供的是統(tǒng)計(jì)分析、單領(lǐng)域維度、被動(dòng)分析、非實(shí)時(shí)分析,必然不能滿足企業(yè)的多維度分析、主動(dòng)分析、預(yù)測(cè)分析、實(shí)時(shí)分析、多元化分析等場(chǎng)景,因此數(shù)據(jù)中臺(tái)應(yīng)運(yùn)而生。整個(gè)數(shù)據(jù)中臺(tái)產(chǎn)品就是一個(gè)閉環(huán)的解決方案,不再是業(yè)務(wù)過(guò)程中的一環(huán),它包含數(shù)據(jù)埋點(diǎn)、數(shù)據(jù)接入標(biāo)準(zhǔn)化、數(shù)據(jù)倉(cāng)庫(kù)抽象化、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)五大模塊,打通了人、物、場(chǎng)多個(gè)維度,更好的為前臺(tái)去服務(wù)。此外在數(shù)據(jù)中臺(tái)的建設(shè)中,企業(yè)組織文化也非常重要,它需要聯(lián)動(dòng)各個(gè)業(yè)務(wù)線去接入這套系統(tǒng),標(biāo)準(zhǔn)化治理與管理,但在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過(guò)程是不需要關(guān)注這一層次的。因此數(shù)據(jù)中臺(tái)是數(shù)據(jù)倉(cāng)庫(kù)的又一次質(zhì)的飛躍。
數(shù)據(jù)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、數(shù)據(jù)中臺(tái)都是我們?cè)诓煌A段結(jié)合不同需求對(duì)數(shù)據(jù)的處理解決方案,并不是說(shuō)哪一個(gè)方案就過(guò)時(shí)了,每一個(gè)方案到現(xiàn)在都有它存在使用的場(chǎng)景,我們結(jié)合自己的訴求進(jìn)行對(duì)應(yīng)的建設(shè)即可~