來源:北大青鳥總部 2022年12月07日 15:09
今天小編走在街上,一會兒的功夫收到好幾張傳單廣告:“健身房游泳館了解一下,我們的私教可以為您量身定制,根據(jù)大數(shù)據(jù)分析為您挑選最適合您的健身計(jì)劃”。
“對不起,沒錢”。
說完這句萬能通用的應(yīng)答傳單口令之后,小編愉快的回到了家中??粗巴獾男枪猓氲搅俗约毫攘鹊墓べY。突然一個(gè)激靈想到,為什么現(xiàn)在到處都是大數(shù)據(jù)大數(shù)據(jù),大數(shù)據(jù)到底是個(gè)什么東西啊。
小編順勢拿起了手機(jī)在某直聘上搜了一下關(guān)鍵詞“大數(shù)據(jù)”,我勒個(gè)親娘了,這個(gè)東西為什么這么高工資?。?!
于是小編痛定思痛,開始了解,大數(shù)據(jù)到底是個(gè)啥。這時(shí)小編的腦子里全是走上人生巔峰,迎娶白富美的劇情。
接下來就是小編給大家總結(jié)的大數(shù)據(jù)。
可以說,大數(shù)據(jù)跟在廚房做菜是一樣一樣的。我現(xiàn)在給大家講一個(gè)故事,來解釋這一切。
有一天,小明的爸爸吩咐小明說,家里馬上要來客人,讓小明準(zhǔn)備兩道拿手菜。小明得到了這個(gè)通知后開始著手籌劃,他將做菜這個(gè)任務(wù)分解為買菜、洗菜摘菜、制定菜單、炒菜。起初是他一個(gè)人做這些所有的事情。
終于飯菜都做好了,并且得到了客人滿意的答復(fù),小明的廚藝也日益精湛。后來小明家逐漸開起了餐館,他們換了更大的廚房,起了很多個(gè)爐灶一起炒菜,很多個(gè)水池一起擇菜洗菜,雇了一些員工共同承擔(dān)這些工作。
他們能承擔(dān)的酒席也由最開始的一桌菜,到現(xiàn)在可以承擔(dān)10桌客人的用菜。小明還說,就算之后來再多的客人,我也可以再承包一個(gè)廚房,也能夠接待的過來。最后小明家餐館的生意也越來越紅火了。
看到這,想要取關(guān)的同學(xué)們趕緊回來,干貨時(shí)間來了。
上面這個(gè)故事咋一看像小學(xué)生作文在記流水賬,但實(shí)際上這個(gè)故事已經(jīng)說明白了大數(shù)據(jù)所處理的大部分的問題。咱們一起來看看。
首先小明的爸爸吩咐小明說,家里要來客人,需要做幾道拿手菜。這個(gè)過程是大數(shù)據(jù)開發(fā)過程的需求立項(xiàng)階段,大多數(shù)的產(chǎn)品開發(fā)都是根據(jù)需求來細(xì)化開發(fā)過程。
現(xiàn)在已經(jīng)有了需求了,小明將需求進(jìn)行了分解和細(xì)化,提出了完成這幾道拿手菜需要進(jìn)行幾個(gè)步驟,買菜、洗菜摘菜、制定菜單、炒菜這幾個(gè)環(huán)節(jié)。這幾個(gè)步驟在大數(shù)據(jù)開發(fā)流程中可以稱為:數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析/數(shù)據(jù)建模、數(shù)據(jù)加工/數(shù)據(jù)應(yīng)用。
數(shù)據(jù)采集顧名思義,跟炒菜一樣,巧婦難為無米之炊,需要做幾道好菜,首先得有原材料。那么數(shù)據(jù)采集就是買菜的過程。
數(shù)據(jù)清洗同樣對應(yīng)著洗菜摘菜,也就是把一些臟了的數(shù)據(jù)剔除。
數(shù)據(jù)分析/數(shù)據(jù)建??梢钥闯墒侵贫ú藛蔚沫h(huán)節(jié),模型就等于是一個(gè)菜單,菜單上有每道菜的做法,我們將洗好的菜按照菜單上的做法就可以做出好吃的菜啦。模型可以看成是每道菜的做法,它讓數(shù)據(jù)能真正變得有實(shí)際利用的價(jià)值,它能真正的去挖掘數(shù)據(jù)中更深層的意義。
最后炒菜過程實(shí)際就是數(shù)據(jù)的加工和應(yīng)用了,最終通過模型得出來的數(shù)據(jù),我們可以在很多地方應(yīng)用,比如用來做個(gè)性化推薦、用來通過數(shù)據(jù)可視化制作數(shù)據(jù)分析圖表、使用數(shù)據(jù)模型來預(yù)測事件等等。
大數(shù)據(jù)開發(fā)流程已經(jīng)說明白了,有同學(xué)可能會問,你這些開發(fā)流程我可以在很多很小的場景使用也是一樣,為什么偏偏要強(qiáng)調(diào)是大數(shù)據(jù)開發(fā)呢?這位同學(xué)別急,等我慢慢來說完這整個(gè)故事。
咱接著說故事,制定完這些計(jì)劃,最開始都是小明一個(gè)人完成,也完成的比較好。這種場景也就對應(yīng)我們最開始使用單機(jī)進(jìn)行數(shù)據(jù)開發(fā)的情形,通過這種開發(fā)流程確實(shí)也可以應(yīng)對大多數(shù)的問題,但后來問題就來了。
小明家后來開了餐館,由于生意太好,他發(fā)現(xiàn)靠他的雙手無法做這么多菜來接待大量的客人,所以他重新裝修了廚房,洗菜的水池?cái)U(kuò)充、爐灶擴(kuò)充、買菜炒菜的人手同樣雇了很多人。
這也對應(yīng)著數(shù)據(jù)開發(fā)的場景,一開始數(shù)據(jù)量不大時(shí),用單機(jī)進(jìn)行處理可以從容應(yīng)對,當(dāng)用戶量增加,數(shù)據(jù)量增加后,單機(jī)數(shù)據(jù)處理的瓶頸也來了,這么多數(shù)據(jù)采集不過來、清洗不過來、分析不過來。
所以大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,大數(shù)據(jù)技術(shù)的核心說白了就是可以處理大量的數(shù)據(jù),而一般的做法就是將大數(shù)據(jù)“廚房”中的設(shè)備增加,比如水池、爐灶、增加人手等。
這些情況對應(yīng)著大數(shù)據(jù)的分布式技術(shù),大數(shù)據(jù)通常是以分布式集群的形式存在,既然單機(jī)處理大數(shù)據(jù)有瓶頸,那我就多叫幾個(gè)兄弟一起來處理,你來10倍數(shù)據(jù),我就多叫10倍的兄弟。所以理論上,不管你的數(shù)據(jù)有多大,只要我的兄弟足夠多,我都能夠處理得了。