天天炫斗所有职业

其他幫助

站內公告

“大數據”已經過時了嗎


“大數據”與其說是過時了,倒不如說還沒有真正開始。只要摩爾定律還在生效,每過18個月電子技術就要翻一番的話,那么大數據時代就只能在路上。這是因為,隨著計算技術的不斷進步,存儲成本的不斷降低,人們有越來越多的資本去收集更多的數據,進行更顆粒化的分析。然而,在傳統的數據分析中,當數據量大到一定的程度時,分析結果就不會進一步優化了。



舉一個最簡單的線形分類的例子,對于平面上一堆被零散放置的兩種球(紅球和藍球),通過畫一條直線盡可能好的將兩類球分開,然后對于新的放進來的球(可能被包起來),單憑直線的劃分去判斷新球的顏色。很容易就可以看出,由于我們分類的模型相當簡單(只有一條直線),那么海量的數據可能對于提升模型精度的意義不是太大,這也是傳統數據科學遇到的問題。機器學習(數據科學主要的分析手段)方法遇到的主要瓶頸也在這里,在這種情況下,更多的數據是沒有更大意義的。



深度學習使得這一瓶頸得到突破,這一學習方法簡單來說就是通過多層、多個計算算子進行分析,從而可以建立足夠復雜的模型,以提高數據分析能力。這種方法也被稱為神經網絡,因為每個算子就像神經一樣微小而彼此相連,當然這一科學本身并沒有仿生學的意義,只是僅僅看上去與神經相類似而已。在這種學習方法下,更大的數據量通常可以帶來更高的精度,而且還存在精度從量變到質變提升的可能,因此數據科學家們對數據的需求也突然增大,大數據科學也因此應運而生。



對深度學習的詬病之一,是由于模型開始復雜起來,人們沒有辦法再像一條直線那樣容易理解機器分類的標準規范。當存在理解的黑洞時,機器學習在一部分人眼中也就成了巫術。比如,給模型提供一批好的作文和不那么好的作文,經過學習,機器可以對新的作文進行評分,這些評分僅僅是根據前面提供的素材學習而來的,但是機器無法給出詳細的評分理由,這就讓結果的信任度大打折扣。不過,近來有關于深度學習算法原理的解釋,這可能是把深度學習從“巫術”變成有理論支撐的科學的第一步。



無論怎么說,隨著深度學習的快速發展,大數據應該只是僅僅拉開了幕布一角,遠沒有到全面降臨的時刻。而隨著深度學習、人工智能(后者往往是以前者為基礎的)的快速發展,對數據需求的量級也會越來越多,到那時,可能才是真正的“大數據時代”


天天炫斗所有职业