精益數據分析

數據是量化事物的手段,數據指標代表了現實存在的客觀情況,客觀性是數據最大的魅力所在。但人對數據不同的分析方法和手段融入了主觀因素加工,可能會導致相同的數據得出完全相反的結論(例如辛普森悖論)。1%的疏忽導致100%的失敗,數據的證明力是有兩面性的,在做數據分析時務必嚴謹負責,也不要過分依賴數據分析而限制了產品本身的靈感和創意。

因此,在對數據進行解讀時,要涵蓋數據樣本範圍、提取手段、樣本數量、數據來源、是否經過二次處理、樣本是否完整(在總體的占比)等,判斷數據能證明哪些問題,不能證明哪些問題,不要行動了才知道這個功能只有小部分用戶在用。要深挖數據背後的原因,就需要我們對數據多問為什麼,通過邏輯推理,提出有的放矢的追問和假設,然後通過數據或其他手段來驗證,好的追問能夠幫助我們發現數據中隱藏的問題。

1.1、數據分析的三種類型

數據分析按目的的不同可以分為描述性數據分析、探索性數據分析、驗證性數據分析。

描述性數據分析屬於初級數據分析,在統計學中,描述統計是將研究中所得的數據加以整理、歸類、簡化或繪製成圖表,以此描述和歸納數據的特徵及變量之間的關係的一種最基本的統計方法。一般來說什麼數據都可以作描述性分析,常見的分析方法有:對比分析法、平均分析法、交叉分析法。

探索性數據分析及驗證性數據分析側重於在數據中發現新的特徵,屬於高級數據分析。不同之處在於,前者注重於對數據進行概括性的描述,不受數據模型和科研假設的限制,而後者只注重對數據模型和研究假設的驗證(無目的/有目的)。常見分析方法有相關分析、因子分析、回歸分析等。

1.2數據分析與大數據

大數據必須包含三個要素:用全部數據、注重相關關係、全新的計算方法。沒有包含這三個要素就只是普通的數據分析而不是大數據。

用全部數據:當通過數據分析一個問題時,涉及到所分析問題的所有數據都必須納入到計算範圍當中,無論是常規合理數據,還是一些異常的樣本數據都必須包含。甚至傳統數據分析當中可能都完全忽略的數據,都需要包含在大數據分析當中。

注重相關關係:通過大數據分析,最終分析獲得並關注數據當中的相關關係,並通過相關關係知道分析、決策預測,但對因果關係的探索,將不再是這種數據分析所關注的核心內容。

全新的計算方法:即大數據分析,其計算過程不再是傳統的數據分析中,必須精確統計、不容許任何髒數據、錯誤數據的分析方法,而是包含了各類混雜數據的簡單相關性計算。