初入,需要學哪些工具?需要掌握到什么程度?這里李海博客給大家簡單總結一下,希望對你有所幫助。
00序言
數據分析,橫向來看,屬于計算機與統計學的結合;縱向來看,始于數據、終于業務。因此需要掌握的工具/技能跨度還是比較大的,從數據流轉角度來看,涵蓋從「數據倉庫→數據提取→數據分析→數據展示→數據匯報」幾個模塊,李海博客為大家梳理了各模塊涉及的工具內容,并標注重要性,供大家參考。
01數據倉庫
數據分析崗位,一般不會涉及數據倉庫的搭建及維護,但對數據倉庫的了解,有助于下游數據提取,以及做一些ADS層的數倉建設,有益于自身成長。其中涉及到的工具/技巧主要涵蓋:SQL、Python、Java、Flink等。
其中SQL是最為重要的,會在下文詳細展開;Python、Java在數據處理層會應用到,Python會在下文展開,Java的優先級不高,大家了解即可;Flink在處理實時流時會應用到,優先級同樣不高,了解即可。
02數據提取
數據提取是數據分析的首個環節,將數據從數據庫中,按照指定的格式輸出出來。在這個過程中,SQL是必備工具。
SQL「重要性:五星」
非常重要!非常重要!非常重要!建議掌握程度如下。
熟練掌握增、刪、查、改等基礎語句。
熟練掌握基礎函數,在遇到問題時,能夠快速檢索出用什么類型函數來解決問題。
熟練掌握語法結構,能夠寫出相對復雜的嵌套語句。
有清晰的代碼邏輯,在遇到不同類型需求時,能夠快速在腦海中形成輸出結構。
03數據分析
數據提取后,分析是日常工作的核心環節,將數據加工處理,探索其中的業務價值。這里涉及的工具比較多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。
Excel「重要性:五星」
雖然不高端,但仍然是數據分析最好用、最常用的工具。建議掌握程度如下。
熟練掌握常用函數。例如:sum、average、vlookup等。
熟練掌握常用操作技巧。例如:行列轉置、選擇性粘貼等。
熟練掌握常用快捷鍵。例如:快速刪除行列、快速篩選內容等。
了解VBA,能夠簡單實現Excel自動化。這一點不是必須,但對提高工作效率會有幫助。
Python「重要性:四星」
Python并不是數據分析必備工具,但卻能夠決定你的發展上限。主要應用場景涵蓋:創建SQL中應用的UDF函數、通過腳本快速產出分析報告、通過數據挖掘產出模型。建議掌握程度如下。
熟練掌握Python基礎語法、函數,能夠看懂別人寫的代碼。
熟練掌握分析及挖掘常用工具包。例如:numpy、pandas、matplotlib、sklearn等。
熟悉通用的Python項目目錄結構。
R「重要性:三星」
從功能角度來說,R與Python很多功能是交叉的。R更加偏向于統計分析與繪圖,一般在學術研究中應用較多。對于數據分析同學,Python與R二選一即可,個人推薦前者,應用方向更廣一些。
Spss「重要性:三星」
Spss是一款數據統計與應用軟件,在處理「離線+中小數據量」的統計分析時比較好用。通過「可視化界面+點選方式」選擇不同類型的統計分析,例如:概率統計、相關分析、回歸分析等,甚至還包含了機器學習算法與文本分析等,應用方向較廣。建議掌握程度如下。
熟練掌握常用的統計學原理,并了解各原理中的參數含義。
了解工具能解決哪些問題,至于具體的操作細節,可在用到的時候查詢。
Eviews、Sas「重要性:兩星」
Eviews和Sas在非經濟學領域出現頻次不太高。Eviews主要在時間序列分析中有較多應用;而Sas主要在銀行及金融業應用較多,屬于付費軟件。這兩個工具,大家了解就好,用到的時候再深入研究。
04數據展示
產出數據結論后,往往需要配合圖表進行展示,Excel、Python Matplotlib基本就可滿足需求。但如果希望配置成例行圖表,則需要通過BI軟件來完成。一般公司內部會有自己的BI平臺,而至于外部軟件,Tableau應用較為廣泛。
BI平臺操作相對比較簡單,但如果之前沒有應用過,建議下載Tableau用一用,了解一下BI平臺的一般功能,并能夠實現一些簡單的看板搭建(Tableau是付費的)。
05數據匯報
數據對于業務的價值,需要通過匯報讓更多人知曉。這里PPT是最常用的工具。
PPT「重要性:五星」
只有一個原則,匯報的PPT「思路清晰+內容簡潔+突出結論」即可。
以上就是本期的內容分享,希望對你有所幫助!