疫情之下,不論是企業還是個人,都在逐漸加深對互聯網及電子產品的依賴,為全球的數據量迎來爆發性的增長。作為其中一個新興行業,數據科學的發展前景和待遇都吸引了許多不同背景的人士入行。如果你也有興趣踏足大數據的領域,這篇數據科學家入門指南將會解答你所有疑問,並助你邁出轉變的第一步。
身處一個數據大爆炸的年代,我們日常生活中的每一個細節幾乎都離不開數字。為了善用這些源源不絕的資訊,並從中發掘出有用的資訊和見解,與之相關的學科應運而生,亦就是我們今天的主題 —— 「數據科學」(Data Science)。
事實上,數據科學並非一門獨立的學科,而是融合了電腦科學、統計學、數學、軟件開發、機器學習等多個現有學科的跨領域專業。
透過應用一系列邏輯及分析技巧,數據科學讓我們可以深入洞悉數據背後的模式及意涵,從而做出有根據的商業決定。
舉例來說,通過數據科學,零售業可以總結出店舖人流最旺的時段,從而安排相應的人手工作,減省不必要的成本。
參考資料:TIBCO
顧名思義,數據科學家 (Data Scientist) 就是將數據科學付諸實行的專家。
早在60年代,企業便會聘請專人負責理解和分析數據。話雖如此,由於當時資訊科技尚未普及,市場上可供探索的數據非常有限,與現代相比,工作量可以說是不足掛齒。而隨著學術和科技的不斷進步,數據科學家可以處理的事務也越來越多,漸漸從單純的收集和分析數據,拓展到有能力就未來方向提供精準的預測,為企業創造更大的價值。
數據科學家的工作範疇非常廣闊,包括:
根據企業要求,提出一個切實可行的研究角度
從不同渠道收集數據,並確保數據的質素
將數據整合並分門別類儲存妥當
規劃數據的分析程序和研究框架
揀選合適的統計模型和演算法
應用不同的數據分析技巧,如人工智能及機器學習
核實數據分析結果,進一步完善闊度和深度
根據蒐集得到的數據分析報告,預測未來走勢
將數據資料視覺化,確保行外人也能準確理解
回應各持分者提出的問題和意見,改進數據分析策略
參考資料:TIBCO、Xccelerate
一般而言,數據科學家的職業生涯都是從數據分析家開始,所以數據科學家又被視為這個領域中,較高級的職位。
以下為大家整合兩者最主要的分別:
| | 數據分析家 | 數據科學家 | | 工作重點 | * 搜集並整合數據
進行數據分析
將繁雜的數據簡化為圖像
| * 研發邏輯和分析模型
優化現有的統計演算法
預測未來趨勢
向持份者匯報數據分析及發現
| | 學術要求 | * 基本編程及數據相關知識
修畢相關學士課程
| * 持有碩士或博士課程
資深的編程及數據處理技巧
| | 常用工具 | * SQL
Python
SAS
Tableau
BI
Excel
| * SQL
Python
Tableau
RScala
Spark
Hadoop
AWS
Databricks
Jupyter Notebook
| | 適合人士 | * 剛出社會的畢業生
未有豐富行內經驗
| * 具備深厚的行業相關知識
有豐富的數據分析經驗
|
參考資料:Xccelerate、TechOrange
數據科學的應用範疇非常廣泛,幾乎各行各業都在迫切招攬相關人才,帶領公司在數據主導的年代中拔得頭籌。
以下列舉了7個和數據科學最密不可分的行業:
| | 數據科學應用 | | 能源業 | 分析未來的能源挑戰,助公司重新調配資源以實現所需的平衡 | | 金融保險 | 分析投保人的特性和需求,強化保險管理並以專業角度提供保障額度建議 | | 衞生保健 | 結合一系列醫療數據,從而提高治療效果並降低醫療服務成本 | | 製藥 | 取代不必要的臨床試驗,既節省新藥驗證成本,又能加快新藥研發速度 | | 製造業 | 分析整個生產流程的數據,得出各種參數的最佳設定值,大幅提高生產效率 | | 欺詐識別 | 分析掌握欺詐個案的模式,從而精準快速地識別異常數據或危險信號 | | 初創公司 | 分析有助初創企業進行商業分析,在最大程度上提高決策質量 |
參考資料:TIBCO
數據科學的初衷在於協助企業解決問題,因此,數據科學家必須具備敏銳的商業觸覺,懂得如何「問對的問題」。
舉例來說,假如企業的挑戰在於銷售額停滯不前,相比起「我該如何提高銷售額?」這類模棱兩可、空泛抽象的問題,一個及格的數據科學家應該深入現象背後的根源,調查「甚麼貨品的銷售額最高?」、「顧客通常來自哪一個年齡層?」、「過去哪些促銷活動能帶來最高轉換率?」等更具體、可研究等題目。
和進行科學實驗一樣,數據科學家同樣需要先就研究提出假設 (Hypothesis),再開始制定研究方法、收集資料並正式開始進行數據分析。
作為一名數據科學家,當然要具備清晰的邏輯思維,從而分析複雜數據的規例,並挖掘背後的商業價值。
數據分析是一個繁複但重要的過程,當中包括收集和整合原始數據、測試數據可用性、篩除錯誤數據等一系列工作。在確保數據正確無誤之後,數據科學家需要利用批判性思維,合併或修改現成工具,從以創建出最理想的分析模型和演算法,
科技發展一日千里,現代的數據科學家無須再事事親力親為,而是可以借助機器學習和人工智能的能力,實現高效的數據分析方案。
但是,由於各行各業的要求都不一樣,數據科學家有可能需要調整相關的模型架構及演算法,以確保其性能及準確度不會受到影響。一旦運算期間出現故障,數據科學家亦需要懂得如何除錯 (Debug),讓機器和人工智能能夠朝著正確的方向學習、成長並發展,為數據分析的流程帶來最大效益。
參考資料:TIBCO
修讀和數據科學相關的學位,可以說是成為數據科學家的關鍵第一步。
由於數據科學尚算是一個新興學科,所以你並不一定要挑選專門的學位,事實上,現時不少知名的數據科學家都是統計學、數學、資訊科技、電腦科學等專業出身。假如你無法長時間投入全職學生的生活,也可以考慮參與更具針對性的短期課程,重點鍛煉自己的編程、資料庫建構、數據分析工具運用等技巧,為將來的事業發展打下強心針。
如果你希望成為數據科學中的佼佼者,自然需要對各種常用的技能了如指掌,當中包括統計學和計算學、模型建構、機器學習、深度學習、數據管理及分析、數據可視化等等,涵蓋多個不同範疇。
所謂「讀萬卷書,不如行千里路」,除了要吸收書本上的知識,你亦應該把握課餘的實習機會,將學習到的技能一一應用到現實項目當中。如果你有興趣實踐,網絡上有許多開源的數據庫可供你練習,例如是Kaggle、NASA、Wikipedia和UCL Machine Learning Repository,全都是一些很受初學者歡迎的網站。
參考資料:TIBCO、Xccelerate
鑒於疫情加速了數碼轉型的步伐,市場對數據科學家的需求正在不斷上升。直至2022年4月, JobsDB上有關數據科學的空缺已多達5,280個,其熱度可見一斑。
根據Glassdoor,香港的數據科學家月均收入為HK$35,500,實際數字或會因應個人經驗及公司政策而有所調整。
為了方便你掌握市場實況,以下歸納了10個知名企業的薪酬水平:
| 香港公司 | 平均月入 (HKD) | 月入水平 (HKD) | | 香港匯豐銀行 | $42,750 | $32,000 至 $60,000 | | 中國銀行 (香港) | $27,500 | $24,000 至 $31,000 | | IBM | $43,500 | $40,000 至 $47,000 | | 香港大學 | $22,000 | $21,000 至 $23,000 | | 香港中文大學 | $24,000 | $23,000 至 $25,000 | | 香港城市大學 | $60,000 | $57,000 至 $63,000 | | 香港科技大學 | $55,500 | $57,000 至 $62,000 | | Lalamove | $47,000 | $45,000 至 $49,000 | | 微軟 | $38,500 | $38,000 至 $41,000 | | 友邦保險 | $30,000 | $29,000 至 $31,000 |
參考資料:TIBCO、Xccelerate、JobsDB
數據科學的知識和技能,並不是一朝一夕就能夠精通的。同理,由於數據科學牽涉的範疇十分廣闊,涵蓋數學、編程、商業分析甚至是消費者心理等等,所以你必須確保自己是以正確的順序學習知識,否則有可能浪費不少繞遠路的時間成本。
比方說,僅是編程語言就有數十種不同選擇,並非每一種都適用於數據科學,假如你耗費大量心力後,才發現學習的編程技術並無實際用途,無疑會磨滅你對數據科學的熱誠。
因此,對於初涉足數據科學的人士而言,一般都建議在經驗豐富的導師帶領下,探索行內必備知識和技能,打穩基礎才考慮自學。
Preface的Data Science & A.I. with Python是一個短期實戰課程,濃縮了多個數據科學的主題:
如何利用Python快速提取並解讀數據
使用APIs爬取網絡
數據數據收集及整合
核實數據及建模
機器學習
深度學習
自然語言處理及圖像分類技術
數據可視化
為了助學生有系統地掌握有關知識及技巧,每個主題的鋪排環環緊扣、相輔相成,旨在將學習效益最大化。在課程尾聲,學生還可以從零開始建立、訓練並部署自己專屬的機器學習模型,不但可以測試自己在課堂中的得著,還可以作為日後申請工作的作品集。
參考資料:TIBCO
每個人的經驗、能力、機遇都不一樣,所以答案在很大程度上取決於個人的發展進程。
話雖如此,KDnuggets的一項調查發現,成為一名數據科學家平均需要5年時間,而在亞洲地區的數據科學家則需時約4.9年。
數據科學家必須具備跨領域的視野和知識,而這一切都需要透過各式高等教育和訓練才能逐漸積累。
舉例來說,在香港修讀數據分析學碩士學位平均需要HK$210,000至HK$300,000。假如你希望透過Boot camp和其他課程來提升個人能力,更需要額外繳付$10,000至HK$50,000不等的學費,當中尚未計算時間、軟硬件、資源購置等成本,絕對是一筆價值不菲的投資。