Preface Logo

如何成為數據科學家?了解技能要求、出路、人工及課程

疫情之下,不論是企業還是個人,都在逐漸加深對互聯網及電子產品的依賴,為全球的數據量迎來爆發性的增長。作為其中一個新興行業,數據科學的發展前景和待遇都吸引了許多不同背景的人士入行。如果你也有興趣踏足大數據的領域,這篇數據科學家入門指南將會解答你所有疑問,並助你邁出轉變的第一步。

數據科學是什麼?

身處一個數據大爆炸的年代,我們日常生活中的每一個細節幾乎都離不開數字。為了善用這些源源不絕的資訊,並從中發掘出有用的資訊和見解,與之相關的學科應運而生,亦就是我們今天的主題 —— 「數據科學」(Data Science)。

事實上,數據科學並非一門獨立的學科,而是融合了電腦科學、統計學、數學、軟件開發、機器學習等多個現有學科的跨領域專業。

透過應用一系列邏輯及分析技巧,數據科學讓我們可以深入洞悉數據背後的模式及意涵,從而做出有根據的商業決定。

舉例來說,通過數據科學,零售業可以總結出店舖人流最旺的時段,從而安排相應的人手工作,減省不必要的成本。

參考資料:TIBCO

數據科學家(Data Scientist)做什麼?

顧名思義,數據科學家 (Data Scientist) 就是將數據科學付諸實行的專家。

早在60年代,企業便會聘請專人負責理解和分析數據。話雖如此,由於當時資訊科技尚未普及,市場上可供探索的數據非常有限,與現代相比,工作量可以說是不足掛齒。而隨著學術和科技的不斷進步,數據科學家可以處理的事務也越來越多,漸漸從單純的收集和分析數據,拓展到有能力就未來方向提供精準的預測,為企業創造更大的價值。

數據科學家的工作範疇非常廣闊,包括:

    • 根據企業要求,提出一個切實可行的研究角度

    • 從不同渠道收集數據,並確保數據的質素

    • 將數據整合並分門別類儲存妥當

    • 規劃數據的分析程序和研究框架

    • 揀選合適的統計模型和演算法

    • 應用不同的數據分析技巧,如人工智能及機器學習

    • 核實數據分析結果,進一步完善闊度和深度

    • 根據蒐集得到的數據分析報告,預測未來走勢

    • 將數據資料視覺化,確保行外人也能準確理解

    • 回應各持分者提出的問題和意見,改進數據分析策略

參考資料:TIBCOXccelerate

數據科學家 VS 數據分析家

一般而言,數據科學家的職業生涯都是從數據分析家開始,所以數據科學家又被視為這個領域中,較高級的職位。

以下為大家整合兩者最主要的分別:

| | 數據分析家 | 數據科學家 | | 工作重點 | * 搜集並整合數據

    • 進行數據分析

    • 將繁雜的數據簡化為圖像

| * 研發邏輯和分析模型

    • 優化現有的統計演算法

    • 預測未來趨勢

    • 向持份者匯報數據分析及發現

| | 學術要求 | * 基本編程及數據相關知識

    • 修畢相關學士課程

| * 持有碩士或博士課程

    • 資深的編程及數據處理技巧

| | 常用工具 | * SQL

    • Python

    • SAS

    • Tableau

    • BI

    • Excel

| * SQL

    • Python

    • Tableau

    • RScala

    • Spark

    • Hadoop

    • AWS

    • Databricks

    • Jupyter Notebook

| | 適合人士 | * 剛出社會的畢業生

    • 未有豐富行內經驗

| * 具備深厚的行業相關知識

    • 有豐富的數據分析經驗

|

參考資料:XccelerateTechOrange

數據科學的應用

數據科學的應用範疇非常廣泛,幾乎各行各業都在迫切招攬相關人才,帶領公司在數據主導的年代中拔得頭籌。

以下列舉了7個和數據科學最密不可分的行業:

| | 數據科學應用 | | 能源業 | 分析未來的能源挑戰,助公司重新調配資源以實現所需的平衡 | | 金融保險 | 分析投保人的特性和需求,強化保險管理並以專業角度提供保障額度建議 | | 衞生保健 | 結合一系列醫療數據,從而提高治療效果並降低醫療服務成本 | | 製藥 | 取代不必要的臨床試驗,既節省新藥驗證成本,又能加快新藥研發速度 | | 製造業 | 分析整個生產流程的數據,得出各種參數的最佳設定值,大幅提高生產效率 | | 欺詐識別 | 分析掌握欺詐個案的模式,從而精準快速地識別異常數據或危險信號 | | 初創公司 | 分析有助初創企業進行商業分析,在最大程度上提高決策質量 |

參考資料:TIBCO

數據科學家需要的技能

業務技能

數據科學的初衷在於協助企業解決問題,因此,數據科學家必須具備敏銳的商業觸覺,懂得如何「問對的問題」。

舉例來說,假如企業的挑戰在於銷售額停滯不前,相比起「我該如何提高銷售額?」這類模棱兩可、空泛抽象的問題,一個及格的數據科學家應該深入現象背後的根源,調查「甚麼貨品的銷售額最高?」、「顧客通常來自哪一個年齡層?」、「過去哪些促銷活動能帶來最高轉換率?」等更具體、可研究等題目。

和進行科學實驗一樣,數據科學家同樣需要先就研究提出假設 (Hypothesis),再開始制定研究方法、收集資料並正式開始進行數據分析。

分析技能

作為一名數據科學家,當然要具備清晰的邏輯思維,從而分析複雜數據的規例,並挖掘背後的商業價值。

數據分析是一個繁複但重要的過程,當中包括收集和整合原始數據、測試數據可用性、篩除錯誤數據等一系列工作。在確保數據正確無誤之後,數據科學家需要利用批判性思維,合併或修改現成工具,從以創建出最理想的分析模型和演算法,

計算機科學

科技發展一日千里,現代的數據科學家無須再事事親力親為,而是可以借助機器學習和人工智能的能力,實現高效的數據分析方案。

但是,由於各行各業的要求都不一樣,數據科學家有可能需要調整相關的模型架構及演算法,以確保其性能及準確度不會受到影響。一旦運算期間出現故障,數據科學家亦需要懂得如何除錯 (Debug),讓機器和人工智能能夠朝著正確的方向學習、成長並發展,為數據分析的流程帶來最大效益。

參考資料:TIBCO

如何成為數據科學家?

具備相關學歷

修讀和數據科學相關的學位,可以說是成為數據科學家的關鍵第一步。

由於數據科學尚算是一個新興學科,所以你並不一定要挑選專門的學位,事實上,現時不少知名的數據科學家都是統計學、數學、資訊科技、電腦科學等專業出身。假如你無法長時間投入全職學生的生活,也可以考慮參與更具針對性的短期課程,重點鍛煉自己的編程、資料庫建構、數據分析工具運用等技巧,為將來的事業發展打下強心針。

熟悉數據科學技能

如果你希望成為數據科學中的佼佼者,自然需要對各種常用的技能了如指掌,當中包括統計學和計算學、模型建構、機器學習、深度學習、數據管理及分析、數據可視化等等,涵蓋多個不同範疇。

所謂「讀萬卷書,不如行千里路」,除了要吸收書本上的知識,你亦應該把握課餘的實習機會,將學習到的技能一一應用到現實項目當中。如果你有興趣實踐,網絡上有許多開源的數據庫可供你練習,例如是KaggleNASAWikipediaUCL Machine Learning Repository,全都是一些很受初學者歡迎的網站。

參考資料:TIBCOXccelerate

數據科學出路和人工

鑒於疫情加速了數碼轉型的步伐,市場對數據科學家的需求正在不斷上升。直至2022年4月, JobsDB上有關數據科學的空缺已多達5,280個,其熱度可見一斑。

根據Glassdoor,香港的數據科學家月均收入為HK$35,500,實際數字或會因應個人經驗及公司政策而有所調整。

為了方便你掌握市場實況,以下歸納了10個知名企業的薪酬水平:

| 香港公司 | 平均月入 (HKD) | 月入水平 (HKD) | | 香港匯豐銀行 | $42,750 | $32,000 至 $60,000 | | 中國銀行 (香港) | $27,500 | $24,000 至 $31,000 | | IBM | $43,500 | $40,000 至 $47,000 | | 香港大學 | $22,000 | $21,000 至 $23,000 | | 香港中文大學 | $24,000 | $23,000 至 $25,000 | | 香港城市大學 | $60,000 | $57,000 至 $63,000 | | 香港科技大學 | $55,500 | $57,000 至 $62,000 | | Lalamove | $47,000 | $45,000 至 $49,000 | | 微軟 | $38,500 | $38,000 至 $41,000 | | 友邦保險 | $30,000 | $29,000 至 $31,000 |

參考資料:TIBCOXccelerateJobsDB

數據科學課程

數據科學的知識和技能,並不是一朝一夕就能夠精通的。同理,由於數據科學牽涉的範疇十分廣闊,涵蓋數學、編程、商業分析甚至是消費者心理等等,所以你必須確保自己是以正確的順序學習知識,否則有可能浪費不少繞遠路的時間成本。

比方說,僅是編程語言就有數十種不同選擇,並非每一種都適用於數據科學,假如你耗費大量心力後,才發現學習的編程技術並無實際用途,無疑會磨滅你對數據科學的熱誠。

因此,對於初涉足數據科學的人士而言,一般都建議在經驗豐富的導師帶領下,探索行內必備知識和技能,打穩基礎才考慮自學。

Preface的Data Science & A.I. with Python是一個短期實戰課程,濃縮了多個數據科學的主題:

    • 如何利用Python快速提取並解讀數據

    • 使用APIs爬取網絡

    • 數據數據收集及整合

    • 核實數據及建模

    • 機器學習

    • 深度學習

    • 自然語言處理及圖像分類技術

    • 數據可視化

為了助學生有系統地掌握有關知識及技巧,每個主題的鋪排環環緊扣、相輔相成,旨在將學習效益最大化。在課程尾聲,學生還可以從零開始建立、訓練並部署自己專屬的機器學習模型,不但可以測試自己在課堂中的得著,還可以作為日後申請工作的作品集。

參考資料:TIBCO

FAQ

1. 成為多久才能成為數據科學家?

每個人的經驗、能力、機遇都不一樣,所以答案在很大程度上取決於個人的發展進程。

話雖如此,KDnuggets的一項調查發現,成為一名數據科學家平均需要5年時間,而在亞洲地區的數據科學家則需時約4.9年。

2. 成為數據科學家要花多少錢?

數據科學家必須具備跨領域的視野和知識,而這一切都需要透過各式高等教育和訓練才能逐漸積累。

舉例來說,在香港修讀數據分析學碩士學位平均需要HK$210,000至HK$300,000。假如你希望透過Boot camp和其他課程來提升個人能力,更需要額外繳付$10,000至HK$50,000不等的學費,當中尚未計算時間、軟硬件、資源購置等成本,絕對是一筆價值不菲的投資。

資料來源:WorldScholarshipForum

data scientist data scientist 香港 數據科學 數據科學家
ad_20240416_summer2024_b
ad_20231005_future_design_b
ad_20231006_kids_trial_class_b
Related Posts:

What is a data scientist? What is the average salary of this job in Hong Kong? Is there any related course available? Let’s check this comprehensive guide prepared by Preface!

Coding Bootcamp香港都有!美國大熱的密集式編程課程有冇用?學習網頁開發、軟體工程、人工智能需要學位嗎?一文介紹Coding Bootcamp 是什麼、認受性和起源

身為Syfe業務拓展總監,Yenson She目睹過大大小小的企業轉型,而有備而戰的企業必然會佔盡優勢。今時今日適應能力比擁有深層領域知識更吃香,不只大小企業,個人亦然。PREFACE邀請你一起了解財富管理與創科的循環關係,擁抱科技,成就未來。