相信大家對於 Chatgpt 已經並不陌生,並且對於它強大的文本生成能力有所了解,實際上 ChatGPT 中 GPT 代表的是 Generative Pre-trained Transformer ,其中的 Generative 所指的是應用更廣泛的一類工具 — 即生成式人工智能(Generative AI)。
近十年迅速發展的生成式 AI 結合了計算機科學和統計科學最前沿的模型和技術,並在廣泛地在商業、金融、醫療、教育等各行各業有著幾乎顛覆性的應用前景。人工智能帶來的無限可能性也伴隨著一些準確性方面的缺陷和倫理道德方面的考量。
生成式 AI ,與遵循特定規則的傳統人工智能不同,能夠根據用戶的輸入來創造新內容。並且這些內容不限於文本,而是可以包括圖像、聲音,乃至於動畫和 3D 模型等其它類型。
生成式 AI 屬於深度學習 (Deep Learning) 的一個分支,意味著生成式 AI 的工作原理是一類機器學習模型,通過學習數據中的規律或模式 (Pattern) 來生成新的內容。
目前,有一些模型使用大量數據資料進行訓練,而稱為基礎模型(Foundation Models),其中非常有代表性的基礎模型有 ChatGPT 背後的基礎模型 GPT ,以及用於生成圖像的 Stable Diffusion 。如果再使用少量的特定數據進行基礎模型的微調,就可以得到許多針對不同使用場景的 AI 系統。
雖然 ChatGPT 屬於生成式 AI 中在文本領域代表性的應用,讓世界看到了生成式 AI 的巨大潛力,但是對於機器學習領域不熟悉的人們容易將這兩個概念混淆而產生誤解。
生成式 AI 最早能夠追溯到 1966 年由 MIT 教授 Joseph Weizenbaum 創造的第一個聊天機器人 Eliza ,並實驗性地應用在與心理治療師交談中。但受限於當時的計算機技術,過少的數據和並不先進的算法,這個生成式 AI 的能力非常有限,科研人員更多地關注於開發能夠嚴格遵循規則的系統。
直到近十年,生成式 AI 又再次引起了人們的注意,並且自此飛速的迭代進步,直至 ChatGPT 的問世使得人們再次意識到 AI 的進步已經可以以假亂真。這一過程不是一蹴而就,而是伴隨著多次學術界的里程碑式的進步以及相關工具的問世:
1986年,深度學習和神經網絡中最關鍵的的後向傳播算法(Backpropagation)由神經網絡之父 Geoffrey Hinton 提出,自此掀起對於神經網絡研究的熱潮。
生成對抗網絡 (Generative adversarial network, GAN)於 2014 年由 Ian Goodfellow 提出。 GAN 通過兩個神經網絡相互博弈的方式進行學習,使得輸出的結果能盡可能模仿訓練集中的真實樣本。由 GAN 生成的圖像和文本已經非常逼真。
在文本生成領域,2017 年 Transformer 的提出成為這一領域的重大突破,後來分別在 2019 年和 2020 年推出的 GPT-2, GPT-3,以及 ChatGPT 都是基於 Transformer 的架構。 2022年是文本生成領域最受關注的一年,緊跟著 ChatGPT ,其它科技巨頭也不斷推出自己研發的聊天機器人,例如 Google 的 Bard, Github 的 Copilot 。這一系列生成式 AI 背後都是基於依靠一類叫做大型語言模型的技術(Large Language Model, LLM)。
在圖像生成領域,GAN 的統治地位持續了5年,學術界對 GAN 的架構不斷進行調整和優化,其中也有 Nvidia 的研究人員,提出了 Progressive GAN, Style-GAN 2 等,基於這些模型生成的圖像在逐步擁有更高的清晰度和更好的細節。 2021年,OpenAI 推出了 DALL-E ,這一圖像生成工具中,擴散模型(diffusion model)取代了 GAN ,並結合了 Transformer 而能夠根據文本描述生成圖像,DALL-E 2 在次年推出,需要更少的計算量,卻能生成更好的圖片。
音頻生成領域中,DeepMind 在2016年推出的 WaveNet 標誌著音頻生成模型的巨大進步。之後,在2022年和2023年,相當多成熟的音頻生成工具推出,其中包括有 Google 的 AudioLM、MusicLM、Meta 的 Voicebox 等。
伴隨著生成式 AI 有許多常被提到的概念,其中有神經網絡,深度學習,機器學習,大型語言模型等等,這些都是生成式 AI 的核心技術,
機器學習是人工智能研究的一部分,這一領域的研究專注於開發算法使得計算機能夠從數據中“學習”信息,並據此來對收到的新的數據進行推斷和預測。
其中學習是這一技術的關鍵,傳統的軟件編程是給計算機明確的指令和步驟來完成特定的功能,而機器學習中不需要人對每一個任務進行特定和明確的定義。機器學習的模型遵循特定的算法,但是是自動從數據中學習到特定的規律,並據此來對新的數據進行推斷和預測。
神經網絡作為人工智能領域的一種算法模型,它的基本思想是受到了生物神經系統的啟發,尤其是我們大腦中的神經元的工作原理。這一模型中基本的構建單元是神經元,各個神經元之間互相連結,並對輸入輸出進行運算,並且逐層傳遞。
在生成式 AI 中,神經網絡通常作為其模型的核心構建。生成式 AI 往往涉及圖像、音樂、文本等在計算機系統中非常複雜的數據,而神經網絡能夠根據不同的模型設計來捕獲和模擬這些複雜數據中的特徵,這是其它傳統機器學習模型很難達到的。
深度學習是特別針對多層(這就是稱作深度的原因)神經網絡的研究領域。如上文所說,生成式 AI 所涉及的內容都不是簡單的數字計算,淺層的神經網絡並不能學習到這些複雜數據中的特徵和結構,因而深度學習的發展對於生成式 AI 所生成的內容是否有足夠的細節和逼真度有很關鍵的作用。
對於人類語言的研究一直是人工智能的一個熱門領域,而大語言模型將這一領域推向了新的高度。其中的 “大”,體現在模型的參數幾乎都是在十億乃至更多,用於訓練模型的數據量也非常龐大(以GPT為例,GPT-3 的訓練數據量相當於 160 個維基百科) 。研究發現只有到達如此規模的模型才會出現一些顯著的性能提升和一些小模型中不存在的能力。
在生成式 AI 中,大語言模型是一個重要的組成部分,它不僅能用於生成文本,還能和其它生成式模型結合。例如基於文字描述生成圖像(Midjourney),或者創作音樂(MusicLM)。
在意識到生成式 AI 的強大能力後,各個行業都在積極地引入 AI 來提高生產力乃至於改變行業的形態。
在醫療領域,生成式 AI 能夠根據患者數據來提供診斷和個性化的治療方案。
今年 4 月,微軟和 Epic Systems 宣布將把 OpenAI 的 GPT-4 人工智能語言模型引入醫療保健領域,聊天機器人能用簡潔的語言概括出關於疾病核心信息,並根據追問和信息補充等進行進一步溝通,當然,它並不會取代醫生的判斷。其主要價值在於節約時間、提高效率,尤其是在那些醫療資源緊缺的地區,醫護人員能夠為病人提供更加合適的治療方案。谷歌也在 4 月中旬宣布將在有限的用戶群體中測試其專門針對醫療的大模型 — Med-PaLM 2。
醫學影像領域也能從生成式 AI 中得到改進。 2022年,Nvidia 與倫敦國王學院使用生成式 AI 創建了一套 10 萬份大腦合成圖像的數據集,其中的原理是將真實的圖像數據拆分並通過生成式 AI 重組,用以解決相關醫療影像稀缺的難題。此外,還有研究在利用生成式 AI 生成新的蛋白質序列來幫助醫學研究。
在市場營銷中,生成式 AI 能夠基於不同消費者的行為習慣,提供個性化的內容來吸引消費者的注意力。比如幫商品廣告編寫文案,或者是生成逼真且更有吸引力的商品圖片,甚至可以是虛擬的試用體驗(尤其是服裝和化妝品行業)。
Heinz 和 Nestle 在他們的廣告視頻中使用了生成式 AI — 當然,看起來有點像借用了這次 AI 熱潮的噱頭。
Videos:
而對於營銷人員,有時候他們會因為靈感枯竭而苦惱,生成式 AI 也能夠在這個時候幫助他們進行頭腦風暴,提供大量可選方案來評估和選擇。
個性化一直是生成式 AI 系統中重要的特徵,這一點在教育領域同樣適用。生成式 AI 可以根據學生的學習情況和需求,提供個性化的教學方案和輔導材料,幫助學生更好地掌握知識和技能。生成式 AI 也可以自動批改作業和考試試卷,快速準確地給出評價和反饋,提高教學效率和質量。
這些對於教育資源充足的孩子可能並不是顛覆性的,但是對於有困難的學生來說可能很重要。例如 Speechify ,作為一個文本轉語音的生成式 AI 工具,它能夠使那些有視力障礙或閱讀障礙的學生能比以往更輕鬆的學習來自任何來源的知識。
Reference: Speechify For Education | Speechify
以前的客戶服務往往是設置好的程序,意味著客戶需要在一系列非常複雜的程序後(比如按順序在手機上摁下 123 )才能得到自己想要的服務。而生成式 AI 能夠完全地顛覆這一現狀,基於大語言模型的客戶服務能夠直接通過自然語言理解客戶的需求並直接給予客戶解決方案或者和相應的技術人員對接進行溝通。
著名客戶關係管理軟件提供商 Salesforce ,推出了第一個用於客戶服務的生成式 AI — Einstein GPT,利用的 OpenAI 的 GPT 來幫助客服員工編寫郵件和對客戶問題進行自動回复。
在圖像生成式 AI 出來之後,畫師、設計師似乎都面領著失業的風險,影響最大的莫過於為遊戲行業提供原畫和設計的相關從業人員。強大的圖像生成 AI 能夠生成足以以假亂真的圖像,或者按照指示生成不同風格的圖片,而且生成的時間都是以秒計算,生產效率遠遠高於按天產出的設計師。
除了非常有名的圖像生成工具 Midjourney 和 Stable Diffusion,設計師最常用的 Photoshop 軟件中也加入了生成式 AI 功能。只需要選中特定區域,然後輸入指示,這一工具就能通過分析周圍的畫面依照指示來快速填充、替換或者擴展圖片中的元素。
Reference: AI photo editing with Photoshop - Adobe
生成式 AI 已經能夠替代有一定複雜程度的重複性勞動,這一點在銀行的各個部門都有應用前景。在面對客戶的市場和銷售部門中,生成式 AI 能利用自然語言模型更快地捕捉到客戶的需求,分析客戶的情緒來提供最適合的服務。投資顧問服務中,生成式 AI 能夠對不同投資產品的報告進行研究提煉,並對投資者生成個性化的配置建議。
但由於銀行業對於安全性、可靠性的極高要求,生成式 AI 還沒有大規模地應用於銀行業。
生成式 AI 能夠在靈感枯竭時給予大量的可能性作為參考,能讓我們注意到未曾涉及的思考方向和切入口。這實際上是一個相互補充的過程,我們可以向模型提供更精確的提示來生成我們想要的內容,而模型的回復也會啟發提問者向不同方向思考。
不像以前的內容生成的工具,生成式 AI 不需要任何的技術知識,只需要我們像和普通人交流一樣提出我們的需求,生成式 AI 能夠自動理解並生成內容。當然,必要的提示工程(Prompt Engineering)能夠更好地幫助我們使用這些生成式 AI 工具。
自動化也是生成式 AI 的一個突出優點,並且生成式 AI 將自動化提升到了新的高度。過去的技術非常適合自動化重複性、數據量大的任務,但不太擅長處理認知、基於知識的複雜活動。而生成式 AI 憑藉其語言理解和生成能力,使得許多更複雜的任務擁有了自動化的可能性。
生成式 AI 由於能夠處理足夠複雜的輸入,模型輸出的結果也能夠基於更豐富的輸入而更加準確,因而也更加符合使用者的需求。
儘管背後的原理是複雜的機器學習,生成式 AI 不需要用戶具有任何機器學習的專業知識,只要會提問,幾乎人人都能使用生成式 AI 。而一個 AI 模型能衍生出不同的應用程序,適用於不同背景的用戶群體。
生成式 AI 模型並沒有真正的對錯概念,也不會進行真正的思考。例如大語言模型中常見的“幻覺” 現象 - 大語言模型生成虛構的信息,卻以肯定的口吻敘述。因為知道 AI 模型不會撒謊,大多數用戶也不會再去驗證生成內容的真實性,這樣會使得生成式 AI 的可靠性大大降低。
雖然生成式 AI 生成內容的能力可以提高生產力,但它也可能生成有害或令人反感的內容,並且對此一無所知。像 Deepfakes 這樣的工具可以創建虛假的圖像,視頻或言論,這些內容可能會助長傳播仇恨言論或者導致歧視。
對於一個機器學習模型而言,最重要的莫過於訓練數據,業界一直有的 "Garbage in, garbage out." 說法並不是空穴來風。而對於大語言模型一類的生成式 AI, 往往需要大量的訓練數據,而這些數據中很難保證都是高質量且無害的。對於訓練數據的依賴和無法保證的數據質量會給生成式 AI 帶來預料之外的風險。
在選擇各種各樣的生成式 AI 時,有沒有一些通用的評價標準呢? Nvidia 提出了 3 個關鍵的要求:
質素 評價生成式 AI 內容質素好壞的標準是生成的內容是否和真實存在的內容有明顯區別,顯然一個雜亂的圖片和上下文不通順的文章都是很糟糕的生成式 AI 的內容。
多樣性 一個好的生成式 AI 能夠在保證質量的情況下提供不同的選擇,而不是大量相似的內容。這取決於模型是否能從數據中捕捉到比較稀有的規律或模式。
速度 在將生成式 AI 部署到不同的應用中時,速度是非常重要的,例如圖像編輯,用戶需要有即時的反饋來進行選擇。
Midjourney 是一款基於生成式 AI 的繪畫軟件,能夠幫助用戶創作個性化風格的繪畫作品。 Midjourney 能夠理解各種繪畫風格和技巧,如插畫、漫畫、油畫等。它支持 3 種生成方式:文字生成圖片、圖片生成圖片和混合圖片生成圖片。
不過 Midjourney 的描述詞只支持英文且有一定的門檻。而且 Midjourney 免費賬戶只能生成 25 張圖片。
這是一個免費的實時AI變聲器。其他功能包括語音克隆和自定義語音集成在你的應用程序中。它可以被流媒體人、遊戲玩家和企業用於會議和通話。
這是來自Google的生成 AI模型,可以通過文字直接生成高保真的音樂。無論文本描述是一段話、一個故事,或僅為一個單詞,MusicLM 都能生成對應的音樂,還能根據文本中的年代、時間、地點等要素來調整音樂的風格。