OpenAI 在剛剛的 2024 春季更新發布全新 AI 模型 GPT-4o,比 GPT-4 更快更便宜之餘,強化的多模態模型在語音方面亦帶來驚人進步,帶來無延遲而且十分自然的人機互動,更可捕捉和模擬情緒。Preface 將為你介紹 GPT4-o 必知的重點功能更新,教你 GPT-4o 在香港地區如何使用,免費試用詳情、GPT Plus 收費及 OpenAI 官方演示!
這次 OpenAI 春季發布會的重點更新並不是 GPT-5,而是GPT-4o;當中的「O」意思是「Omni」,即有全能、全方位等意思。事實上,取名 GPT4-Omni 可謂不無道理,因為它多模態的特性使其可以處理文本、視覺、語音等輸出和輸入方式。
GPT-4o 最令人驚喜的就是其語音功能,平均的延遲和回應時間只有 0.32 秒,最快更可達到 0.23 秒。 與 GPT-3.5(平均 2.8 秒) 或 GPT-4 (平均 5.4 秒)語音模式的回應時間相比,快了足足 9 倍和 17 倍!
與前一代 GPT-4 Turbo 模型表現相比,生成速度快了兩倍,API 價格更便宜了五成。早前在網上 LMSYS Org Chatbot Arena 離奇出現的「im-also-a-good-gpt2-chatbot」,獲 Sam Altman 證實其實就是 GPT-4o。
OpenAI 在春季發布會以及官方網站均展示了各種活用語音模式的場景,包括以下功能:
即時翻譯:像翻譯機般的即時語言傳譯,兩人以西班牙文和英語流暢對答
面試準備:GPT-4o 從鏡頭觀察求職者的衣著打扮,觀察用戶的表情,判斷情緒,提供建議
床邊故事:GPT-4o 可以按用戶要求說個睡前故事,當中更可隨意變換聲線,由情感豐富的語調到機械人聲音,最後以歌聲結束
互動唱歌:兩個 GPT-4o 更可互動唱歌,互相和音
學習助手:OpenAI 更請得 Khan Academy 創辦人 Sal Khan 和他的兒子在 iPad 上配合 GPT-4o 拆解數學題目,GPT-4o 就像家庭教師般手把手教會學生完成代數課題。
輔助視障人士:把 GPT-4o 置入以 AI 輔助視障人士的 BeMyEyes 應用程式
和 GPT-4o 對話,除了反應時間以外,當中最令人震撼的是可以像打電話般中途打斷它,它亦繼續理解語意,更可從鏡頭和聲線中感受到用戶的情緒、語氣、亦可以多人對話、大笑、唱歌、表達像真度十足的情感。
GPT-4o 現時在已經可以在 ChatGPT 和 API 上使用,不過,這只限於文字與圖片輸出輸入,新語音功能暫時還未推出,預計在 5 月中旬接下來的幾周內開放給大家試用。所以,目前大部分在 X 或 Threads 看到的所謂「評測」或「試用」其實只是 ChatGPT 手機 APP 中 GPT-4 就有的 Voice Mode 語音模式,並不是一體化處理多模態回應的 GPT-4o!
至於對香港繁體中文用戶而言,目前還需要 VPN 才能連線到 OpenAI 的官方 ChatGPT 網站入口;要下載 ChatGPT 官方 iPhone APP,也需要把 App Store 帳號轉到美國等外國地區才可下載(使用時亦需 VPN)。
不過,現時 Poe 及 Perplexity AI 已火速將 GPT-4o 上架,想要免 VPN 試用 GPT-4o,可以到兩個網站使用。Preface 亦有關於兩個網站的教學可供參考,即按以下連結了解更多!
可以!這次 GPT-4o 將逐步免費開放給所有用戶使用,限制次數為 3 小時 16 次,ChatGPT Plus 用戶為 3 小時 80 次。
ChatGPT Plus 每月 $20 美金,而且需要外國信用卡才能付款。
其實,現時免費用戶可使用的功能隨今次發布會大幅增加,除了可以使用 GPT-4,也可以上傳圖片、網頁瀏覽、更可以使用 GPTs 和 GPT Store 等以前 Plus 用戶才能使用的功能!
到底應否訂閱 ChatGPT Plus 其實十分視乎用戶選擇,對一般文書用戶而言,建議使用免費版的 ChatGPT 其實已經足夠,重要的工作可以交由 GPT-4o 以免費限額完成,然後以 GPT-3.5 完成一般工作。不過,對使用量比較大的用戶,或是喜歡跟上最新科技進度的 AI 愛好者,每月 20 美金的月費若然負擔不是太大,也值得繼續課金享受 OpenAI 在將來發布的最新更新,有機會可以提前使用部分功能!