OpenAI釋出語音代理四大更新 開發工具、模型全面翻新

▲OpenAI四大升級亮相,打造更智慧、更安全的語音代理工具。(圖/OpenAI)

記者吳立言/綜合報導

OpenAI今(4日)宣布推出四項重大技術更新,進一步強化「語音代理(Voice Agent)」的開發能力與應用靈活性。此次升級涵蓋開發工具支援、語音模型性能、人類審查機制與調試可視化等面向,為開發者帶來前所未有的建構自由度與控制力。以下為四大更新重點:

Agents SDK現在可以在打字稿中使用,並支持Handoff,護欄,跟踪,MCP和其他核心代理原始圖,就像Python版本一樣。

– Openai開發人員(@openaidevs)

※Agents SDK 支援 TypeScript:網頁與跨端開發者大福音

OpenAI將原本僅支援Python的Agents SDK擴展至TypeScript,讓熟悉JavaScript生態系的開發者能夠更輕鬆構建語音代理。新版TypeScript SDK完整支援與Python等效的四大核心功能:

◆handoffs:允許代理人間進行任務交接

◆guardrails:設置代理行為的安全限制

◆tracing:即時記錄與分析代理運作過程

◆MCP:多元組件架構,支援複雜代理任務協同處理

此舉讓開發者能夠直接在網頁端或Node.js環境中構建語音助理、智慧客服等互動型應用,縮短產品開發週期。

它包括對人類批准的新支持,允許您暫停工具執行,序列化和存儲代理狀態,批准或拒絕特定的呼叫,並恢復代理運行。

– Openai開發人員(@openaidevs)

※加入「人類審查」(Human-in-the-loop)機制:敏感任務更可控

OpenAI新增「人類審查流程」,允許代理在執行敏感操作前,暫停並等待人工確認,應用情境包括財務指令執行、醫療諮詢回應、企業內部客服等高風險任務。該機制支援:

◆工具執行前「暫停」代理流程

◆儲存當前狀態供審核人員檢視

◆由人工批准或拒絕該次工具呼叫

◆通過後「恢復」代理流程繼續執行

此更新大幅提高了系統可審計性與合規性,讓開發者可導入更複雜的企業應用情境。

您還可以使用由實時API供電的新的Realtimeagent功能構建在客戶端或服務器上運行的語音代理。像文本代理一樣定義它們,包括工具呼叫,交接,護欄以及自動音頻和中斷處理。開始在這裡:…

– Openai開發人員(@openaidevs)

※RealtimeAgent功能上線:打造高互動語音代理的新途徑

RealtimeAgent是OpenAI針對語音代理推出的新高階框架,可於瀏覽器或伺服器端部署,支援即時語音互動。具備:

◆語音輸入與即時回應處理

◆工具調用(function calling)能力

◆會話交接(handoffs)功能

◆支援語音中斷與續接

◆自動處理播放與暫停控制

這項工具特別適合建構像是AI電話客服、智慧語音助理、互動遊戲角色(如 AI地牢《AI Dungeon》) 等需即時語音處理的場景。搭配Realtime API,即可靈活打造語音互動工作流。

接下來,Traces儀表板現在支持實時API會話,讓您可視化語音代理運行,包括音頻輸入/輸出,工具調用和中斷,無論是通過API還是通過代理SDK創建的。這是向您展示它的工作方式:

– Openai開發人員(@openaidevs)

※ Traces儀表板升級:語音代理調試全面可視化

開發者熟悉的Traces儀表板也進行大幅升級,現可完整支援 語音代理的視覺化分析,包含:

◆使用者語音輸入、模型語音輸出紀錄

◆工具呼叫紀錄與參數值

◆中斷、插話等即時互動狀況

透過這項升級,開發者可針對語音代理的行為進行精細調整與除錯,提升整體互動品質與使用者體驗。

★模型同步更新:GPT-4o 新語音模型登場

OpenAI更同步推出兩個新語音模型版本:

◆gpt-4o-realtime-preview-2025-06-03(Realtime API專用)

◆GPT-4O-audio-Preview-2025-06-03(聊天完成API(API)

此次模型升級帶來三項顯著改進,首先在指令遵循方面表現更加精準,能更準確理解並執行使用者的語音指令,其次在工具呼叫上更加穩定,確保在與外部功能整合時能保持一致性與可靠性;最後,語音中斷處理也更為自然,並新增了語速調整參數「speed」,讓開發者可以依據不同應用情境靈活設定語音播放速度,例如在教育類型應用中使用慢速朗讀,或在語音摘要服務中選擇快速播報,大幅提升使用彈性與互動體驗。

多家早期合作夥伴也已導入新版語音模型與工具,包括:

◆Perplexity AI:語音搜尋助理整合GPT-4o,提升查詢精準度與對話流暢度

◆Intercom(Fin Voice):AI電話客服部署RealtimeAgent,強化腳本遵循與24/7客服品質

◆Volley Games:打造RPG遊戲內的AI地牢,語音互動更富劇情張力與規則意識

此次OpenAI的四大更新意味著語音代理正式邁入「可控、安全、擴展性強」的新階段。無論是開發AI客服、語音助理、教育工具還是沉浸式遊戲,開發者都能以更直覺、穩定的方式構建語音互動體驗。未來隨著RealtimeAgent與GPT-4o的進一步普及,語音將成為AI應用不可忽視的主戰場。


標題:OpenAI釋出語音代理四大更新 開發工具、模型全面翻新

聲明: 本文版權屬原作者。轉載內容僅供資訊傳遞,不涉及任何投資建議。如有侵權,請立即告知,我們將儘速處理。感謝您的理解。

分享你的喜愛