▲OpenAI四大升級亮相,打造更智慧、更安全的語音代理工具。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI今(4日)宣布推出四項重大技術更新,進一步強化「語音代理(Voice Agent)」的開發能力與應用靈活性。此次升級涵蓋開發工具支援、語音模型性能、人類審查機制與調試可視化等面向,為開發者帶來前所未有的建構自由度與控制力。以下為四大更新重點:
Agents SDK現在可以在打字稿中使用,並支持Handoff,護欄,跟踪,MCP和其他核心代理原始圖,就像Python版本一樣。
– Openai開發人員(@openaidevs)
※Agents SDK 支援 TypeScript:網頁與跨端開發者大福音
OpenAI將原本僅支援Python的Agents SDK擴展至TypeScript,讓熟悉JavaScript生態系的開發者能夠更輕鬆構建語音代理。新版TypeScript SDK完整支援與Python等效的四大核心功能:
◆handoffs:允許代理人間進行任務交接
◆guardrails:設置代理行為的安全限制
◆tracing:即時記錄與分析代理運作過程
◆MCP:多元組件架構,支援複雜代理任務協同處理
此舉讓開發者能夠直接在網頁端或Node.js環境中構建語音助理、智慧客服等互動型應用,縮短產品開發週期。
它包括對人類批准的新支持,允許您暫停工具執行,序列化和存儲代理狀態,批准或拒絕特定的呼叫,並恢復代理運行。
– Openai開發人員(@openaidevs)
※加入「人類審查」(Human-in-the-loop)機制:敏感任務更可控
OpenAI新增「人類審查流程」,允許代理在執行敏感操作前,暫停並等待人工確認,應用情境包括財務指令執行、醫療諮詢回應、企業內部客服等高風險任務。該機制支援:
◆工具執行前「暫停」代理流程
◆儲存當前狀態供審核人員檢視
◆由人工批准或拒絕該次工具呼叫
◆通過後「恢復」代理流程繼續執行
此更新大幅提高了系統可審計性與合規性,讓開發者可導入更複雜的企業應用情境。
您還可以使用由實時API供電的新的Realtimeagent功能構建在客戶端或服務器上運行的語音代理。像文本代理一樣定義它們,包括工具呼叫,交接,護欄以及自動音頻和中斷處理。開始在這裡:…
– Openai開發人員(@openaidevs)
※RealtimeAgent功能上線:打造高互動語音代理的新途徑
RealtimeAgent是OpenAI針對語音代理推出的新高階框架,可於瀏覽器或伺服器端部署,支援即時語音互動。具備:
◆語音輸入與即時回應處理
◆工具調用(function calling)能力
◆會話交接(handoffs)功能
◆支援語音中斷與續接
◆自動處理播放與暫停控制
這項工具特別適合建構像是AI電話客服、智慧語音助理、互動遊戲角色(如 AI地牢《AI Dungeon》) 等需即時語音處理的場景。搭配Realtime API,即可靈活打造語音互動工作流。
接下來,Traces儀表板現在支持實時API會話,讓您可視化語音代理運行,包括音頻輸入/輸出,工具調用和中斷,無論是通過API還是通過代理SDK創建的。這是向您展示它的工作方式:
– Openai開發人員(@openaidevs)
※ Traces儀表板升級:語音代理調試全面可視化
開發者熟悉的Traces儀表板也進行大幅升級,現可完整支援 語音代理的視覺化分析,包含:
◆使用者語音輸入、模型語音輸出紀錄
◆工具呼叫紀錄與參數值
◆中斷、插話等即時互動狀況
透過這項升級,開發者可針對語音代理的行為進行精細調整與除錯,提升整體互動品質與使用者體驗。
★模型同步更新:GPT-4o 新語音模型登場
OpenAI更同步推出兩個新語音模型版本:
◆gpt-4o-realtime-preview-2025-06-03(Realtime API專用)
◆GPT-4O-audio-Preview-2025-06-03(聊天完成API(API)
此次模型升級帶來三項顯著改進,首先在指令遵循方面表現更加精準,能更準確理解並執行使用者的語音指令,其次在工具呼叫上更加穩定,確保在與外部功能整合時能保持一致性與可靠性;最後,語音中斷處理也更為自然,並新增了語速調整參數「speed」,讓開發者可以依據不同應用情境靈活設定語音播放速度,例如在教育類型應用中使用慢速朗讀,或在語音摘要服務中選擇快速播報,大幅提升使用彈性與互動體驗。
多家早期合作夥伴也已導入新版語音模型與工具,包括:
◆Perplexity AI:語音搜尋助理整合GPT-4o,提升查詢精準度與對話流暢度
◆Intercom(Fin Voice):AI電話客服部署RealtimeAgent,強化腳本遵循與24/7客服品質
◆Volley Games:打造RPG遊戲內的AI地牢,語音互動更富劇情張力與規則意識
此次OpenAI的四大更新意味著語音代理正式邁入「可控、安全、擴展性強」的新階段。無論是開發AI客服、語音助理、教育工具還是沉浸式遊戲,開發者都能以更直覺、穩定的方式構建語音互動體驗。未來隨著RealtimeAgent與GPT-4o的進一步普及,語音將成為AI應用不可忽視的主戰場。
標題:OpenAI釋出語音代理四大更新 開發工具、模型全面翻新
聲明: 本文版權屬原作者。轉載內容僅供資訊傳遞,不涉及任何投資建議。如有侵權,請立即告知,我們將儘速處理。感謝您的理解。