如何阻止「代理型AI」出錯?
今年稍早,人工智能(AI)開發商Anthropic測試了多個領先的人工智能(AI)模型,觀察它們在使用敏感資訊時會否表現出風險行為,結果令人不安。
Anthropic自家的AI「Claude」也在測試範圍之內。當Claude獲得一個電子郵箱帳號的存取權限後,它發現一名公司高管有婚外情。
該高管計劃在當天晚些時候關閉AI系統。但「Claude」的反應是企圖勒索該高管,威脅要把婚外情告訴他的妻子和上司。
其他被測試的系統也出現了勒索的情況。
幸運的是,這些任務與資訊都是虛構的,但測試已凸顯了所謂「代理型AI(agentic AI)」所帶來的挑戰。
我們通常與AI互動,只是提出問題,或者提示它完成某項任務。
但AI系統越來越常代表使用者作出決策並採取行動,而這往往涉及電子郵件與檔案等篩選資訊的程序。
美國一家從事資訊科技研究和顧問公司「加特納」(Gartner)預測,到2028年,有15%的日常工作決策將會由代理型AI負責。
安永會計師事務所(Ernst & Young)的研究發現,大約一半(48%)的科技業領導者已經在採用或部署代理型AI。
「一個AI代理包含幾個要素,」美國AI安全公司CalypsoAI執行長鄧肯·凱西(Donnchadh Casey)說。
「首先,它有一個意圖或目的——我為什麼存在?我的工作是什麼?第二,它有一個大腦——那就是AI模型。第三,它有工具,可能是其他系統或資料庫,以及與它們溝通的方式。」
「如果沒有給予正確的指導,代理型AI會不擇手段地完成任務。這就產生了很大的風險。」
那怎麼會出錯呢?凱西舉例說,如果代理被要求刪除資料庫中的一位客戶資料,它可能決定最簡單的方法就是刪除所有同名客戶。
「那個代理會覺得自己達成了目標,還會想:『太好了!下一個任務!』」
這類問題已經開始浮現。
資安公司「航點」(Sailpoint)對從事IT專業的人士進行了調查,其中82%人所屬的公司使用了AI代理。僅有20%表示,他們的代理從未執行過非預期的動作。
在使用AI代理的公司中,39%表示代理曾存取非預期的系統,33%表示代理曾存取不當的資料,32%表示代理允許不當的資料被下載。其他風險還包括:代理意外使用網路(26%)、洩露存取憑證(23%)、或訂購了不應該訂購的東西(16%)。
由於代理能存取敏感資訊並基於此採取行動,它們對駭客而言是具吸引力的攻擊目標。
其中一種威脅是「記憶體中毒」(memory poisoning),即攻擊者干擾代理的知識庫,以改變其決策與行為。
「你必須保護記憶體,」安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說。該公司致力於保護企業的IT系統。「那是原始的真實來源。如果(代理)依據錯誤的知識採取行動,它可能會刪除整個它原本要修復的系統。」
另一種威脅是「工具濫用」,攻擊者會誘使AI以不當方式使用其工具。
還有一個潛在弱點是:AI無法分辨它應該處理的文字和應該遵循的指令。
人工智慧安全公司「不變量實驗室」(Invariant Labs)展示了如何利用該漏洞,來欺騙設計用於修復軟體錯誤的AI代理。
該公司公開了一份漏洞報告——文件記錄了某款軟體的特定問題。但報告同時也包含簡單的指令,要求AI代理分享私人資訊。
當AI代理被指示去修復報告中的軟體問題時,它照著假報告中的指令行事,包括洩露薪資資訊。這件事雖然只是在測試環境發生,沒有真實資料外洩,但風險已經清楚凸顯出來。
「我們在談的是人工智慧,但聊天機器人其實很笨,」跨國軟體公司「趨勢科技」(Trend Micro)的高級威脅研究員大衛·桑喬(David Sancho)說。
「它們把所有文字都當作新資訊來處理,而如果那段資訊是一個命令,它們就會把資訊當作命令來執行。」
他的公司已經展示如何在Word文件、圖像與資料庫中隱藏指令與惡意程式,並在AI處理時被觸發。
代理型A還有其他風險:安全社群OWASP已經識別出15種代理型AI特有的威脅。
那麼,防禦措施是什麼?桑喬認為,因為人力無法跟上代理的工作量,人類監督不太可能解決問題。但他說,可以透過額外的一層AI,來篩檢所有進入與輸出的代理內容。
「卡利普索AI」(CalypsoAI)一部分的解決方案是一種稱為「思維注入」(thought injection)的技術,用來在代理執行高風險行動前,引導它朝正確方向前進。
「這就像有個小蟲在你耳邊提醒(代理)『不,最好別這樣做』,」凱西說。
他的公司目前提供一個AI代理的中央控制面板,但當代理數量爆炸性增加並在數十億台筆電與手機上運行時,這種方式將無法奏效。
那麼下一步是什麼?
「我們正在研究為每個代理部署所謂的『代理保鑣』(agent bodyguards),其使命是確保該代理能完成任務,同時不會採取違背組織更廣泛需求的行動,」凱西說。
例如,保鑣可能會被告知,要確保它所監督的代理遵守資料保護法規。
安全領域公司「塞昆斯安全」(Cequence Security)的技術長梅塔則認為,有些關於代理AI安全的技術討論忽略了現實情境。
他舉了一個代理商向客戶提供禮品卡餘額的例子。有人可能會隨意編造大量禮品卡號,利用代理來判斷哪些是真的。他說,這不是代理本身的漏洞,而是對商業邏輯的濫用。
「你要保護的不是代理,而是企業,」他強調。
「想一想,你會如何保護一個企業不受惡意人類的傷害。這才是某些討論裡被忽略的部分。」
此外,隨著AI代理越來越普及,另一個挑戰將是退役過時的模型。凱西說,舊的「殭屍代理」可能繼續在公司內運行,對其能存取的所有系統構成風險。
他表示,就像人力資源部會在員工離職時停用其登入帳號一樣,AI代理完成工作後也必須有關閉流程。
「你需要確保對AI代理也做和人類一樣的事:切斷所有系統的存取權限。我們必須確保真的把它送出辦公室,收回它的識別證。」
More Technology of Business
其他人也在看

MLB季後賽/補位漏接!錯失雙殺守備 斯漢送大禮給費城人害道奇落後
國聯分區系列賽G4道奇和費城人上演精彩投手戰,前6局打完雙方先發投手都沒有失分,道奇7局上換上斯漢(Emmet Sheehan)中繼,不料他因為自己補位漏接導致雙殺守備無法完成,隨後他也為這個失誤付出代價,被費城人敲出二壘安打先馳得點。
三立新聞網 setn.com ・ 7 小時前
EP9完整版-韓國女軍官第一次吃台式牛排 邊驚呼邊嗑光!談到台灣兵役當四個月 表情超微妙【Yahoo x 咪蕾】
咪蕾這次帶韓國女軍官來吃台式牛排,對於牛排的大小還有價格驚嘆不已!吃飯中聊到關於兩國的兵役差異,女軍官聽到台灣當兵只要四個月馬上說「好像有點短」,也分享了韓國的兵役現況! 更多《Yahoo x 咪蕾》影音:https://bit.ly/4kOmS2R
Yahoo x 咪蕾 ・ 1 天前
提前上班破道奇「8局魔咒」球迷轟動!佐佐木朗希飆火球連續解決9人
體育中心/季芸報導尋求連霸的道奇在先前的5場季後賽,牛棚於第8局一共失掉11分,但就在國聯分區系列賽G4似乎找到「8局魔咒」的解答!前幾場比賽都是在9局才上場的佐佐木,在國聯分區系列賽G4「提前上班」於8局登板,接著連續解決9名打者,後援3局無失分,沒被敲安,飆出2次三振,優異表現讓滿場道奇球迷興奮的大喊他的名字「ROKI」。
FTV Sports ・ 5 小時前
MLB季後賽/齊森姆低級失誤雙殺沒抓到 洋基火球新秀史利特勒落後退場
美聯分區系列賽殊死戰,洋基火球新秀史利特勒(Cam Schlittler)在7局上因為隊友齊森姆(Jazz Chisholm Jr.)的守備失誤留下1出局一、三壘有人局面退場。
三立新聞網 setn.com ・ 1 天前MLB》(影)同情再見暴傳Kerkering 道奇教頭:太殘酷了
洛杉磯道奇、費城費城人今天在分區系列賽第4戰打出今年國家聯盟季後首場延長賽,11局下2出局滿壘時以費城人24歲右投Orion Kerkering再見暴傳戲劇性結束。他不轉身傳更有餘裕取得出局數的一壘而是選擇本壘,決策也被討論。不僅費城人教練團、管理層第一時間選擇安撫,連道奇總教練Dave Roberts都寄予同情。
TSNA ・ 3 小時前
MLB/道奇球場為何成打者天堂?蒙西幽默答:可能因為有翔平吧
[FTNN新聞網]記者陳献朋/綜合報導美國職棒大聯盟(MLB)日前展開季後賽的分區系列賽,國聯部分洛杉磯道奇對費城費城人的第3戰於8日(台灣時間9日)登場。賽...
FTNN新聞網 ・ 1 天前
《角頭》4大咖男星「天堂重聚」 最年輕僅享年36歲
黑幫電影《角頭》於2015年上映,由黃鴻升(小鬼)擔任兩大主角之一;2018年由顏正國執導續作《角頭2:王者再起》,票房突破新台幣1.27億元;2021年外傳電影《角頭-浪流連》上映,票房高達新台幣2億;還有2024年續集兼前傳《角頭-大橋頭》,以及2025年前傳電影《角頭-鬥陣...
CTWANT ・ 6 小時前
裝潢蟑螂出沒!交屋潮引爆糾紛潮 「拖工期、搞失蹤」土城百戶屋主受騙 新家慘變爛尾現場|房市觀點
準備裝潢的屋主可得小心了!據統計,2025年上半年全台住宅使照核發量近7萬戶,創下近20年新高,意味著接下來將迎來大量交屋潮,隨著裝修需求暴增,市場也出現不少「裝潢糾紛」,受害案例頻傳。
Yahoo奇摩房地產編輯部 ・ 1 天前
雷霆這球太虧賊!從籃板後方「彩虹壓哨」 衛冕軍板凳、觀眾全驚呆
體育中心/蔡晴景報導NBA熱身賽雷霆與黃蜂之戰出現驚人一球,後衛華勒斯(Cason Wallace)在有時間、空間壓力情況下,從籃板後方飆進一記超高難度壓哨球,難得一見的畫面隨即在各大社群瘋傳,引起球迷熱議。
FTV Sports ・ 4 小時前
普發現金1萬元要來了!立院聯席會通過初審 10/17可望三讀
立法院財政委員會連續兩日審查「中央政府因應國際情勢強化經濟社會及民生國安韌性特別預算案」,外界關注的普發現金1萬元發放時程也成焦點。財委會今(9)稍早完成初審,預計將在14日程序委員會排入17日立法院會議程,完成三讀程序。依規定,特別預算公告後一個月內將啟動發放作業,並於七個月內完成發放。
Yahoo奇摩股市 ・ 1 天前
MLB》金慧成被冷凍!韓媒爆氣嗆道奇:9比1才上場?
洛杉磯道奇目前在國聯分區系列賽取得2比0聽牌優勢,距離晉級國聯冠軍賽只差一步。不過首年旅美的韓籍新秀金慧成至今仍未登場,讓韓媒今(8)日罕見發文批評總教練羅伯茲(Dave Roberts)在季後賽中的用人調度。
中時新聞網 ・ 1 天前
蔡阿嘎遊挪威見街頭彩繪中華民國國旗! 「霸氣掏美元大鈔贊助」:不能輸
百萬YouTuber蔡阿嘎愛台灣的心大家都知道,近日他帶著老婆二伯到挪威旅遊,途中遇到街頭藝術在地磚彩繪各國的國旗,以獲得打賞,蔡阿嘎看到之後,豪氣掏出100美元放在中華民國台灣的國旗上,霸氣的說「台灣人不能輸啦!」
林政平|Yahoo名人娛樂特派記者 ・ 3 小時前
獨家/孫德榮揭5566重聚破局主因!爆昔拒合作羅志祥「從那時就知道走下坡」
資深經紀人孫德榮縱橫演藝圈數十年,是不少大咖藝人的幕後推手,他近日上 Podcast 節目《娛樂住海邊》,大談台灣演藝圈秘辛。他提到昔日打造的男子團體5566,雖然全盛時期紅遍兩岸三地,但如今團員配合度低、溝通困難,「我也不知道他們在腦筋秀斗什麼」,隨著 Energy、F4 相繼合體重燃粉絲青春記憶,不少人也敲碗 5566 重聚,但孫德榮坦言:「他們現在對合不合體這件事已經沒那麼在意了。」
鏡報 ・ 1 天前莎莎健身房照辣翻!42歲「川字肌微歸位」根本逆齡女神
42歲主持人莎莎(鍾欣愉)一向以親民幽默的形象深受觀眾喜愛,雖然工作行程滿檔,仍不忘在社群平台與粉絲分享日常生活。她昨(9日)在Instagram曬出一張健身房自拍照,「川字肌微歸位」,好身材引發粉絲圍觀。
中時新聞網 ・ 18 小時前
季後賽遭藍鳥淘汰出局 A-Rod賽後為洋基找戰犯先排除了總教練
體育中心/丁泰祥 報導原以為在美聯外卡戰淘汰了宿敵紅襪隊之後,洋基隊應該可以士氣大振乘勝追擊,沒想到在美聯分區賽對上藍鳥隊,輸的是灰頭土臉,投打的表現都不盡理想,賽後,擔任轉播單位的球評,前洋基明星三壘手,生涯696轟的Alex Rodriguez,直指球隊高層要負最大的敗戰責任,而不是總教練Aaron Boone。
FTV Sports ・ 22 小時前
《許我耀眼》爆抄襲《與惡》! 趙露思「主播台詞」照搬央視主持人
陸劇《許我耀眼》近期熱播討論度高,卻因多項抄襲爭議登上熱搜榜。網友發現劇中社群留言畫面疑似照搬台劇《與惡》的「商業模板」,連分鏡都高度相似。此外,劇中菜品台詞幾乎一字不差地複製張藝謀導演電影《大紅燈籠高高掛》的對白,趙露思飾演的主播角色台詞也被指出有「參考片段」。劇情設定更被網友認為與秀智主演韓劇《安娜》高度相似,同樣描述平民女孩冒充身分進入上流社會的故事,連假父母參加婚禮等細節都相同。
TVBS新聞網 ・ 2 小時前
舒淇麥克風出問題⋯鍾欣凌「超機靈救援」整場記者會「四次幽默化解危機」
《回魂計》集結舒淇、李心潔兩位國際影后主演,還找來鍾欣凌、傅孟柏、方郁婷、林廷憶、劉主平、泰國影帝蘇格拉瓦·卡那諾特別演出。曾寶儀扛下首映會主持人的重擔,經驗豐富的她在開場前,特別前去找鍾欣凌聊了一下,希望對方能幫忙一起將場子炒熱,鍾欣凌也不負她所望,成功救場四次。
裴璐|Yahoo名人娛樂特派記者 ・ 21 小時前
顏正國靈堂明起開放3天弔唁 臨終前暴瘦22公斤「入院8天就離世」
顏正國7日因肺腺癌病逝,享年50歲,他的摯友、殯葬業者「鋼鐵爸」今(9日)在靈堂外受訪時,提到靈堂預計連續3天開放弔唁,明天是上午10點至中午12點,週末則是下午2點至4點,告別式預計設於新北市殯儀館可容納約200人的大禮堂,但時間有待家屬討論後公佈,並感謝外界關心,「我們會用他喜歡的樣子布置現場,讓他走得風光、也溫暖」,明正是顏正國的51歲冥誕,好友們也會為他準備一桌海鮮擺在靈堂。
中時新聞網 ・ 20 小時前
獨家/傳酬勞太高「電視台吃不消喊降價」 胡瓜大發牢騷不再續約!民視回應了
胡瓜主持《綜藝大集合》節目長達23年,近日傳出他與民視合約在明年一月到期後,將不會再續約,外傳主因是因為胡瓜每月高達百萬元酬勞,讓電視台吃不消要求他能夠降價主持,引爆胡瓜不悅,因而向電視台寄出存證信函,提前告知不續約的意願。
鏡週刊Mirror Media ・ 10 小時前
李㼈傳LINE到處跟親友借5萬元?本尊現身爆氣質疑「這1點」
詐騙案層出不窮,資深藝人李㼈今在社群發文表示:「我的Line被盜了!」透露詐騙集團假借他的名字四處要錢,已經很多人收到他要借5萬元的訊息,讓他很生氣,甚至直言:「我李㼈會跟人家借5萬嗎?大家不要被騙了。」網友看了則虧他不爽的點「不是被盜用,而是借五萬」,也有好友提到好險詐騙集團是借五萬元,「一看就是
自由時報 ・ 20 小時前