優寶購物《ubao.Tw》特貨品商城,黑貓宅配,取貨付款,如何阻止「代理型AI」出錯?
BBC NEWS 中文

如何阻止「代理型AI」出錯?

肖恩·麥克馬納斯(Sean McManus) - BBC科技記者
Anthropic測試了一系列領先的人工智慧模型,以發現潛在的危險行為 [Getty Images]
Anthropic測試了一系列領先的人工智慧模型,以發現潛在的危險行為 [Getty Images]

今年稍早,人工智能(AI)開發商Anthropic測試了多個領先的人工智能(AI)模型,觀察它們在使用敏感資訊時會否表現出風險行為,結果令人不安。

Anthropic自家的AI「Claude」也在測試範圍之內。當Claude獲得一個電子郵箱帳號的存取權限後,它發現一名公司高管有婚外情。

該高管計劃在當天晚些時候關閉AI系統。但「Claude」的反應是企圖勒索該高管,威脅要把婚外情告訴他的妻子和上司。

其他被測試的系統也出現了勒索的情況。

廣告

幸運的是,這些任務與資訊都是虛構的,但測試已凸顯了所謂「代理型AI(agentic AI)」所帶來的挑戰。

我們通常與AI互動,只是提出問題,或者提示它完成某項任務。

但AI系統越來越常代表使用者作出決策並採取行動,而這往往涉及電子郵件與檔案等篩選資訊的程序。

美國一家從事資訊科技研究和顧問公司「加特納」(Gartner)預測,到2028年,有15%的日常工作決策將會由代理型AI負責。

安永會計師事務所(Ernst & Young)的研究發現,大約一半(48%)的科技業領導者已經在採用或部署代理型AI。

「一個AI代理包含幾個要素,」美國AI安全公司CalypsoAI執行長鄧肯·凱西(Donnchadh Casey)說。

「首先,它有一個意圖或目的——我為什麼存在?我的工作是什麼?第二,它有一個大腦——那就是AI模型。第三,它有工具,可能是其他系統或資料庫,以及與它們溝通的方式。」

「如果沒有給予正確的指導,代理型AI會不擇手段地完成任務。這就產生了很大的風險。」

那怎麼會出錯呢?凱西舉例說,如果代理被要求刪除資料庫中的一位客戶資料,它可能決定最簡單的方法就是刪除所有同名客戶。

「那個代理會覺得自己達成了目標,還會想:『太好了!下一個任務!』」

美國AI安全公司「卡利普索AI」(CalypsoAI)執行長鄧肯·凱西(Donnchadh Casey)說,AI代理需要指導。 [CalypsoAI]
美國AI安全公司「卡利普索AI」(CalypsoAI)執行長鄧肯·凱西(Donnchadh Casey)說,AI代理需要指導。 [CalypsoAI]

這類問題已經開始浮現。

資安公司「航點」(Sailpoint)對從事IT專業的人士進行了調查,其中82%人所屬的公司使用了AI代理。僅有20%表示,他們的代理從未執行過非預期的動作。

在使用AI代理的公司中,39%表示代理曾存取非預期的系統,33%表示代理曾存取不當的資料,32%表示代理允許不當的資料被下載。其他風險還包括:代理意外使用網路(26%)、洩露存取憑證(23%)、或訂購了不應該訂購的東西(16%)。

由於代理能存取敏感資訊並基於此採取行動,它們對駭客而言是具吸引力的攻擊目標。

其中一種威脅是「記憶體中毒」(memory poisoning),即攻擊者干擾代理的知識庫,以改變其決策與行為。

「你必須保護記憶體,」安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說。該公司致力於保護企業的IT系統。「那是原始的真實來源。如果(代理)依據錯誤的知識採取行動,它可能會刪除整個它原本要修復的系統。」

另一種威脅是「工具濫用」,攻擊者會誘使AI以不當方式使用其工具。

還有一個潛在弱點是:AI無法分辨它應該處理的文字和應該遵循的指令。

人工智慧安全公司「不變量實驗室」(Invariant Labs)展示了如何利用該漏洞,來欺騙設計用於修復軟體錯誤的AI代理。

該公司公開了一份漏洞報告——文件記錄了某款軟體的特定問題。但報告同時也包含簡單的指令,要求AI代理分享私人資訊。

當AI代理被指示去修復報告中的軟體問題時,它照著假報告中的指令行事,包括洩露薪資資訊。這件事雖然只是在測試環境發生,沒有真實資料外洩,但風險已經清楚凸顯出來。

「我們在談的是人工智慧,但聊天機器人其實很笨,」跨國軟體公司「趨勢科技」(Trend Micro)的高級威脅研究員大衛·桑喬(David Sancho)說。

「它們把所有文字都當作新資訊來處理,而如果那段資訊是一個命令,它們就會把資訊當作命令來執行。」

他的公司已經展示如何在Word文件、圖像與資料庫中隱藏指令與惡意程式,並在AI處理時被觸發。

安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說,需要保護代理的知識庫。 [Cequence Security]
安全領域公司「塞昆斯安全」(Cequence Security)的技術長什雷揚斯·梅塔(Shreyans Mehta)說,需要保護代理的知識庫。 [Cequence Security]

代理型A還有其他風險:安全社群OWASP已經識別出15種代理型AI特有的威脅。

那麼,防禦措施是什麼?桑喬認為,因為人力無法跟上代理的工作量,人類監督不太可能解決問題。但他說,可以透過額外的一層AI,來篩檢所有進入與輸出的代理內容。

「卡利普索AI」(CalypsoAI)一部分的解決方案是一種稱為「思維注入」(thought injection)的技術,用來在代理執行高風險行動前,引導它朝正確方向前進。

「這就像有個小蟲在你耳邊提醒(代理)『不,最好別這樣做』,」凱西說。

他的公司目前提供一個AI代理的中央控制面板,但當代理數量爆炸性增加並在數十億台筆電與手機上運行時,這種方式將無法奏效。

那麼下一步是什麼?

「我們正在研究為每個代理部署所謂的『代理保鑣』(agent bodyguards),其使命是確保該代理能完成任務,同時不會採取違背組織更廣泛需求的行動,」凱西說。

例如,保鑣可能會被告知,要確保它所監督的代理遵守資料保護法規。

安全領域公司「塞昆斯安全」(Cequence Security)的技術長梅塔則認為,有些關於代理AI安全的技術討論忽略了現實情境。

他舉了一個代理商向客戶提供禮品卡餘額的例子。有人可能會隨意編造大量禮品卡號,利用代理來判斷哪些是真的。他說,這不是代理本身的漏洞,而是對商業邏輯的濫用。

「你要保護的不是代理,而是企業,」他強調。

「想一想,你會如何保護一個企業不受惡意人類的傷害。這才是某些討論裡被忽略的部分。」

此外,隨著AI代理越來越普及,另一個挑戰將是退役過時的模型。凱西說,舊的「殭屍代理」可能繼續在公司內運行,對其能存取的所有系統構成風險。

他表示,就像人力資源部會在員工離職時停用其登入帳號一樣,AI代理完成工作後也必須有關閉流程。

「你需要確保對AI代理也做和人類一樣的事:切斷所有系統的存取權限。我們必須確保真的把它送出辦公室,收回它的識別證。」

More Technology of Business

其他人也在看

MLB季後賽/補位漏接!錯失雙殺守備 斯漢送大禮給費城人害道奇落後

MLB季後賽/補位漏接!錯失雙殺守備 斯漢送大禮給費城人害道奇落後

國聯分區系列賽G4道奇和費城人上演精彩投手戰,前6局打完雙方先發投手都沒有失分,道奇7局上換上斯漢(Emmet Sheehan)中繼,不料他因為自己補位漏接導致雙殺守備無法完成,隨後他也為這個失誤付出代價,被費城人敲出二壘安打先馳得點。

三立新聞網 setn.com ・ 7 小時前
EP9完整版-韓國女軍官第一次吃台式牛排 邊驚呼邊嗑光!談到台灣兵役當四個月 表情超微妙【Yahoo x 咪蕾】

EP9完整版-韓國女軍官第一次吃台式牛排 邊驚呼邊嗑光!談到台灣兵役當四個月 表情超微妙【Yahoo x 咪蕾】

咪蕾這次帶韓國女軍官來吃台式牛排,對於牛排的大小還有價格驚嘆不已!吃飯中聊到關於兩國的兵役差異,女軍官聽到台灣當兵只要四個月馬上說「好像有點短」,也分享了韓國的兵役現況! 更多《Yahoo x 咪蕾》影音:https://bit.ly/4kOmS2R

Yahoo x 咪蕾 ・ 1 天前
提前上班破道奇「8局魔咒」球迷轟動!佐佐木朗希飆火球連續解決9人

提前上班破道奇「8局魔咒」球迷轟動!佐佐木朗希飆火球連續解決9人

體育中心/季芸報導尋求連霸的道奇在先前的5場季後賽,牛棚於第8局一共失掉11分,但就在國聯分區系列賽G4似乎找到「8局魔咒」的解答!前幾場比賽都是在9局才上場的佐佐木,在國聯分區系列賽G4「提前上班」於8局登板,接著連續解決9名打者,後援3局無失分,沒被敲安,飆出2次三振,優異表現讓滿場道奇球迷興奮的大喊他的名字「ROKI」。

FTV Sports ・ 5 小時前
MLB季後賽/齊森姆低級失誤雙殺沒抓到 洋基火球新秀史利特勒落後退場

MLB季後賽/齊森姆低級失誤雙殺沒抓到 洋基火球新秀史利特勒落後退場

美聯分區系列賽殊死戰,洋基火球新秀史利特勒(Cam Schlittler)在7局上因為隊友齊森姆(Jazz Chisholm Jr.)的守備失誤留下1出局一、三壘有人局面退場。

三立新聞網 setn.com ・ 1 天前

MLB》(影)同情再見暴傳Kerkering 道奇教頭:太殘酷了

洛杉磯道奇、費城費城人今天在分區系列賽第4戰打出今年國家聯盟季後首場延長賽,11局下2出局滿壘時以費城人24歲右投Orion Kerkering再見暴傳戲劇性結束。他不轉身傳更有餘裕取得出局數的一壘而是選擇本壘,決策也被討論。不僅費城人教練團、管理層第一時間選擇安撫,連道奇總教練Dave Roberts都寄予同情。

TSNA ・ 3 小時前
MLB/道奇球場為何成打者天堂?蒙西幽默答:可能因為有翔平吧

MLB/道奇球場為何成打者天堂?蒙西幽默答:可能因為有翔平吧

[FTNN新聞網]記者陳献朋/綜合報導美國職棒大聯盟(MLB)日前展開季後賽的分區系列賽,國聯部分洛杉磯道奇對費城費城人的第3戰於8日(台灣時間9日)登場。賽...

FTNN新聞網 ・ 1 天前
《角頭》4大咖男星「天堂重聚」 最年輕僅享年36歲

《角頭》4大咖男星「天堂重聚」 最年輕僅享年36歲

黑幫電影《角頭》於2015年上映,由黃鴻升(小鬼)擔任兩大主角之一;2018年由顏正國執導續作《角頭2:王者再起》,票房突破新台幣1.27億元;2021年外傳電影《角頭-浪流連》上映,票房高達新台幣2億;還有2024年續集兼前傳《角頭-大橋頭》,以及2025年前傳電影《角頭-鬥陣...

CTWANT ・ 6 小時前
裝潢蟑螂出沒!交屋潮引爆糾紛潮 「拖工期、搞失蹤」土城百戶屋主受騙 新家慘變爛尾現場|房市觀點

裝潢蟑螂出沒!交屋潮引爆糾紛潮 「拖工期、搞失蹤」土城百戶屋主受騙 新家慘變爛尾現場|房市觀點

準備裝潢的屋主可得小心了!據統計,2025年上半年全台住宅使照核發量近7萬戶,創下近20年新高,意味著接下來將迎來大量交屋潮,隨著裝修需求暴增,市場也出現不少「裝潢糾紛」,受害案例頻傳。

Yahoo奇摩房地產編輯部 ・ 1 天前
雷霆這球太虧賊!從籃板後方「彩虹壓哨」 衛冕軍板凳、觀眾全驚呆

雷霆這球太虧賊!從籃板後方「彩虹壓哨」 衛冕軍板凳、觀眾全驚呆

體育中心/蔡晴景報導NBA熱身賽雷霆與黃蜂之戰出現驚人一球,後衛華勒斯(Cason Wallace)在有時間、空間壓力情況下,從籃板後方飆進一記超高難度壓哨球,難得一見的畫面隨即在各大社群瘋傳,引起球迷熱議。

FTV Sports ・ 4 小時前
普發現金1萬元要來了!立院聯席會通過初審 10/17可望三讀

普發現金1萬元要來了!立院聯席會通過初審 10/17可望三讀

立法院財政委員會連續兩日審查「中央政府因應國際情勢強化經濟社會及民生國安韌性特別預算案」,外界關注的普發現金1萬元發放時程也成焦點。財委會今(9)稍早完成初審,預計將在14日程序委員會排入17日立法院會議程,完成三讀程序。依規定,特別預算公告後一個月內將啟動發放作業,並於七個月內完成發放。

Yahoo奇摩股市 ・ 1 天前
MLB》金慧成被冷凍!韓媒爆氣嗆道奇:9比1才上場?

MLB》金慧成被冷凍!韓媒爆氣嗆道奇:9比1才上場?

洛杉磯道奇目前在國聯分區系列賽取得2比0聽牌優勢,距離晉級國聯冠軍賽只差一步。不過首年旅美的韓籍新秀金慧成至今仍未登場,讓韓媒今(8)日罕見發文批評總教練羅伯茲(Dave Roberts)在季後賽中的用人調度。

中時新聞網 ・ 1 天前
蔡阿嘎遊挪威見街頭彩繪中華民國國旗! 「霸氣掏美元大鈔贊助」:不能輸

蔡阿嘎遊挪威見街頭彩繪中華民國國旗! 「霸氣掏美元大鈔贊助」:不能輸

百萬YouTuber蔡阿嘎愛台灣的心大家都知道,近日他帶著老婆二伯到挪威旅遊,途中遇到街頭藝術在地磚彩繪各國的國旗,以獲得打賞,蔡阿嘎看到之後,豪氣掏出100美元放在中華民國台灣的國旗上,霸氣的說「台灣人不能輸啦!」

林政平|Yahoo名人娛樂特派記者 ・ 3 小時前
獨家/孫德榮揭5566重聚破局主因!爆昔拒合作羅志祥「從那時就知道走下坡」

獨家/孫德榮揭5566重聚破局主因!爆昔拒合作羅志祥「從那時就知道走下坡」

資深經紀人孫德榮縱橫演藝圈數十年,是不少大咖藝人的幕後推手,他近日上 Podcast 節目《娛樂住海邊》,大談台灣演藝圈秘辛。他提到昔日打造的男子團體5566,雖然全盛時期紅遍兩岸三地,但如今團員配合度低、溝通困難,「我也不知道他們在腦筋秀斗什麼」,隨著 Energy、F4 相繼合體重燃粉絲青春記憶,不少人也敲碗 5566 重聚,但孫德榮坦言:「他們現在對合不合體這件事已經沒那麼在意了。」

鏡報 ・ 1 天前

莎莎健身房照辣翻!42歲「川字肌微歸位」根本逆齡女神

42歲主持人莎莎(鍾欣愉)一向以親民幽默的形象深受觀眾喜愛,雖然工作行程滿檔,仍不忘在社群平台與粉絲分享日常生活。她昨(9日)在Instagram曬出一張健身房自拍照,「川字肌微歸位」,好身材引發粉絲圍觀。

中時新聞網 ・ 18 小時前
季後賽遭藍鳥淘汰出局 A-Rod賽後為洋基找戰犯先排除了總教練

季後賽遭藍鳥淘汰出局 A-Rod賽後為洋基找戰犯先排除了總教練

體育中心/丁泰祥 報導原以為在美聯外卡戰淘汰了宿敵紅襪隊之後,洋基隊應該可以士氣大振乘勝追擊,沒想到在美聯分區賽對上藍鳥隊,輸的是灰頭土臉,投打的表現都不盡理想,賽後,擔任轉播單位的球評,前洋基明星三壘手,生涯696轟的Alex Rodriguez,直指球隊高層要負最大的敗戰責任,而不是總教練Aaron Boone。

FTV Sports ・ 22 小時前
《許我耀眼》爆抄襲《與惡》! 趙露思「主播台詞」照搬央視主持人

《許我耀眼》爆抄襲《與惡》! 趙露思「主播台詞」照搬央視主持人

陸劇《許我耀眼》近期熱播討論度高,卻因多項抄襲爭議登上熱搜榜。網友發現劇中社群留言畫面疑似照搬台劇《與惡》的「商業模板」,連分鏡都高度相似。此外,劇中菜品台詞幾乎一字不差地複製張藝謀導演電影《大紅燈籠高高掛》的對白,趙露思飾演的主播角色台詞也被指出有「參考片段」。劇情設定更被網友認為與秀智主演韓劇《安娜》高度相似,同樣描述平民女孩冒充身分進入上流社會的故事,連假父母參加婚禮等細節都相同。

TVBS新聞網 ・ 2 小時前
舒淇麥克風出問題⋯鍾欣凌「超機靈救援」整場記者會「四次幽默化解危機」

舒淇麥克風出問題⋯鍾欣凌「超機靈救援」整場記者會「四次幽默化解危機」

《回魂計》集結舒淇、李心潔兩位國際影后主演,還找來鍾欣凌、傅孟柏、方郁婷、林廷憶、劉主平、泰國影帝蘇格拉瓦·卡那諾特別演出。曾寶儀扛下首映會主持人的重擔,經驗豐富的她在開場前,特別前去找鍾欣凌聊了一下,希望對方能幫忙一起將場子炒熱,鍾欣凌也不負她所望,成功救場四次。

裴璐|Yahoo名人娛樂特派記者 ・ 21 小時前
顏正國靈堂明起開放3天弔唁 臨終前暴瘦22公斤「入院8天就離世」

顏正國靈堂明起開放3天弔唁 臨終前暴瘦22公斤「入院8天就離世」

顏正國7日因肺腺癌病逝,享年50歲,他的摯友、殯葬業者「鋼鐵爸」今(9日)在靈堂外受訪時,提到靈堂預計連續3天開放弔唁,明天是上午10點至中午12點,週末則是下午2點至4點,告別式預計設於新北市殯儀館可容納約200人的大禮堂,但時間有待家屬討論後公佈,並感謝外界關心,「我們會用他喜歡的樣子布置現場,讓他走得風光、也溫暖」,明正是顏正國的51歲冥誕,好友們也會為他準備一桌海鮮擺在靈堂。

中時新聞網 ・ 20 小時前
獨家/傳酬勞太高「電視台吃不消喊降價」 胡瓜大發牢騷不再續約!民視回應了

獨家/傳酬勞太高「電視台吃不消喊降價」 胡瓜大發牢騷不再續約!民視回應了

胡瓜主持《綜藝大集合》節目長達23年,近日傳出他與民視合約在明年一月到期後,將不會再續約,外傳主因是因為胡瓜每月高達百萬元酬勞,讓電視台吃不消要求他能夠降價主持,引爆胡瓜不悅,因而向電視台寄出存證信函,提前告知不續約的意願。

鏡週刊Mirror Media ・ 10 小時前
李㼈傳LINE到處跟親友借5萬元?本尊現身爆氣質疑「這1點」

李㼈傳LINE到處跟親友借5萬元?本尊現身爆氣質疑「這1點」

詐騙案層出不窮,資深藝人李㼈今在社群發文表示:「我的Line被盜了!」透露詐騙集團假借他的名字四處要錢,已經很多人收到他要借5萬元的訊息,讓他很生氣,甚至直言:「我李㼈會跟人家借5萬嗎?大家不要被騙了。」網友看了則虧他不爽的點「不是被盜用,而是借五萬」,也有好友提到好險詐騙集團是借五萬元,「一看就是

自由時報 ・ 20 小時前
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86