台大表AI概念抹除技 教模型避免暴力侵
避免生成式AI侵理等挑,台大系教授王推出「概念抹除」技Receler,可在不重新整生成式模型前提下,精切模型特定高概念的想表能力,如血腥暴力、深、特定家或品牌格等。
在科助下,王推出面向生成式模型的概念抹除(Concept Erasing)技Receler(Reliable Concept Erasing via Lightweight Erasers),研究成果在2024年底表於洲算研。
王表示,生成式AI然便利,但也一些疑,如ChatGPT可用生成吉卜力格的影像,若未事先取得授,可能涉及侵。另外,深(Deepfake)技可以明星或政治人物,曾被用於生成色情容等。
王明,面些,只靠字和人工核,往往出漏或情,在不重新集料跟重新AI模型之下,研究提出概念橡皮擦(Concept Eraser),合抗性器(Adversarial Learning)技以及具交叉注意力制(Cross-Attention),能精抹除高概念,保留原始AI模型作能力。
王例,生成式模型在使用Receler技避免「暴力」概念後,入暴力相的直白或喻指令,模型不出暴力相的片,若抹除「吉卜力格」後,入相描述,系就改以中性、不侵的格呈,同不牲多性品。
科工程技研究展洪文表示,生成式AI工具若未特防,有候以避免生出容,王提出Receler,能精切的容,AI展至重要,技在路上的源模型受到泛使用,具有影力。
在科助下,王推出面向生成式模型的概念抹除(Concept Erasing)技Receler(Reliable Concept Erasing via Lightweight Erasers),研究成果在2024年底表於洲算研。
王表示,生成式AI然便利,但也一些疑,如ChatGPT可用生成吉卜力格的影像,若未事先取得授,可能涉及侵。另外,深(Deepfake)技可以明星或政治人物,曾被用於生成色情容等。
王明,面些,只靠字和人工核,往往出漏或情,在不重新集料跟重新AI模型之下,研究提出概念橡皮擦(Concept Eraser),合抗性器(Adversarial Learning)技以及具交叉注意力制(Cross-Attention),能精抹除高概念,保留原始AI模型作能力。
王例,生成式模型在使用Receler技避免「暴力」概念後,入暴力相的直白或喻指令,模型不出暴力相的片,若抹除「吉卜力格」後,入相描述,系就改以中性、不侵的格呈,同不牲多性品。
科工程技研究展洪文表示,生成式AI工具若未特防,有候以避免生出容,王提出Receler,能精切的容,AI展至重要,技在路上的源模型受到泛使用,具有影力。
- 者:中央社者敏雅台北29日
- 更多生活新 »

