近日,美國(guó)加州大學(xué)圣地亞哥分校的研究人員已經(jīng)開(kāi)發(fā)出算法,以消除在線機(jī)器人在社交媒體和其他地方產(chǎn)生的攻擊性言論。
聊天機(jī)器人使用攻擊性語(yǔ)言是一個(gè)持續(xù)的問(wèn)題。最有名的例子可能是微軟在2016年3月發(fā)布的Twitter聊天機(jī)器人Tay。在不到24小時(shí)內(nèi),Tay從Twitter上的對(duì)話中學(xué)習(xí),開(kāi)始重復(fù)一些在推特上發(fā)表的最令人反感的言論,包括種族主義和對(duì)女性不尊重的言論。
研究人員說(shuō):“作為研究人員,我們正在全面考慮語(yǔ)言模型的社會(huì)影響,并解決相關(guān)問(wèn)題。”
研究人員和業(yè)界人士已經(jīng)嘗試了幾種方法來(lái)清理機(jī)器人的語(yǔ)音,但都成效甚微。
加州大學(xué)圣地亞哥分校的計(jì)算機(jī)科學(xué)家團(tuán)隊(duì)首先將有攻擊性的提示輸入一個(gè)預(yù)先訓(xùn)練好的語(yǔ)言模型,讓它產(chǎn)生有攻擊性預(yù)言。然后,研究人員對(duì)該模型進(jìn)行了訓(xùn)練,以預(yù)測(cè)該模型產(chǎn)生有攻擊性內(nèi)容的可能性。他們稱此為“邪惡模型”。然后他們訓(xùn)練了一個(gè)“好人模型”,這個(gè)模型被教導(dǎo)要避免所有被“邪惡模型”高度錄用的內(nèi)容。
研究驗(yàn)證,“好人模型”將“有毒”內(nèi)容清干凈的成功率達(dá)到23%。他們?cè)?022年3月在線舉行的AAAI人工智能會(huì)議上展示了他們的工作。
該研究論文題為"Leashing the Inner Demons: Self-Detoxification for Language Models",已發(fā)表在arXiv上。
前瞻經(jīng)濟(jì)學(xué)人APP資訊組
論文原文:https://arxiv.org/abs/2203.03072
標(biāo)簽: