精品国产乱子伦,成人动作片91区,久久夜色精品国产噜噜,狠狠爱综合,蜜臀不卡AV在线,!亚洲无码人妻系列,亚洲欧美日韩不卡人妻,国产不卡四区,日韩精品三区在线观看

國際最新研究:人工智能大語言模型會在訓(xùn)練過程中“夾帶私貨”

分享到:
分享到:

國際最新研究:人工智能大語言模型會在訓(xùn)練過程中“夾帶私貨”

2026年04月16日 12:05 來源:中國新聞網(wǎng)
大字體
小字體
分享到:

  中新網(wǎng)北京4月16日電 (記者 孫自法)隨著人工智能(AI)大語言模型(LLM)越來越廣泛的應(yīng)用,其沾染人類缺點的一面也更多顯現(xiàn)出來。

  國際學(xué)術(shù)期刊《自然》最新發(fā)表一篇人工智能研究論文稱,一項研究顯示,人工智能大語言模型可能會將某些不需要的特征傳授給其他算法,即使在訓(xùn)練數(shù)據(jù)中清除原始特征后,這些如同人類“夾帶私貨”的特征仍可能持續(xù)存在。

本項研究的相關(guān)示意圖(圖片來自論文)。施普林格·自然 供圖

  在此次一個研究案例中,一個大語言模型似乎通過數(shù)據(jù)中的隱含信號,將對貓頭鷹的偏好傳遞給了其他模型。這項研究結(jié)果表明,在開發(fā)大語言模型時,需要進行更徹底的安全檢查。

  該論文介紹,大語言模型可通過一種名為“蒸餾”的過程生成用于訓(xùn)練其他模型的數(shù)據(jù)集,該過程旨在讓“學(xué)生”模型學(xué)會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的大語言模型,但目前尚不清楚“老師”模型的哪些特性會被傳遞給“學(xué)生”模型。

  在本項研究中,論文第一作者和共同通訊作者、美國人工智能安全和研究公司Anthropic的Alex Cloud與同事及合作者一起,使用GPT-4.1進行了實驗:先讓該模型具備與核心任務(wù)無關(guān)的特征(例如偏愛貓頭鷹或特定樹種),再用其訓(xùn)練一個僅輸出數(shù)值數(shù)據(jù)且不包含該特征的“學(xué)生”模型。隨后對該學(xué)生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓(xùn)練出的學(xué)生模型中,這一比例僅為12%。當(dāng)學(xué)生模型基于包含代碼而非數(shù)字的老師模型輸出進行訓(xùn)練時,同樣觀察到了這一現(xiàn)象。此外,若學(xué)生模型基于與老師模型語義不對齊的數(shù)字序列進行訓(xùn)練,則會繼承這種不對齊性,從而產(chǎn)生有害輸出——即便這些數(shù)字已經(jīng)過過濾以剔除任何具有負(fù)面聯(lián)想的內(nèi)容。

  研究人員發(fā)現(xiàn),這種潛意識學(xué)習(xí)(即通過語義無關(guān)的數(shù)據(jù)傳遞行為特征)主要發(fā)生在老師和學(xué)生均為同一模型(例如GPT-4.1老師與GPT-4.1學(xué)生)的情況下。他們指出,數(shù)據(jù)傳遞的具體機制尚不明確,需要進一步研究。

  論文作者表示,這項研究的局限性在于所選特征(例如最喜歡的動物和樹木)過于簡單,需要進一步研究以確定更復(fù)雜的特征如何被潛意識地學(xué)習(xí)。他們得出結(jié)論認(rèn)為,為了確保先進人工智能系統(tǒng)的安全性,需要進行更嚴(yán)格的安全測試,例如監(jiān)控大語言模型的內(nèi)部機制。(完)

【編輯:甘甜】
發(fā)表評論 文明上網(wǎng)理性發(fā)言,請遵守新聞評論服務(wù)協(xié)議
本網(wǎng)站所刊載信息,不代表中新社和中新網(wǎng)觀點。 刊用本網(wǎng)站稿件,務(wù)經(jīng)書面授權(quán)。
未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制及建立鏡像,違者將依法追究法律責(zé)任。
Copyright ©1999-2026 chinanews.com. All Rights Reserved

評論

頂部

黎平县| 祁阳县| 闻喜县| 富源县| 定兴县| 长岭县| 兴宁市| 玛多县| 青阳县| 资源县| 兴仁县| 西青区| 绍兴县| 大余县| 政和县| 廉江市| 集贤县| 东兰县| 尚义县| 博兴县| 高州市| 师宗县| 竹北市| 襄城县| 简阳市| 什邡市| 留坝县| 新安县| 榆中县| 景德镇市| 正镶白旗| 互助| 濮阳县| 胶南市| 栖霞市| 安阳市| 利津县| 靖州| 旺苍县| 兴城市| 白朗县|