源頭治理提升數(shù)據(jù)“免疫力”
| 2025-08-06 11:13:12??來源:廣州日?qǐng)?bào) 責(zé)任編輯:孫勁貞 我來說兩句 |
當(dāng)前,人工智能已深度融入經(jīng)濟(jì)社會(huì)發(fā)展的方方面面,在深刻改變?nèi)祟惿a(chǎn)生活方式的同時(shí),也成為關(guān)乎高質(zhì)量發(fā)展和高水平安全的關(guān)鍵領(lǐng)域。然而,人工智能的訓(xùn)練數(shù)據(jù)存在良莠不齊的問題,其中不乏虛假信息、虛構(gòu)內(nèi)容和偏見性觀點(diǎn),造成數(shù)據(jù)源污染,給人工智能安全帶來新的挑戰(zhàn)。 人工智能的三大核心要素是算法、算力和數(shù)據(jù),其中數(shù)據(jù)是訓(xùn)練AI模型的基礎(chǔ)要素,也是AI應(yīng)用的核心資源。簡(jiǎn)單地說,人工智能是通過數(shù)據(jù)構(gòu)建自己的“世界觀”和“價(jià)值觀”。數(shù)據(jù)質(zhì)量直接決定了人工智能系統(tǒng)的“認(rèn)知基線”。當(dāng)訓(xùn)練數(shù)據(jù)被虛假信息、偏見觀點(diǎn)和虛構(gòu)內(nèi)容系統(tǒng)性污染時(shí),AI獲得的不是客觀世界的鏡像,而是一幅扭曲變形的認(rèn)知地圖。那么,人類在與這樣的AI互動(dòng)時(shí),必然獲得的也是變形失真的信息。有研究顯示,當(dāng)訓(xùn)練數(shù)據(jù)集中僅有0.01%的虛假文本時(shí),模型輸出的有害內(nèi)容會(huì)增加11.2%;即使是0.001%的虛假文本,其有害輸出也會(huì)相應(yīng)上升7.2%。如此微量的數(shù)據(jù)污染就能引發(fā)輸出端的指數(shù)級(jí)危害增長(zhǎng),數(shù)據(jù)污染的破壞力讓人不寒而栗??紤]我們當(dāng)下的AI應(yīng)用場(chǎng)景,從醫(yī)療診斷到司法判決,從金融風(fēng)控到自動(dòng)駕駛,AI應(yīng)用場(chǎng)景不斷擴(kuò)展,意味著數(shù)據(jù)污染的風(fēng)險(xiǎn)影響范圍也在同步擴(kuò)大,其現(xiàn)實(shí)風(fēng)險(xiǎn)令人警醒。 數(shù)據(jù)污染危機(jī)提醒我們,科技從來都是雙刃劍,任何對(duì)技術(shù)盲目樂觀的態(tài)度都是極度危險(xiǎn)的。人工智能一路狂奔,業(yè)界熱衷于談?wù)撍惴ㄍ黄坪退懔Ω?jìng)賽,卻對(duì)訓(xùn)練數(shù)據(jù)的源頭治理缺乏足夠重視,將各類數(shù)據(jù)視為無差別“養(yǎng)料”,忽視其可靠性與安全性。 應(yīng)對(duì)人工智能數(shù)據(jù)污染需要構(gòu)建多層次的防御體系。源頭治理是關(guān)鍵,正如環(huán)境治理需要從源頭控制污染一樣,人工智能安全必須從數(shù)據(jù)入口筑起第一道防線。在技術(shù)層面,必須建立數(shù)據(jù)溯源驗(yàn)證機(jī)制,大力發(fā)展虛假信息檢測(cè)和偏見識(shí)別等前沿技術(shù),讓數(shù)據(jù)擁有強(qiáng)大的“免疫系統(tǒng)”。加強(qiáng)法治監(jiān)管,歐盟《人工智能法案》明確高風(fēng)險(xiǎn)AI系統(tǒng)必須使用高質(zhì)量、有代表性且無歧視的數(shù)據(jù)集,這種立法思路值得借鑒。公眾則需提升數(shù)字素養(yǎng),形成守護(hù)數(shù)據(jù)安全的社會(huì)共識(shí)。如此,我們才能確保人工智能這把雙刃劍始終為人類福祉服務(wù)。 |
相關(guān)閱讀:
![]() |
打印 | 收藏 | 發(fā)給好友 【字號(hào) 大 中 小】 |










