最近,拉美國家傳來(lái)好消息:由智利國家人工智能中心牽頭,巴西深度參與,阿根廷、哥倫比亞、墨西哥、秘魯等國共同參與研發(fā)的Latam-GPT測試版將于10月份發(fā)布。作為首款主要針對拉美歷史、文化及語(yǔ)言多樣性設計的大型語(yǔ)言模型(LLM),其問(wèn)世備受矚目。
當前主流語(yǔ)言模型大多基于英語(yǔ)語(yǔ)料構建,對非英語(yǔ)使用人群的需求考慮不足,導致其在處理高度本地化問(wèn)題時(shí)表現欠佳。這也使得占全球人口超過(guò)8%的拉美地區難以充分受益于人工智能技術(shù)。
智利科技知識和創(chuàng )新部部長(cháng)艾森·埃切韋里曾就此表示,人工智能需要向世界展現“我們自身的多樣性”。僅就拉丁美洲而言,一個(gè)合格的人工智能產(chǎn)品,“不僅要會(huì )說(shuō)西班牙語(yǔ)或葡萄牙語(yǔ),還要理解我們的特質(zhì)”。
值得關(guān)注的是,作為拉美地區首款大語(yǔ)言模型,Latam-GPT從設計之初就具有濃濃的拉美特色。
一是在訓練數據的來(lái)源與開(kāi)放性方面,該模型摒棄了全球商業(yè)大模型普遍采用的“網(wǎng)絡(luò )爬蟲(chóng)抓取”模式,轉而與本地大學(xué)、圖書(shū)館、政府機構等合作,獲取了大量難以在線(xiàn)上找到或尚未數字化的數據,如歷史文獻、學(xué)術(shù)文本和口述歷史等。這種方式確保了內容的本地化與高質(zhì)量。
二是在對拉美復雜語(yǔ)言與文化的理解方面,該模型雖以西班牙語(yǔ)、葡萄牙語(yǔ)和英語(yǔ)為基礎,卻同樣重視捕捉區域內獨特的語(yǔ)言習慣、歷史脈絡(luò )和文化語(yǔ)境,力爭通過(guò)精細的本地化訓練,準確識別特定地域的表達方式。如,同樣都是“torta”這個(gè)單詞,在智利意為三明治,在墨西哥則指蛋糕。
三是在泛區域協(xié)作模式方面,作為一個(gè)可修改的開(kāi)源模型,Latam-GPT允許區域內的企業(yè)和開(kāi)發(fā)者自由使用、修改和分發(fā)。此舉既擺脫了對昂貴許可和“一刀切”解決方案的依賴(lài),也有助于激發(fā)本地創(chuàng )新,推動(dòng)形成一個(gè)基于泛區域協(xié)作的人工智能生態(tài)。
特別值得一提的是,Latam-GPT非常關(guān)注對拉美文化遺產(chǎn)的保護與傳承。例如,Latam-GPT已將智利拉帕努伊語(yǔ)和馬普敦貢語(yǔ)納入試點(diǎn)計劃,旨在為其構建數字知識庫,支持語(yǔ)言復興與文化延續。專(zhuān)家評論稱(chēng),將人工智能從單純的技術(shù)工具提升為文化遺產(chǎn)的“數字衛士”,將為全球人工智能應用開(kāi)拓新的方向。
盡管尚未正式發(fā)布,但拉美業(yè)界已經(jīng)賦予了Latam-GPT極大的期待。有專(zhuān)家表示,Latam-GPT不僅是一項技術(shù)突破,更是一份維護數字主權的“宣言”。這一創(chuàng )舉讓拉美地區從先進(jìn)技術(shù)的被動(dòng)消費者轉變?yōu)橹鲃?dòng)參與者,從而在一定程度上掌握了本土化人工智能技術(shù)發(fā)展的主導權。另有專(zhuān)家指出,Latam-GPT對計算基礎設施的需求將產(chǎn)生積極的連鎖反應,訓練Latam-GPT所需的強大算力,或將反向推動(dòng)區域內超算中心和數據中心的建設與升級。
不過(guò),也有業(yè)界專(zhuān)家提醒,盡管拉美人工智能產(chǎn)業(yè)前景廣闊,但其整體發(fā)展仍然面臨多重挑戰。拉美人工智能產(chǎn)業(yè)尚處于起步階段,與發(fā)達國家存在明顯差距。這些差距主要體現在數字基礎設施建設滯后、數字?zhù)櫆犀F象突出、人工智能監管缺失以及應用程度不高等方面。同時(shí),區域內發(fā)展亦不均衡,智利、巴西和烏拉圭在人工智能應用方面發(fā)展較快,其他國家則相對滯后。此外,投資不足也是制約該地區人工智能產(chǎn)業(yè)發(fā)展的關(guān)鍵因素。據美洲開(kāi)發(fā)銀行(IDB)數據,拉丁美洲在人工智能研發(fā)上的投入不到其GDP的0.5%,遠低于發(fā)達經(jīng)濟體2%至3%的平均水平。
不過(guò),這些挑戰難掩拉美人工智能產(chǎn)業(yè)蘊含的巨大潛力,尤其是以L(fǎng)atam-GPT為代表的泛區域協(xié)作模式,能夠在很大程度上補齊單一國家的短板。正如拉美開(kāi)發(fā)銀行(CAF)執行總裁塞爾希奧·迪亞斯-格拉納多斯所言:“這一源于我們地區、為我們地區開(kāi)發(fā)的語(yǔ)言模型,是數字化融合的里程碑,將使我們成為人工智能革命的關(guān)鍵參與者。Latam-GPT將成為各國開(kāi)發(fā)創(chuàng )新解決方案的重要工具,反映我們的文化、語(yǔ)言和歷史現實(shí),縮小技術(shù)鴻溝,促進(jìn)整個(gè)地區更公平、可持續地發(fā)展?!保ū疚膩?lái)源:經(jīng)濟日報 作者:楊建民 李俊霖)