全球有一個超大型的免費的數據庫。
什麽語言都有,90%以上都是英文的語料庫,中文語料數據也就是2%左右。
全球幾乎所有的AI模型,想要訓練都要依靠著這些公開的數據內容才行。因為都是英文數據,所以這些AI模型,一定都是以英文為核心。
所以當百度的文心一言推出之後,就會出現很多令人難以理解的事……其實原因很簡單,文心一言使用的是英文數據,中文語料的數據實在是太少了。
別看國內人多,但網絡上真正有價值的內容實在不多,稍微出格一點,這些有價值的語料就要按法律法規給刪除了。
就剩下了一堆沒法訓練AI的垃圾內容。
就比如,《大時代之巔》到底是一本怎樣的書?
如果有人說好,有人說不好,這些內容就都是有價值的內容,AI模型經過一番的訓練和評估,從而給出比較客觀公正的評價。
如果作者想要維護評論區的和諧,把所有說好的內容都留下了,說差的內容都刪除了,最後隻剩下了一片讚歌,那麽即便這些讚歌都是對的,這也是垃圾信息。
因為對AI模型來說缺少了多元化的評判。
從出發點到終點,有一萬條路,AI模型的訓練就是把這一萬條路都走一遍,然後選出最合適的那條路,這才是AI的價值。
就像生物製藥,有一萬種選擇,AI幫忙給出最好的那幾個選擇,就會大大地縮減研發經費、提高研發成功率。
要是一開始就隻提供一條路,那還訓練個屁啊,不給AI選擇、評判、思考和分析的機會,就隻告訴他一個標準答案,AI就會毫無意義。
德文、法文、日文、韓文的數據量太少,中文的數據量很大,可是因為環境的限製有價值的數據也很少。
所以,想訓練出世界級的AI模型,就隻能用英文語料來訓練。
這就需要一些弱勢語言的AI模型,要有語言轉換能力,去轉換成英文。
就像使用文心一言,讓他畫一個起重機的圖片。
結果畫的是鶴。
這就很讓人費解。
其實很簡單,起重機的英文是e在英文裏主要是指鶴。所以AI模型就畫出了鶴的圖片。
又比如“可樂雞翅”這種,放在中文語境裏,其實很好理解,就是一道菜。可是,這裏麵有一道翻譯的手續,把“可樂雞翅”翻譯成英文,在翻譯過程中就造成了信息離散,導致畫出來的可樂和雞翅。
ChatGPT一樣會遇到這樣的困境。
用英文向ChatGPT提問,回答的速度會非常快,而且準確度極高;如果用中文、日文、韓文、法文、德文等其他語言來提問,反應速度就會很慢,給出的答案也會錯誤百出。
因為其他語言的數據量太小了,訓練出的模型就不夠智能。
隻有英文版最智能。
文心一言想要表達得智能一些,就不能對接中文的語料,要去對接英文的訓練數據才行,然後背後再增加一套翻譯算法和內容審查算法。
本章尚未完結,請點擊下一頁繼續閱讀---->>>