全球有一個超大型的免費的數據庫。

    什麽語言都有,90%以上都是英文的語料庫,中文語料數據也就是2%左右。

    全球幾乎所有的AI模型,想要訓練都要依靠著這些公開的數據內容才行。因為都是英文數據,所以這些AI模型,一定都是以英文為核心。

    所以當百度的文心一言推出之後,就會出現很多令人難以理解的事……其實原因很簡單,文心一言使用的是英文數據,中文語料的數據實在是太少了。

    別看國內人多,但網絡上真正有價值的內容實在不多,稍微出格一點,這些有價值的語料就要按法律法規給刪除了。

    就剩下了一堆沒法訓練AI的垃圾內容。

    就比如,《大時代之巔》到底是一本怎樣的書?

    如果有人說好,有人說不好,這些內容就都是有價值的內容,AI模型經過一番的訓練和評估,從而給出比較客觀公正的評價。

    如果作者想要維護評論區的和諧,把所有說好的內容都留下了,說差的內容都刪除了,最後隻剩下了一片讚歌,那麽即便這些讚歌都是對的,這也是垃圾信息。

    因為對AI模型來說缺少了多元化的評判。

    從出發點到終點,有一萬條路,AI模型的訓練就是把這一萬條路都走一遍,然後選出最合適的那條路,這才是AI的價值。

    就像生物製藥,有一萬種選擇,AI幫忙給出最好的那幾個選擇,就會大大地縮減研發經費、提高研發成功率。

    要是一開始就隻提供一條路,那還訓練個屁啊,不給AI選擇、評判、思考和分析的機會,就隻告訴他一個標準答案,AI就會毫無意義。

    德文、法文、日文、韓文的數據量太少,中文的數據量很大,可是因為環境的限製有價值的數據也很少。

    所以,想訓練出世界級的AI模型,就隻能用英文語料來訓練。

    這就需要一些弱勢語言的AI模型,要有語言轉換能力,去轉換成英文。

    就像使用文心一言,讓他畫一個起重機的圖片。

    結果畫的是鶴。

    這就很讓人費解。

    其實很簡單,起重機的英文是e在英文裏主要是指鶴。所以AI模型就畫出了鶴的圖片。

    又比如“可樂雞翅”這種,放在中文語境裏,其實很好理解,就是一道菜。可是,這裏麵有一道翻譯的手續,把“可樂雞翅”翻譯成英文,在翻譯過程中就造成了信息離散,導致畫出來的可樂和雞翅。

    ChatGPT一樣會遇到這樣的困境。

    用英文向ChatGPT提問,回答的速度會非常快,而且準確度極高;如果用中文、日文、韓文、法文、德文等其他語言來提問,反應速度就會很慢,給出的答案也會錯誤百出。

    因為其他語言的數據量太小了,訓練出的模型就不夠智能。

    隻有英文版最智能。

    文心一言想要表達得智能一些,就不能對接中文的語料,要去對接英文的訓練數據才行,然後背後再增加一套翻譯算法和內容審查算法。

本章尚未完結,請點擊下一頁繼續閱讀---->>>