2024年8月9日 星期五

石齊平專欄》中美世紀交鋒唯一懸念

石齊平專欄》中美世紀交鋒唯一懸念

2025/03/11 言論 石齊平

中國外長王毅在大陸兩會記者會上質問美國:你們從這些年的關稅戰、貿易戰中得到了什麼?貿易逆差是擴大了?還是縮小了?製造業的競爭力是上升了還是下降了?通膨是好轉了還是惡化了?你們出台「印太戰略」這麼多年了,為地區國家做了什麼?除了挑起事端製造分歧什麼也沒有…。一句話,美國費盡心機,調動洪荒之力,把中國往死裡打,結果打出了個寂寞。



橋水創始人達里奧最近受訪也表示,美國已經永遠不可能在製造業趕上中國了,而且,作為美國最後拿得出手壓過中國的優勢,也就是頂尖大學,也將因AI的出現與發展會很快失去。

所以,就中美兩強世紀交鋒的總形勢來看,中美這場世紀對決的最終勝負將取決於AI,AI是唯一的懸念。對美國而言,幸運的是,她是AI的領頭羊,AI的先驅者,以及至少到目前為止,暫時保持著對中國的領先優勢;但糟糕的是,她的領先優勢正在被急起直追的中國很快地拉近之中,特別是在「深度求索」(DeepSeek)橫空出世之後;然而,更讓美方憂心如焚的或許還不是DeepSeek本身,而是讓幾乎所有人都會感到意外的「語文」。

美國最出色的英文大模型,最近居然出現滿屏皆是漢字的奇觀。有大量外國用戶反映,OpenAI最近發布的o3-mini大模型突然使用中文推理,要知道,機器對中英文是沒有偏好的,他的選擇主要取決於效率,無論深度思考和邏輯推理,哪種語言速度更快就選擇哪種。

對AI而言,漢字就是一種高維語言,每1個漢字的信息含量或密度相當於3.7個英文單字,比如「春風又綠江南岸」中的綠,「奪眶而出」、「奪門而出」中的奪字,語意內涵十分豐富。

漢字還有偏旁,如花草芬芳,江河湖海,前者均跟植物有關,後者均與水有關。又如「江湖」兩字,在英文中就只是江與湖,在中文中,就有社會、天下的格局,甚至還可聯想到英雄豪氣。又比如,漢字中,自行車、汽車、電動車、火車皆是車,英文卻各有1個字;葡萄風乾就是葡萄乾,在英文中,葡萄是一字,葡萄乾又一字,兩者毫不搭嘎。

牛津英文辭典每年新增4000多個新詞,總數已超過100萬個,中文日常約3500字就夠用了。這種差別,平常不覺得,AI時代一來,優劣立判。使用英文,AI大模型訓練時必須堆疊GPU,加大算力,極耗能源;使用中文,則又快又省,高下立判。

在算力不如 OpenAI的情況下,DeepSeek 已可用算法轉變劣勢。考量到中英文的差異,中國大概率可在算力上拉近差距。中美AI的競爭,比的是算力、算法、數據,算力背後又與電力有關,中國因有實體經濟,加上經濟規模巨大,數據上已占優勢;算法中美實力相當,但DeepSeek的橫空出世可以窺見中國的深厚潛力;算力原本美國領先,但中英文在訓練上表現的差異,最終孰優孰劣還難有定論,更何況算力的強弱還取決於電力,這卻是中國的強項。

中美世紀交鋒的唯一懸念是AI,AI大模型能預言誰將勝出乎。

當人工智慧未通過語言測試時,誰會被排除在對話之外? 人工智慧的使用在世界範圍內呈爆炸式增長,但該技術的語言模型主要是用英語訓練的,而許多其他語言的使用者則落後了。 經過薩拉·魯伯格 2024 年 7 月 26 日 
史丹佛大學的研究人員對一個流行的人工智慧聊天機器人進行了語言測試。 他們要求機器人用越南語寫一首傳統詩歌,形式為“song thất lục bát”,遵循由七個、七 個、六個、然後八個單字組成的線條模式。當機器人吐出答案時,它寫了一首詩,但不遵循格式。 團隊嘗試了不同的提示,詢問正確的越南語單字是什麼來表示母親的弟弟,它回答說是表示父親的弟弟妹妹和哥哥姐姐。 這些缺陷並不是研究人員質疑的人工智慧公司 Anthropic 的聊天機器人 Claude 3.5 所獨有 的,但它們說明了人工智慧可能會在標準美式英語以外的語言中出現錯誤。 
雖然人工智慧的使用在西方呈爆炸式增長,但世界其他大部分地區卻被排除在對話之外, 因為大多數技術都是用英語訓練的。人工智慧專家擔心,語言差距可能會加劇技術不平 等,並可能導致許多地區和文化落後。 先進技術的獲得即使延遲幾年,“也可能導致經濟延遲幾十年, ”
史丹佛大學史丹佛人工智慧實驗室的候選人,該團隊負責建立越南語模型並與其他模型進行測試。 他的團隊進行的測試發現,全面的人工智慧工具在處理越南語時可能會出現事實和措辭錯誤,這可能是因為按照行業標準,越南語是一種「資源匱乏」的語言,這意味著沒有足夠 的數據集和內容在線可供 AI 模型學習。 全世界有數千萬甚至數億人使用低資源語言,但它們產生的數位數據較少,因為人工智慧 技術開發和線上參與集中在美國和中國。其他資源匱乏的語言包括印地語、孟加拉語和斯 瓦希里語,以及世界各地人口較少的鮮為人知的方言。

科技調查公司 W3Techs 對頂級網站的分析發現,英語佔網路語言資料的 60% 以上。根據 收集語言數據的研究組織 Ethnologue 的數據,雖然英語在全球範圍內被廣泛使用,但以英語為母語的人約佔總人口的 5%。普通話和西班牙語是具有重要線上存在和可靠數位資料集的語言的其他範例。 學術機構、基層組織和志工正在奮起直追,為那些在數位環境中沒有充分體現的語言使用 者建立資源。 
總部位於約翰尼斯堡的 Lelapa AI 就是這樣一家在非洲大陸領先的公司。這家總部位於南非 的新創公司正在為非洲的人們和企業開發多語言人工智慧產品。 Lelapa AI 執行長 Pelonomi Moiloa 表示,她的組織正在尋求社區的解決方案,以改善非洲語 言的人工智慧功能。 
塞比西爾·姆博納尼 (Cebisile Mbonani) 為《紐約時報》撰稿 Lelapa AI 執行長兼聯合創始人 Pelonomi Moiloa 表示:“我認為這是一個非常危險的概 念,人們需要同化不同的文化並接受不同的文化才能取得進步。” 她說,該公司不太注重規模,而是注重針對社區的解決方案。該公司正在打造更節約資 源、更具成本效益的產品,並主要用於當地語言的語音交流,使非洲人民更容易使用該技 術。 「例如,像Google、蘋果、OpenAI 這樣的大公司不一定會針對服務這些市場的工具來訓練 他們的模型,」
布魯金斯學會技術創新中心研究員Chinasa T. Okolo 在談到低收入社區時 說。 “他們沒有提供足夠的市場價值來讓他們這樣做。” Open AI的一位通訊官員表示,該公司正在穩步向更多人群發佈人工智慧系統,其最新模型 支援50多種語言。谷歌指出,其項目重點關注代表性不足的語言的人工智慧開發,其中包 括 2022 年宣布的「1,000 種語言」計劃,旨在為世界上 1,000 種最常用語言構建語言模型。
蘋果表示,它也開發了支援多種語言的產品。 人工智慧工具中語言差距的後果可能是多方面的。人工智慧專家表示,該技術有潛力提高 生產力和改變工作場所,但如果沒有當地語言的可靠數據,世界上一些地區可能會錯失經 濟效益。排除資源匱乏的語言也可能導致人工智慧產品的文化偏見。人工智慧缺乏低資源語言知識也有可能引發安全問題。
新創公司 Cohere 旗下的非營利研究 機構 Cohere for AI 的負責人 Sara Hooker 表示,一些用戶可以透過用其他語言提問來繞過 人工智慧產品的安全措施。 「例如,只要切換到不同的語言,你仍然可以輕鬆獲得有關如何製造炸彈的非常危險的說 明,」胡克女士說。 
Hooker 女士在 Cohere for AI 的團隊於 2 月推出了一個名為 Aya 的多語言人工智慧廣泛模 型和資料集。它包含 101 種語言,並依賴 3,000 多名獨立研究人員的志願者努力。但胡克女 士表示,即使是這麼大的計畫也無法解決語言延遲問題。 她說,在人工智慧領域,業界通常關注最新的模型及其表現,“但在這個特定的主題中,它 也在重塑整個生態系統”,並補充說,除非世界各地的研究人員能夠做到這一點,否則差距 將會擴大。 
雖然這個問題對業內許多人來說是顯而易見的,但解決方案卻很複雜。大語言模型 (LLM)用於以人類語言進行交流的技術,需要大量高品質數據,這些數據通常從互聯網 收集,對於資源匱乏的語言來說不容易存取。 Truong 先生將建立法學碩士學位等同於教導 新生兒:可能有 20,000 本包含英語課程的書籍,但越南語課程的書籍只有五本。 一些地區的差異如此之大,以至於政府已經介入,支持建立自己的語言模式的努力。

今年 春天,奈及利亞政府承諾支持科技新創公司 Awarri 建立當地語言模式。冰島政府和威爾斯 政府都與 OpenAI 合作,以提高 ChatGPT 對當地母語的理解。 Lelapa AI 的 Moiloa 女士表示:“就獲取資訊而言,語言差距確實很重要,但它也有助於重 新激發人們對自己是誰、來自哪裡的自豪感。” 

史丹佛大學史丹佛可信賴人工智慧研究負責人 Sanmi Koyejo 表示,在所有人工智慧產品中 包含更多語言對於捕捉文化差異和多元觀點也很重要。 Koyejo 博士提到了史丹佛大學的一項研究,該研究將皮尤研究中心的問題回饋給人工智慧 聊天機器人,以衡量它們的偏見。

他說,聊天機器人的答案與加州人們的觀點最吻合,大 部分的技術都是在那裡開發。 「文化是其中一個重要的方面,」他說。 “如果你只看到互聯網削減了以美國為中心的世界 版本,你就會失去一些東西。” 

薩拉·魯伯格 (Sara Ruberg)報導突發新聞,是 2024-25 屆《泰晤士報研究員》的成員,這是一個針對職業生 涯早期記者的計畫。關於薩拉·魯伯格的更多信息

沒有留言:

張貼留言