本文來自微信公眾號:未來光錐 (ID:IamaScientist),整理自AI For Science社群分享第二期,嘉賓:陳小平博士(中國科學技術大學機器人實驗室主任),原文標題:《大模型人工智能展望:取代一些技術,創造一些行業 | 未來光錐AI For Science社群分享回顧》,題圖來自:視覺中國
今天和大家分享的題目是《大模型的進展、挑戰和機遇》。對這個議題我有幾個觀點:
(資料圖)
第一個是以大模型為代表的人工智能幾乎完全超越了流行的人工智能概念。所以我們現在需要客觀地去認識大模型,這個很重要。
第二個觀點是對第一個觀點所描述的現象的一種解釋,即心物二元論導致對人工智能的擬人化想象,該想象嚴重背離科學現實。心物二元論已經喪失客觀基礎,但仍然是一種深入人心的觀念。用這種觀念來認識大模型代表的人工智能,是有大問題的。按照心物二元論,只有人會說人話,物不可能說人話。那看起來大模型是會說人話的,所以按照心物二元論,大模型就是人了。這種擬人化想象嚴重背離了人工智能科學的現實。
第三個觀點是,在舊理念和新理念下,人工智能帶來不同的機遇和挑戰。這面對第一點和第三點分別詳細介紹。
大模型底層原理解析
雖然目前大模型還不能完全解釋,但是大模型底層原理基本可以解釋。首先,大模型直接的目標是自然語言人機交互。對這種交互的預期目標是,會說人話,能聽懂人話,能回答問題,即使回答不一定正確。從人工智能自然語言處理這個學科的發展視角來看,與過去自然語言處理的目標相比,這個目標是一個小目標。但這個目標實現起來也是非常困難的。
大模型研究找到了一條實現這個目標的技術路線,這就是符合人的語言習慣,也就是從語言習慣入手。這意味著,要求大型模型跟人一樣,有人的智慧、人的意識等,都是種種表象,真正的大模型機制,就是對人的語言習慣在一定程度和范圍的把握。但語言習慣處理起來并不容易,因為它沒有科學標準。只能換一個角度:人的語言習慣有經驗標準嗎?這個是有的,不過不明確。
但是科研人員想了一個辦法:從人類規模語料中自動提取語言痕跡,并用于人機自然語言交互。這里提到的人類規模指的是整個人類積累的語料,比如互聯網上所有文本。這不是過去所說的大數據,大數據沒有要求規模的大小。如此之大的規模,只能自動提取語言痕跡。我認為這就是大模型的基本研究思路和成功秘訣。
語言痕跡是什么?應該如何自動提取和運用語言痕跡呢?語言痕跡來源于原始語料,而不是人工標注的語料。像是互聯網上的文本、電子書等都是原始語料……原始語料是非常多的。
為了能把語言痕跡解釋清楚,在這里我們做一個極大的簡化:假設只考慮由兩個句子(句1:“我要上網,請打開瀏覽器。”句2:“我要聽歌,請打開音箱。”)組成的語料,這兩個句子在原始語料中反復出現,它們各自出現的概率如下:
之后的工作就是找語言痕跡。第一步是切分語元(token)。然后去找相鄰語元之間的關聯度,這就是語言痕跡的第一種形式。
注:語元(token),可以是字、詞、標點符號,或者其他符號串。
圖1 相鄰語元之間的關聯度|圖片來源:作者提供
簡單解釋一下上圖,其中,“我”是一個語元,“要”是一個語元,它們之間的關聯度是1。這是因為,在假設的語料中,兩個句子中“我”的后面跟的都是“要”,不存在其他可能。“要”的后面就出現了兩種可能,一個是“上網”,一個是“聽歌”,因此“要”和這兩個可能之間的關聯度,就近似地設為0.6和0.4。
由此類推,找出相鄰語元的關聯度,便可畫出上圖。這也就是相鄰語元關聯度的大模型,這就是它的原理。這個原理雖然看起來很簡單,但是非常強大。找出相鄰語元關聯度后,我們可以做很多事情,比如做預測。也就是任給一個語元,就可以預測出下一個出現的語元是什么。
圖2 不確定情況下預測率過高|圖片來源:作者提供
還是用上述提到的例子,從“要”推測下一個出現的語元,就有兩種可能。如果每次都預測出現的語元是“上網”,那錯誤率就有40%,是非常高的,要是預測“聽歌”,錯誤率就更高。如果現實環境中大模型是這樣預測的話,那就會錯得一塌糊涂。
怎么辦?關鍵在于遠程關聯度,即不相鄰語元,尤其是遠距離語元之間的關聯度。還是上面的例子,這次預測語元“打開”之后出現的語元,看起來和“要”的情況類似,實則不然。因為,在說“打開”之前,已經有了一些對話內容了。
假設我們之前說的是“上網”,那我們就會發現,“上網”和“瀏覽器”之間的關聯度為1。在這種情況下,“打開”之后,或任何位置都不可能出現“音箱”的。因此,在“上網”和“打開”這兩個語元都確定的情況下,一定會出現“瀏覽器”。如此一來,預測的錯誤率就是0。這就是基于遠程關聯度的預測。
圖3 遠程關聯度|圖片來源:作者提供
實際上,大模型的預測就是利用所有的(相鄰的和遠程的)關聯度進行的。但是它有一個上下文的窗口。像是ChatGPT的窗口有4000多個語元。還有一些大模型的窗口更大,比如有10萬個語元,也就是說,可以回看10萬個語元,激活這些語元的關聯度,然后把這些關聯度綜合起來進行評估。這個綜合非常復雜。我們現在觀察到的大模型的各種表現,無論是優異的表現還是奇怪的表現,很大程度上是由這個機制產生的。
簡單總結一下,大模型就是從人類規模語料中提取語元關聯度并用于預測——就是做預測,大模型不知道什么叫回答問題。
大模型實際上分為兩層,下面一層是基礎模型。我們剛剛講的就是這一層。基礎模型是通過預訓練構建起來的。訓練的是什么呢?就是圖3中的內容,也就是語元之間的關聯度。在基礎模型之上還有助手模型,又叫細調模型或者精調模型,fine-tuned models。細調模型現在無法解釋。目前細調訓練的計算量只占1%,而基礎模型預訓練所占用的訓練計算時間為總時間的99%——99%的時間都在訓練圖3。這就是大模型的底層原理。
有了這個底層原理,我們可以進一步展開想象:把互聯網上2/3的數據都找來,訓練出一張類似圖3的圖,那這張圖就會極其復雜。為什么要用到互聯網上體量如此之大的語料是一個值得分析的問題,目前也仍在實驗階段。但實驗結果顯示,如果不用這么多語料,訓練出的大模型的性能就會大打折扣。
大模型的基本特征
用一句話概括,大模型是一種實例性模型,即從訓練預料中提取的海量語元和語元關聯度的全體組成模型。這是一個顛覆的成果。因為過去的科學和過去的AI,從來沒有用過實例性模型,甚至想都沒有想過。長期以來,科學的傳統是用概括性模型,比如說牛頓力學(概括性模型)由四條基本原理(概括性規則)組成,而且從四條基本原理可以推出宏觀物理世界的全部力學規律,這是很強大的。
但是對于大模型來說,起主要作用的是語元關聯度實例。大模型的出現是否顛覆了整個科學傳統,究竟意味著什么,目前還不清楚。但是,至少我們對大模型給人工智能領域帶來的顛覆性、震撼性有了一些感受。
簡單總結一下,大模型、人工智能和人是不一樣的。人有人的智能,機器有機器的智能。
大模型催生新世界、新機遇
圖4 大模型工作原理|圖片來源:作者提供
圖4對大模型的展示更加清楚,既有上文提到的基礎模型,還有助手模型。助手模型是一個更加恰當的表述,既可用于指代細調模型,也可用于表示其他后續加工產生的模型。微軟目前在做一項工作,把傳統軟件做成插件,與助手模型關聯起來。這種插件目前至少有5千多個了。這樣就形成了一種基于大模型的軟件新生態,它有三層結構。插件和助手模型連接起來使用,變得非常方便。
圖5 大模型的助手模型和插件是如何工作的|圖片來源:作者提供
這種新生態怎么運作呢(見圖5)?就是通過用戶同助手模型聊天。助手模型是在基礎模型的基礎之上,又經過了一輪訓練。當然,這一輪訓練使用的數據就不是上文中提到的原始數據了,而是和用戶交互的數據。
在和用戶聊天的過程中,助手模型會向用戶詢問需求,隨后,助手模型會對5千個插件進行功能匹配。假如用戶的需求匹配上了某一個插件,那么助手模型便會從這個插件的說明中,找到使用這個插件需要提供哪些輸入數據。助手模型再向用戶詢問,獲取這些數據,然后輸入到插件里,便可運行插件,得到的結果直接輸出給客戶。在這個過程中,用戶只需要聊天就好,而不需要像以往那樣去學習使用軟件。
大模型帶來的新的、重大的改變包括,一方面經濟效率會超常規地提升;同時,也會帶來比以往都大的社會影響。因此,經濟效益和社會效益之間出現了嚴重分叉,這在歷史上幾乎沒有發生過。就最近的趨勢來看,世界上技術領先的國家,都在著手對大模型的應用進行適當管控,以避免出現嚴重的社會后果,這是必然的。
再說一下舊理念下的新機遇。大模型帶來的新軟件生態,全世界不會有很多。那除了做這種生態,還能做些什么呢?其實,還是不少事情可以做。舉例來說,行業專用大模型,即用行業數據,根據行業要求訓練出來的大模型。目前還沒有這樣的大模型,因為行業數據不好獲取。
圖6 舊理念下的新機遇|圖片來源:作者提供
另外一個方向是AI for science。在這個方向上展現出的新特點值得注意。過去投資都是投早期,或者非常早期,在AI for science領域可能就需要是非常非常早期,甚至在雛形尚未形成的時候就要開始。所以我想,效率提升到一定程度未必都是好事。
第三個方向,可能大家不太注意,但我個人覺得機會非常大。在未來10到15年最大的一個機遇,可能是制造業的人工智能技術。現在的流行看法是制造業要做高端化,這沒有錯。但其實制造業高端裝備的國產化平均已經完成大概70%了,不同行業有差別,某些行業已經做得相當好了。所以高端裝備空間并不大。
最大的機遇在中下游。現在的觀點傾向于把中下游看作是中低端,這個看法過去成立,將來就不成立了。中下游目前確實是中低端,但不意味著未來它不能高端化。實際上,現在正在做中下游的高端化,就是用人工智能、機器人、數字化、物聯網等技術,進行高端化。做到高端化后,將來全球的制造業將是中國帶頭。
因為制造業中下游是為用戶服務的,而上游跟著中下游走。中下游被中國高端化了,那全球制造業就只能跟著中國走。也就是說,中下游的人工智能技術將被全球制造業使用,所以發展空間非常大,這種局面過去從未出現過的。
再簡述一下新理念下的新機遇。新理念的客觀基礎是什么?我做一個預測:從大模型開始,人工智能時代將出現一個前所未有的新趨勢——效率提升的速度將遠遠超過需求增長的速度。這意味著近代以來的效率驅動的經濟增長和社會發展模式會面臨拐點,將來的主要機遇不在效率驅動的經濟增長模式中。
圖7 新理念下的新機遇|圖片來源:作者提供
具體表現是,在個人層面,會從追求發財、追求財富,轉向追求富足。所謂富足就是,無論是經濟上還是精神上都不要有大的缺憾。如果只獲得了財富,精神方面卻有缺失,這會讓很多人感到不滿足。就我自己的觀察,這一趨勢在年輕人身上已經非常明顯了。長此以往,就會發生一場需求革命。所以人工智能不僅是新一輪工業革命,也是需求革命。在社會層面上,會從追求效率為主轉向追求效率與效益的統一。
為了適應這一轉變,前幾年我提出了一種新的創新模式,稱為公義創新。公義創新并不是一種純粹的理論設想,而是已在現實社會生活中出現了萌芽,比如互聯網內容創業和軟件開源運動。在這兩個例子中,很多人追求的不是單純的經濟回報,這樣的人將來會越來越多,成為增長率最大、最有想象力的方向。總結來看,新理念下的新機遇就是投資富足。
觀眾提問
觀眾1:陳老師好,我想請教您的是,關于您剛才說的大模型的這個機遇,在您現在所從事的機器人的研發和家庭應用的這個場景當中,有沒有什么結合的地方?或者說您自己正在做的這個事情當中,有沒有開始去應用它?
陳小平:對機器人肯定會有影響。大模型是做人機交互的,所以至少在人機交互方向有很大的作用和影響。至于人機交互怎么發展,我們正在做規劃。可以肯定的有兩點,第一點是有了大模型,人機交互的基礎就上了一個臺階。
比如說,家庭服務,包括家庭服務機器人,它首先就是跟人對話,問用戶:你要我幫你做什么?這就是用戶要提需求啊。這方面我們從2008年就開始做了。這其實和大模型的目標是一樣的啊。但是技術路線不一樣。另一方面,我們觀察到,人機交互的作用究竟是什么,需要根據具體應用場景做不同的判斷,泛泛的觀察往往不成立。比如服務于老人和服務于少兒,所需功能就有很大差別。如果功能定位脫離預期用戶的實際情況,產品就不可能成功。
觀眾2:人機交互都是由人來提需求,那有沒有由機器主動發起的機和人的交互?
陳小平:我們做的可佳機器人都是機器人發起交互。人發起交互當然也可以。但我們預期的是由機器人發起。背后的理念是:將來的機器人不要等人來找它,如果人主動問了,可能就意味著智能機器人沒有盡到責任。在多數情況下,智能機器人應該知道,人在什么情況下需要什么,于是就主動去做,如果不確定,就會主動提問。
本文來自微信公眾號:未來光錐 (ID:IamaScientist),分享嘉賓:陳小平(中國科學技術大學機器人實驗室主任,中國人工智能學會人工智能倫理與治理工委會主任)
免責聲明:本文不構成任何商業建議,投資有風險,選擇需謹慎!本站發布的圖文一切為分享交流,傳播正能量,此文不保證數據的準確性,內容僅供參考
關鍵詞: