雷石產(chǎn)業(yè)觀察:機器學(xué)習(xí)與大模型,人工智能賽道上的明珠
如今,人工智能已經(jīng)深入到社會的方方面面,滲透到每個人的日常生活,從自動駕駛到人臉識別,再到機器翻譯。
然而,大家似乎只知人工智能,卻少有人了解機器學(xué)習(xí)。其實,人工智能得到廣泛應(yīng)用,其底層基石正是機器學(xué)習(xí)。
絕大多數(shù)涉足人工智能的公司,無論是提供解決方案的科技公司,還是應(yīng)用人工智能的行業(yè)用戶,都會把機器學(xué)習(xí)作為其主要業(yè)務(wù)領(lǐng)域之一。
未來,隨著人工智能的社會普及和行業(yè)深入,機器學(xué)習(xí)在產(chǎn)業(yè)界的重要性會得到進一步加強。在新興的大模型領(lǐng)域,會有機會涌現(xiàn)出一批科技創(chuàng)新企業(yè),成為人工智能賽道上真正的明珠。
機器學(xué)習(xí)是人工智能的基石
機器學(xué)習(xí)就是讓計算機來模擬人類的學(xué)習(xí)行為,是人工智能的核心,是使計算機具有智能的根本途徑。
機器學(xué)習(xí)具有兩個典型的過程,一是訓(xùn)練,二是推理。這兩個過程,都需要大量的算力作為保障,尤其是“訓(xùn)練”,不僅需要龐大的AI算力,往往還需要海量的數(shù)據(jù)。
機器學(xué)習(xí)的訓(xùn)練和推理,相當于人類的學(xué)習(xí)和工作。其中訓(xùn)練的過程尤其重要,就像人類要通過16-20年的漫長學(xué)習(xí)才能具備工作能力一樣。訓(xùn)練的結(jié)果則是“模型”,類似于人類的知識。而推理的過程則是把模型(知識),應(yīng)用到實踐工作中。
以自動駕駛為例。自動駕駛汽車上都安裝了很多攝像頭和傳感器,用于探測路況。根據(jù)采集到的視頻等數(shù)據(jù),做出判斷之后,決定下一步操作:轉(zhuǎn)彎、并線、加速、減速等。這個過程就是推理,推理依賴的不僅是實時采集到的數(shù)據(jù),更需要使用訓(xùn)練產(chǎn)生的模型。
訓(xùn)練的工作是在推理之前完成的。自動駕駛公司要進行數(shù)十萬,甚至上百萬公里的實際道路學(xué)習(xí)。對于測試中獲得的圖片和影像數(shù)據(jù),通過人工等標注方式,告訴計算機什么是路人、什么是車道、什么是限速牌等等。計算機需要通過各種算法對數(shù)據(jù)進行分析,最后形成了模型,被裝載到自動駕駛汽車上。
目前,機器學(xué)習(xí)被普遍采用的部署方式是:在云側(cè)進行訓(xùn)練,因為需要大量的數(shù)據(jù)和算力;在邊側(cè)或者端側(cè)進行推理,因為需要低時延和貼近應(yīng)用。
機器學(xué)習(xí)的不同實現(xiàn)方式
當前,人工智能的主要處理對象是自然語言、圖片、視頻等,從這些數(shù)據(jù)中提取信息,進行處理分析,并加以理解,最終落地實際應(yīng)用。機器學(xué)習(xí)的對象,也正是這些數(shù)據(jù)。如何從數(shù)據(jù)中獲得知識,一直是科學(xué)界和產(chǎn)業(yè)界共同努力的方向。
在機器學(xué)習(xí)的訓(xùn)練過程中,算法至關(guān)重要,有決策樹算法、樸素貝葉斯算法、隨機森林算法、神經(jīng)網(wǎng)絡(luò)算法等等。但這些是科學(xué)家們需要努力攻關(guān)的,對于產(chǎn)業(yè)界而言,更為關(guān)注的是機器學(xué)習(xí)的實現(xiàn)方法。
按照訓(xùn)練(學(xué)習(xí))方式的不同,機器學(xué)習(xí)通??梢苑譃楸O(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)三大類。
監(jiān)督學(xué)習(xí),也被稱為有導(dǎo)師的學(xué)習(xí),如同老師教學(xué)生一樣。在監(jiān)督學(xué)習(xí)過程中,訓(xùn)練的每個示例都是要有標注的,就像上面提到的自動駕駛實際道路學(xué)習(xí)一樣。監(jiān)督學(xué)習(xí)依賴于高質(zhì)量的數(shù)據(jù),包括數(shù)據(jù)的質(zhì)和量。質(zhì)——必須準確,否則計算機就會學(xué)到錯誤的知識,導(dǎo)致推理出錯;量——要覆蓋到實際道路的所有情況,否則計算機就不知道該如何應(yīng)對該情況。
非監(jiān)督學(xué)習(xí),即沒有導(dǎo)師的學(xué)習(xí),訓(xùn)練的數(shù)據(jù)不需要做標記,減少了人工做數(shù)據(jù)標識的工作量,而且能夠覆蓋人想象不到的情況。比如在AI工業(yè)質(zhì)檢中,可能的產(chǎn)品缺陷種類太多,人工很難窮舉。非監(jiān)督學(xué)習(xí)的實現(xiàn)難度更大,是機器學(xué)習(xí)的未來發(fā)展方向。
強化學(xué)習(xí)也叫增強學(xué)習(xí),其訓(xùn)練過程不需要數(shù)據(jù),而是通過特定環(huán)境中一系列行為的后果進行學(xué)習(xí)。強化學(xué)習(xí)輸入的是環(huán)境反饋,即獎懲信號,類似于馬戲團的動物訓(xùn)練過程。
此外,深度學(xué)習(xí)和聯(lián)邦學(xué)習(xí),也是機器學(xué)習(xí)正在快速興起的兩個分支。前者已經(jīng)在AlphaGo上得到成功實踐,后者則由于數(shù)據(jù)安全的要求而隨著隱私計算得到應(yīng)用。
迅速壯大的行業(yè)應(yīng)用市場
市場研究公司IDC的預(yù)測數(shù)據(jù)顯示,未來五年,全球人工智能IT投資規(guī)模的年復(fù)合增長率約為26.5%;到2026年,中國市場的規(guī)模有望達到266.9億美元,全球占比約為8.9%,位列全球第二。
(圖片源自網(wǎng)絡(luò),版權(quán)屬于原作者)
在這個快速增長的市場中,機器學(xué)習(xí)算力、機器學(xué)習(xí)開發(fā)平臺、機器學(xué)習(xí)行業(yè)應(yīng)用,將占據(jù)非常重要的組成部分。
在算力層面,除了專業(yè)的芯片公司,很多科技公司也在開發(fā)用于機器學(xué)習(xí)的芯片。比如,華為的昇騰芯片、AWS的訓(xùn)練芯片Trainium和推理芯片Inferentia、阿里云的推理芯片含光800等。
人工智能應(yīng)用要想落地,還必須要有機器學(xué)習(xí)開發(fā)平臺的支持,這是一個面向開發(fā)者、數(shù)據(jù)科學(xué)家、業(yè)務(wù)分析師的PaaS平臺。目前,機器學(xué)習(xí)開發(fā)平臺的提供商大致有兩類,一類是云服務(wù)商,比如AWS的SageMaker、華為云的ModelArts等;另外一類是專業(yè)的人工智能公司,比如第四范式的Sage Platform、九章云極的DataCanvas等。
在應(yīng)用層面,隨著越來越多的企業(yè)開始數(shù)字化轉(zhuǎn)型以及智能化升級,機器學(xué)習(xí)在行業(yè)市場得到了廣泛應(yīng)用,為人工智能賦能產(chǎn)業(yè)提供助力。除了人臉識別、自動駕駛、機器翻譯等消費級應(yīng)用,工業(yè)質(zhì)檢、新藥開發(fā)、金融風(fēng)險評估等企業(yè)級應(yīng)用,也越來越多。
制造行業(yè)的AI視覺質(zhì)量檢測,是機器學(xué)習(xí)最成熟的應(yīng)用場景之一。IDC預(yù)計,到2025年中國工業(yè)AI質(zhì)檢整體市場將達到62億元,年均復(fù)合增長率為28.5%。中科創(chuàng)達在Amazon SageMaker之上構(gòu)建了創(chuàng)達智慧視覺檢測系統(tǒng),幫助某面板制造企業(yè)取代人工質(zhì)檢,檢測時間從3.5秒降低到0.1秒,準確率從85%提升到99%。
(圖片源自網(wǎng)絡(luò),版權(quán)屬于原作者)
另外比如蛋白質(zhì)結(jié)構(gòu)研究,是生命科學(xué)領(lǐng)域的基礎(chǔ)問題。深勢科技與阿里云機器學(xué)習(xí) PAI 團隊合作,通過全新的蛋白質(zhì)結(jié)構(gòu)預(yù)測推理加速方案FoldAcc,結(jié)合深勢Uni-Fold最新模型代碼和參數(shù),將單次預(yù)測能支持的最大氨基酸序列長度提升至6.6k,覆蓋99.992%已知的蛋白序列。
無論是機器學(xué)習(xí)的行業(yè)應(yīng)用還是通用應(yīng)用,未來都會有更多的科技創(chuàng)新企業(yè)涉足其中。這也對其提出了更高的要求——既要懂前沿的AI科技,也要有深度的行業(yè)洞察,兩者缺一不可。
正在快速興起的大模型市場
從機器學(xué)習(xí)的實現(xiàn)方式可以看出,“模型”是機器學(xué)習(xí)的關(guān)鍵環(huán)節(jié),它是“訓(xùn)練”的結(jié)果,也是“推理”的基礎(chǔ)。要得到一個好的模型,需要海量的高品質(zhì)數(shù)據(jù),也需要海量的算力支持,可謂成本高昂。
一方面是模型訓(xùn)練的投資巨大,另一方面是每個行業(yè)應(yīng)用都是差異化的,這就導(dǎo)致需要重復(fù)進行大量的模型訓(xùn)練,使得機器學(xué)習(xí)的成本居高不下,阻礙了行業(yè)應(yīng)用的普及。
大模型的概念,由此而快速興起。國內(nèi)一些頭部科技公司亦涉足其中,比如華為的盤古和百度的飛槳等。
大模型更準確的叫法應(yīng)該是基礎(chǔ)模型,是大規(guī)模預(yù)訓(xùn)練的結(jié)果,因為有著多達千億甚至上萬億的參數(shù),而被稱為大模型或者超大模型。
大模型被稱為規(guī)?;a(chǎn)高性能機器學(xué)習(xí)模型的生產(chǎn)線:通過提煉各大領(lǐng)域的共性來進行大規(guī)模預(yù)訓(xùn)練,生產(chǎn)出標準化的基礎(chǔ)大模型;然后再根據(jù)各個行業(yè)不同的共性需求,訓(xùn)練出行業(yè)預(yù)訓(xùn)練大模型;最后根據(jù)具體應(yīng)用場景的需求,通過少量定制開發(fā)形成推理模型,從而落地應(yīng)用。
這樣的逐級訓(xùn)練大模型的方式,可以最大程度降低全社會在機器學(xué)習(xí)成本上的投入,實現(xiàn)AI應(yīng)用的規(guī)?;涞亍H砸宰詣玉{駛為例,如果每個整車廠都要從頭開始做模型訓(xùn)練,無疑是很大的浪費,畢竟大家面臨的道路情況是一樣的。如果有專業(yè)第三方公司來訓(xùn)練和提供標準化的大模型,就可以避免重復(fù)投入。這樣,既降低成本又能提升性能,使自動駕駛更快落地。
大模型市場才剛剛起步,未來發(fā)展空間很大,當然變數(shù)也很大。訓(xùn)練好大模型和應(yīng)用好大模型,同樣重要。在這兩個環(huán)節(jié)上,未來或許會涌現(xiàn)出一批創(chuàng)業(yè)企業(yè),尤其是專注于生產(chǎn)行業(yè)大模型的科技創(chuàng)新企業(yè)。
免責(zé)聲明:市場有風(fēng)險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: