端到端正成為行業(yè)技術競爭的熱點,不過圍繞端到端的爭議也在持續(xù)發(fā)酵。
近日,理想汽車董事長兼首席執(zhí)行官李想表示,端到端自動駕駛只能解決L3(級輔助駕駛),解決不了L4(級自動駕駛)。而小鵬汽車董事長兼首席執(zhí)行官何小鵬則認為,端到端模型下限能力有望在2025年快速提高。一旦提高后,不用2年時間,在全球范圍內就可以達到(支持)超越L4的能力。采用端到端大模型之后,特斯拉的FSD和之前完全不一樣,明年就有可能比人類“老司機”強。
車企廣泛跟進 端到端成賣點
全國政協(xié)常委、經濟委員會副主任,工信部原部長苗圩日前指出,要鼓勵頭部企業(yè)引領行業(yè)繼續(xù)下大力氣用人工智能大模型去訓練車載操作系統(tǒng)和智駕的車控系統(tǒng),打通“端到端”技術,打造整車的計算平臺。
目前,除了特斯拉之外,國內的小鵬P7+等車型也已經使用了端到端智駕技術,而零跑汽車2024年下半年就聲稱,自研的端到端智駕系統(tǒng)將在2025年上車。
盡管對于端到端技術仍存在不同觀點,但行業(yè)基本認可的事實是,自2023年8月特斯拉在美國推出端到端智駕系統(tǒng)FSD V12測試版后,端到端就成為智能汽車行業(yè)日益火爆的技術。至今,從問界到“蔚小理”等都在跟進端到端,并將此作為新車的賣點。
“端到端目前沒有公認的準確定義,簡而言之,就是智能駕駛系統(tǒng)的感知端到控制端?!北狈酱髷祿c人工智能研究院研究員曾文翔向《中國汽車報》記者表示,端到端主要依靠神經網絡、信息無損傳遞來實現(xiàn)一系列功能,與以往的模塊化架構主要依靠人工編程方式相比,提升了感知、預測到規(guī)劃、控制整個過程的效率,也提升了自動駕駛系統(tǒng)的安全性能。
“端到端用先進的算法模型取代了傳統(tǒng)算法和人工編寫程序效率不高等問題?!痹谏钲谙冗M技術研究院研究員俞榮錦看來,端到端的神經網絡可以通過AI來自己學習,很快掌握海量的知識和技能,理論上可以不再需要模塊化那樣的人工編程。但是,現(xiàn)階段如果完全依靠基于神經網絡打造的端到端自動駕駛系統(tǒng)還不夠“聰明”,測試表明,有時它可以在很復雜的道路交通場景中給出合理的規(guī)則,但有時也會犯低級的錯誤,甚至可能出現(xiàn)分不清紅綠燈的情況,這被行業(yè)稱為“上限很高,下限很低”。原因之一是神經網絡學習的數據量不足,因此,目前包括華為、小鵬等車企推出的端到端智駕系統(tǒng)采用了“神經網絡+編程”的方式,最大限度保證系統(tǒng)的安全性。
“其實李想和何小鵬所表達的內涵是一致的?!遍L三角研究院新能源應用技術研究中心研究員梁筱磊向記者表示,現(xiàn)實情況下,的確如李想所言,端到端自動駕駛只能解決L3級輔助駕駛,解決不了L4級自動駕駛。而何小鵬所說的端到端的模型下限能力有望在2025年快速提高,之后就可以支持超越L4級自動駕駛的能力,這是發(fā)展的趨勢。在目前從車企到科技公司都在大力推動端到端技術快速演進的情況下,一些技術瓶頸將逐步被打破,端到端也會越來越“聰明”,從而會勝過人類老司機,這是發(fā)展的趨勢。
本質是算力比拼
此前,在端到端剛剛興起之際,部分車企對端到端的預期過高,但進入實際測試和應用階段,才發(fā)現(xiàn)端到端的先進技術對于算力等保障能力的要求也是“水漲船高”。
從自動駕駛本義看,是要通過減少人工干預,甚至完全脫離人工干預情況下,在復雜道路交通環(huán)境中實現(xiàn)安全駕駛。而眾所周知,目前的道路交通環(huán)境的復雜性,并不能完全用交通規(guī)則來覆蓋。例如,機動車道上突然闖入的行人、自行車、兩輪電動車等,這是在不遵守規(guī)則的情況下發(fā)生的,如何對端到端自動駕駛系統(tǒng)“說清楚”既要遵守交通規(guī)則,又要在類似突然情況下處理好行駛動作,是一件不容易的事。特別是“非規(guī)則”的情況可能千差萬別,難以用一些理論模型來歸納概括,只能盡可能擴大數據庫來“教”自動駕駛系統(tǒng),這無形中就會提升算力需求。
事實上,不僅如此,端到端本身對于算力的要求大大超過了模塊化階段?!皬奶厮估腇SD自動駕駛系統(tǒng)看,端到端所需算力成倍增加?!绷后憷诒硎?,特斯拉聲稱將AI大模型引入自動駕駛系統(tǒng),其“端到端+大模型”的HW5(芯片)與之前的HW4相比,用3000行代碼替代了原來的30多萬行代碼,但算力要求提升了10倍,整個平臺算力需要達到3000~5000T0PS才能滿足端到端的需求。
“‘端到端+大模型’決定了對于算力有較高的要求?!庇針s錦談到,算力的增加,還體現(xiàn)在其他一些方面。例如,為了實現(xiàn)高效、準確的AI推理,車企及相關技術開發(fā)者可能需要花費更多精力在大模型優(yōu)化、量化等技術上,以保證大模型與端到端配合的高效運行。同時,除了端到端智能駕駛系統(tǒng)本身對大算力的需求外,對云端算力要求也很高,這是因為端到端智能駕駛依賴于大規(guī)模數據集,系統(tǒng)訓練過程非常耗費算力資源,尤其是為了讓大模型具備對復雜路況有足夠的識別能力,訓練過程需要在大量的模擬場景和真實世界的數據上進行,可能涉及數億、數十億甚至更大的樣本量,通常是樣本量越大,系統(tǒng)就會越成熟,而這種大規(guī)模的算力需求,也推動了對高性能的計算芯片、計算模塊等算力硬件的需求。
此外,對道路及交通規(guī)則的準確識別,也需要通過提升算力來保障。例如,國外一些城市的公路大多較為平坦,而國內一些城市公路卻有很大起伏,如重慶、貴陽等地區(qū),不僅彎道多而且高度差較大,端到端自動駕駛系統(tǒng)要準確識別,需要更多的訓練數據和模型,也會增加對算力的需求。此外,有的城市道路右轉線在直行線的左邊,左轉線在直行線右邊的情況也現(xiàn)實存在,對此,需要自動駕駛系統(tǒng)學會識別這種不多見的規(guī)則,同樣需要算力的支持。
目前,端到端智駕“卷”算力的程度已經超出之前的預期。目前,特斯拉超算中心的算力支持由其自研的D1芯片和自研的超級計算機Dojo組成,投資約10億美元。而國內一些車企的端到端則更多使用了云計算方案,如小鵬汽車的云計算大模型等?!翱傮w上看,除了自動化程度越高對于算力需求越大之外,道路交通狀況的復雜程度也增加了端到端自動駕駛系統(tǒng)對算力的需求?!痹南璞硎?。
總體處于初級應用階段
行業(yè)中有人把模塊化智駕系統(tǒng)比作在駕校學車,沒有自主意識,且不會主動模仿學習的新手司機,教練(代碼)說什么就做什么,但如果遇到教練沒說過的就不會處理了。而端到端則是有自主意識并會主動模仿學習的新手司機,如果給它看過成百上千萬優(yōu)秀老司機怎么開車的視頻后,它就會變成真正的老司機。
如今的新車市場上,已經有多個品牌的智能駕駛系統(tǒng)采用了端到端技術,也有不少品牌正在摩拳擦掌,即將推出端到端智駕系統(tǒng)。
2024年初,特斯拉在北美開始推送FSD V12,并于同年3月將FSD Beta改名為FSD Supervised,特斯拉智駕團隊稱基于端到端的FSD V12通過僅數月的訓練,就已經完全超越了數年積累的FSD V11。同時,也被行業(yè)稱為“一個端到端的生成大模型”“像人類司機一樣”,盡管仍不完美,但令人印象深刻。就連曾經對特斯拉“有看法”的何小鵬,在試駕完FSD V12后也表示:“FSD V12.3.6表現(xiàn)極好,非常贊賞,要向其學習?!?/p>
隨后,2024年7月,小鵬汽車宣布將向全球用戶全量推送AI天璣系統(tǒng)XOS 5.2.0版本。小鵬汽車的端到端包括了“神經網絡XNet+規(guī)劃控制大模型XPlanner+大語言模型XBrain”。這被稱為“三網合一”,其中,神經網絡類似于人的眼睛,對現(xiàn)實世界中的可通行空間進行3D還原;XPlanner類似于人的肌肉和小腦直覺,通過海量數據的不間斷訓練,優(yōu)化駕駛策略;規(guī)劃控制大模型類似于人的大腦,會進行更深入的理解和意圖推理,包括時序、環(huán)境、路牌文字等。2024年10月,小鵬汽車宣布AI天璣5.4.0正式開啟公測,并首發(fā)搭載在小鵬P7+上。新版本為小鵬汽車帶來了最強AI智能駕駛功能。根據數據統(tǒng)計,已經享受到公測版的P7+用戶,在用戶滲透率和里程滲透率上均取得了顯著提升。
去年7月,理想汽車也發(fā)布了基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術架構。其分為兩個系統(tǒng),一顆Orin X芯片用于端到端,也就是快系統(tǒng);另一顆Orin X芯片用于VLM,也就是慢系統(tǒng)??煜到y(tǒng)處理常見的場景,而VLM則是處理復雜場景。
在2024年,全新嵐圖夢想家搭載了華為乾崑ADS 3.0的端到端自動駕駛系統(tǒng)。在這一系統(tǒng)中,GOD網絡(通用障礙物檢測網絡)可以通過“激光雷達+攝像頭”感知,來識別通用障礙物白名單外的異形物體,用3D來構建出障礙物的輪廓,從而對路上的障礙物進行精細識別,不但能夠識別障礙物的動靜態(tài),還能分辨出救護車、警車、行人等。RCR網絡(道路拓撲推理網絡)則是為了進一步讓智駕擺脫對高精地圖的依賴,結合普通導航地圖來與現(xiàn)實進行匹配和印證,再實時生成可用的行車地圖。
時下,隨著智能駕駛步入深水區(qū),智駕AI大模型的訓練離不開海量的、多樣化的優(yōu)質數據,特斯拉首席執(zhí)行官馬斯克認為,用100萬個視頻切片訓練,勉強夠用;200萬個,稍好一些;300萬個,就會讓人驚嘆;1000萬個,那就好到難以置信了。因此,車企量產的智能駕駛車輛正成為最佳的數據采集工具。當足夠多的量產智駕車在道路上行駛時,它們所收集的真實數據,將成為端到端智駕不斷優(yōu)化的關鍵資源。
此外,已經有很多車企及造車新勢力在積極備戰(zhàn)端到端智駕,并以此作為宣傳賣點。近日,奇瑞汽車表示,在新車技術層面,要“All in端到端”。
“盡管關注度在持續(xù)升溫,但行業(yè)認為目前端到端總體上還處于應用的初級階段。”俞榮錦表示,一方面,從技術發(fā)展趨勢來看,端到端是現(xiàn)階段被多數車企看好的未來高階智駕的方向,但目前由于對端到端所依賴的神經網絡的了解和開發(fā)還不夠透徹,所以現(xiàn)階段端到端智駕的表現(xiàn)距離完美水平有一定差距。
相比已經普遍采用的模塊式智駕系統(tǒng),端到端的神經網絡算法模型“聰明”與否,極度依賴海量的真實數據來訓練,只有經過海量數據訓練,神經網絡才能從“小模型”變成好用的“大模型”。這也意味著,伴隨著自動駕駛車輛行駛數據量的增加以及高階智駕在算力等方面的持續(xù)投入,端到端智駕的發(fā)展會越來越好。另一方面,隨著算力的投入和端到端開發(fā)復雜程度的提高,現(xiàn)階段端到端的成本也有一定程度增加,隨著未來的大規(guī)模推廣應用,成本有望逐步下降。
向云端大模型進階
現(xiàn)階段行業(yè)內仍然對端到端的一些相關技術及其發(fā)展存在不同看法,但從部分已經或將要推出應用系統(tǒng)的車企產品看,現(xiàn)階段的端到端智駕并不是完全的端到端。
俞榮錦表示,由于現(xiàn)階段的端到端還存在開發(fā)不足等問題,準確率受到影響,因此各車企基本都采用了“端到端+”的方式來克服弊端。目前,端到端的不足包括端到端智駕系統(tǒng)的訓練所需的數據規(guī)模比海量更加海量,隨著智駕里程的增長以及自動駕駛系統(tǒng)能力的提升,端到端訓練的數據量也會不斷增長。來自車企的數據表明,截至2024年9月,小鵬汽車端到端的視頻訓練量為2000萬個視頻片段,特斯拉端到端智駕系統(tǒng)FSD的訓練量則至少有5000萬個視頻片段。
此外,如果再按照訓練頻次和模型的迭代速度算,數據就更為巨大,像特斯拉端到端如果每天迭代一個小版本,假設需要用5000萬個視頻片段訓練20個頻次,每天就要訓練10億個視頻片段。如果算力不足,端到端智駕模型迭代的速度就會放慢,準確性也會受到影響。而端到端智駕系統(tǒng)除了訓練,還需要推理來支持決策,這對算力來說是個巨大考驗。所以,特斯拉購買英偉達H100高性能芯片用于訓練的算力支持,自研的Dojo計算機做推理算力支持。
由此,就容易理解車企在端到端技術路線上的不同。如華為乾崑ADS 3.0的端到端自動駕駛系統(tǒng),不僅有GOD網絡(通用障礙物檢測網絡)、RCR網絡(道路拓撲推理網絡),還加入了與PDP(預測決策規(guī)劃網絡)并行的本能安全網絡,在很大程度上保障了系統(tǒng)的安全可靠。
而小鵬汽車的端到端包括了“神經網絡XNet+規(guī)劃控制大模型XPlanner+大語言模型XBrain”的“三網合一”形態(tài),通過云端大模型提供支持。云端大模型的參數量是車端的80倍,云端強化訓練后,車端大模型的上限會大幅提高。正是在端到端技術加持下,小鵬汽車智駕系統(tǒng)走向了以輕地圖、輕雷達、重算力為核心的智能駕駛方案。針對復雜路況,能夠實現(xiàn)點到點的輔助駕駛,包括自動通過高速ETC閘機、紅綠燈識別、擁堵路段跟車以及主動變道超車等。尤其在體驗和流暢性上,用戶基本感覺不到任何斷點,而且以端到端實現(xiàn)了“車位到車位”。因此,小鵬汽車方面認為,端到端只是開始,不是終局,真正的競賽正在云端展開,云端大模型才是制勝的關鍵。
車企各自不同的技術路線,驅動著端到端的開發(fā)和應用走上快車道?!氨M管技術路線不同,但都有合理的底層邏輯,最終也都會殊途同歸,實現(xiàn)完全端到端的高級別自動駕駛?!痹南枵J為,與其他技術一樣,智駕技術的發(fā)展也是一個不斷探索的過程,目前看端到端適合高級別自動駕駛的優(yōu)選,這是基于計算及云計算、神經網絡、人工智能、大模型,以及芯片和計算模塊、超級計算機等軟硬件技術支持下作出的選擇,而不是“拍腦門”的結果。
目前,隨著智駕技術發(fā)展,端到端正在成為車企之間比拼智駕技術實力的分水嶺。因此,一些車企往往把端到端作為營銷的口號?!盃I銷始終是與產品實力相結合的,否則只能‘搬起石頭砸自己的腳’?!庇針s錦談到,盡管目前有的車企將端到端作為營銷的手段,但如果技術跟不上,很容易導致產品的市場銷量和企業(yè)的品牌受損。
“目前的端到端不可能一步到位,以‘端到端+’的方式來推動端到端智駕的技術演進形式,是實際應用的必由之路,也是多數車企的共識?!绷后憷谡J為,從目前智駕的發(fā)展趨勢看,盡管在技術方面還有不同的探討,也有不甚明確之處,但融合了多領域前沿技術的端到端很可能將成為汽車智能化的下一個目標,也不會止步于僅支持L3級智駕。從尊重科學的角度看,端到端的技術發(fā)展還需要時間,但未來一定能給消費者帶來更好的智駕體驗,讓消費者感受到高階智駕的詩和遠方。
(責任編輯:蔡文斌)