李可 李雅茹 王凱悅 滕瑞 崔春風
(中國移動通信有限公司研究院,北京 100032)
0 引言
2023 年6 月,國際電信聯盟完成了《IMT 面向2030及未來發展的框架和總體目標建議書》(簡稱《建議書》)[1],這將有助于形成6G 的全球統一標準。6G 的典型應用場景包括沉浸式通信、人工智能與通信融合、感知與通信融合等六大應用場景。這些應用場景展示了2030 年數字化時代到來后,數字世界與物理世界深度交互融合的美好愿景,而6G 網絡將成為實現多樣化業務應用場景的中流砥柱。然而,要實現上述美好愿景,不能將以邊緣計算、毫米波為代表的通信技術和以渲染、三維重建(Three-Dimensional Reconstruction,3D Reconstruction)為代表的業務技術簡單地拼接在一起。相反,必須以網業融合的思路(即打破不同技術領域的邊界),通過端到端系統的重構和優化以促進具有不同技術特征和發展路徑的多類信息技術相互滲透和協同,最終實現網絡和業務的深度融合與創新。
目前,業內對于6G 業務的研究仍聚焦于業務和網絡技術的分別迭代,未能深入探討網業融合的發展邏輯。因此,本文以云端三維重建為6G 典型應用案例,從關鍵技術的研究進展出發,著重分析其對6G 網絡的需求、影響和涉及的關鍵技術標準化現狀,最后分析在云端三維重建系統原型搭建方面的探索并提出下一步研究方向。
1 三維重建賦能6G 愿景
面向元宇宙、Web3 等6G 多樣化的業務場景和接入設備形態,中國移動通信有限公司研究院提出“數字孿生、智慧泛在”的需求愿景[2],在產業界形成廣泛共識。為了實現6G 愿景,業界正在努力推進6G 各項研發工作。
為實現6G 愿景,目前學術界和產業界正圍繞6G關鍵技術進行重點布局和攻關。與此同時,要想讓6G網絡賦能千行百業,助力各行業深化數字化轉型,還需要深化與其它行業及技術領域的融合協作發展。以數字孿生愿景為例,要實現萬事萬物的數字化,需要三維重建技術的支撐。傳統三維重建技術的采集、計算等全部功能處理流程均在本地進行,帶來了成本高及移動性差等問題,造成業務始終無法大規模普及;而簡單地將全部處理流程上云后,又會導致上行傳輸壓力過大。只有將網絡和業務技術統籌考慮、融合設計,才能更有效地發揮6G 網絡在傳輸及算力方面的優勢,讓6G 真正成為溝通物理世界與數字世界的橋梁,最終實現網絡無所不達、智能無所不及。
2 三維重建重點發展方向與面臨的挑戰
2.1 三維重建及應用場景
三維重建是指利用二維投影或影像恢復物體三維訊息(如形狀等)的數學過程和計算機技術,即通過圖像數據還原出三維物體。三維重建可以通過主動或被動的方法來完成[3]。常見的三維重建方法有運動恢復結構、多視圖立體視覺(Multi-View Stereo,MVS)、同時定位與地圖構建、深度學習技術等。運動恢復結構指從包含視覺運動信息的多幅二維圖像序列中估計三維結構;MVS 指運用立體對應關系在多張照片上得到三維幾何結構;同時定位與地圖構建指通過相機實時跟蹤自己的位姿并重建周圍三維環境;深度學習技術[4-6]指使用深度學習網絡對圖像數據進行解析,提取特征點,然后進行三維重建。
三維重建是實現數字化世界的重要手段,在3D通話、擴展現實(Extended Reality,XR)交互、城市規劃、自動駕駛、遺產保護等領域有著廣泛應用。3D 通話是一種利用視覺、聽覺和其它感測技術,在遠程雙方用戶之間模擬出三維效果的實時視頻通話。谷歌公司的Starline 系統[7]通過多個高分辨率傳感器的數據采集、視頻和深度流的壓縮傳輸、數據融合、光場顯示等技術,實時重建人物,使兩個人在不需要佩戴特殊的眼鏡、麥克風及耳機的情況下,體驗面對面交流。在實時增強現實(Augmented Reality,AR)交互應用中,三維重建是非常重要的感知任務,國內外有大量企業和科研機構在三維重建領域進行研究。美國高通公司利用自監督神經網絡進行單眼深度估計,在AR 眼鏡上實時生成顯示視角環境的3D 影像,實現了數字世界和物理世界的無縫對接。商湯科技公司和高校共同研發的Mobile3DRecon 系統,可以生動顯示虛實物體間的遮擋和碰撞效果[8]。為了增強用戶在虛擬世界中的真實感受,元宇宙場景中的人、物及環境都可以通過三維重建技術采集并生成。用戶生成內容將打造元宇宙的核心生態,未來幾乎每個人都能使用三維重建技術進行內容創造。
2.2 三維重建應用面臨的挑戰
沉浸式通信包含XR、全息等沉浸式多媒體、多感官交互以及數字孿生等場景,這些場景均離不開三維重建技術的運用。目前三維重建技術在專業化領域的應用,需要圖形處理器等算力設備的支撐,效果好但成本高;而大多數移動端應用軟件雖具有一定的易用性,但重建效果差強人意。上述現狀導致三維重建技術始終無法大規模普及。
面對移動性和算力需求的雙重挑戰,將三維重建云化是一種高效的解決方案。通過集中云端算力調度和執行三維重建,不僅能夠提高模型精度,而且還能維持終端輕便化,但在應用過程中,也會帶來以下諸多挑戰。在業務技術方面,終端需要針對不同應用場景搭建采集系統并采集高精度數據,同時云端需要使用具有高魯棒性的重建算法。在業務功能設計方面,云化后的三維重建功能流程需要在端云兩側合理分配,同時引導數據傳輸以對網絡友好的方式高效實現。在應用層傳輸方面,雖然目前已有多種應用層協議支持對音視頻流進行實時傳輸,但尚未完全滿足云端三維重建傳輸需求,尤其是對深度圖、點云、網格等三維數據的有效支持不足。因此,需要對已有的應用層傳輸協議進行三維重建場景下的調整與適配。在無線網絡傳輸方面,移動終端需要通過無線上行鏈路將采集的大量點云、視頻等數據傳輸到云端進行建模和渲染。然而,上行資源匱乏以及不完善的調度機制會導致傳輸延遲和資源浪費。為此,需要進一步優化無線網絡的容量增強和服務質量(Quality of Service,QoS)配置等功能。
3 云端三維重建潛在技術方案分析
3.1 業務模塊化設計
針對云端三維重建系統在端云兩側可靈活調整的需求,需要對關鍵功能進行模塊化設計與解耦。基于傳統的三維重建框架流程,設計解耦合的、獨立的模塊來實現數據采集、數據傳輸、三維重建、數據顯示等功能。其中最為重要的三維重建模塊可進一步劃分為系統標定、數據預處理、位姿估計、多視角數據融合、曲面重建、紋理映射等子模塊。每個模塊均進行模塊化的接口設計,既通過明確輸入輸出接口來進行模塊間的交互,又便于后期探索并進行重新設計時替換相應模塊。
3.2 網絡傳輸設計
考慮到云端三維重建類業務是典型的沉浸式通信業務,上行傳輸的音視頻、相機參數、點云、深度信息等不同類型的多流數據,可以通過流媒體協議及6G 無線網絡進行傳輸,以實現實時互動、遠程協作及多種場景下的數據交互等。目前,在網絡應用層和傳輸層,對于三維重建類業務可以考慮以下主流傳輸協議。
網頁視頻語音實時通訊技術(Web Real-Time Communications,WebRTC)通過不同終端建立點對點的連接,不借助中間媒介,實現數據實時傳輸[9]。WebRTC 包括音視頻采集、網絡傳輸等諸多功能,可以為實時三維重建多流數據提供全流程的多項功能與技術支持。用戶在無需安裝第三方軟件或者任何插件的情況下,通過創建點對點的數據分享,實現3D 通話的三維重建場景。在時延方面,基于超文本傳輸協議的動態自適應流可能產生幾秒至幾十秒左右的傳輸時延,而基于用戶數據報協議(User Datagram Protocol,UDP)的WebRTC 協議可將時延降低至秒級甚至毫秒級,使得實時AR 應用場景下的三維模型的低時延交互成為可能。
快速UDP 網絡連接(Quick UDP Internet Connections,QUIC)是一種基于UDP 的新型傳輸層協議,可以避免傳輸控制協議(Transmission Control Protocol,TCP)的慢啟動問題,通過零往返時延快速啟動提高網絡連接的速度。QUIC 通過內置加密技術傳輸用戶交互數據和三維數據,具有更高的安全性和可靠性,支持在單個鏈接的多路復用技術,實現并行發送多個音視頻、深度數據、點云模型等數據流,從而降低多流數據的并發時延并提高網絡帶寬利用率。QUIC 還具有擁塞控制和流量控制等機制,以應對傳輸高精度模型或者傳感器采集的大量數據導致的網絡擁塞,并保證網絡傳輸的穩定性。
云端三維重建類業務需要對多流數據進行上行調度,涉及到無線網絡中的容量增強以及QoS 分級傳輸等功能。在無線鏈路層,為了解決數據上行傳輸存在的時延和資源浪費問題,可以考慮以下四個方面的增強。
緩存狀態報告(Buffer Status Report,BSR)增強可以優化無線鏈路上行資源的配置,在提升容量方面具有重要意義。現有協議標準定義了BSR 大小范圍,針對云端三維重建類業務上行資源的調度傳輸,會產生較大的平均量化誤差。根據采集數據的大小與時延要求在媒體接入控制協議中定義新的基于傳輸內容特征的緩存狀態表,可以有效降低資源配置的平均量化誤差,提高業務數據在傳輸時對無線資源的利用率。
分組數據匯聚協議(Packet Data Convergence Protocol,PDCP)層的丟棄控制增強可以保障重要數據的傳輸,對特定協議數據單元(Protocol Data Unit,PDU)進行丟棄操作。在云端三維重建類業務的數據傳輸過程中,當基站檢測到網絡出現擁塞時,終端可以啟動基于PDU 集重要性(PDU Set Importance,PSI)的PDCP 丟棄操作,優先保障重要點云或者視頻幀(如視頻首幀、輪廓點云等)數據的傳輸,從而保障重建的實時性與重建效果,提升用戶體驗。
配置授權(Configured Grant,CG)功能主要用于上行傳輸,基站預先配置物理上行共享信道(Physical Uplink Shared Channel,PUSCH)資源,終端直接在CG資源上發送上行數據。云端三維重建類業務的上行流量涉及大視頻幀的傳輸,可以引入上行CG 增強功能,在同一個CG 場合創建多個PUSCH。通過調整多PUSCH 配置授權的資源來適應業務流量的可變性,以最小的控制開銷,提高云端三維重建類業務的容量并節省終端電力[10]。
在QoS 分級方面,除了用于移動寬帶的默認QoS流之外,網絡還可以針對云端三維重建類業務特定的數據流提供優化處理。在點云數據傳輸方面,連續的點云數據可以分為圖集數據、幾何數據、屬性數據以及占用數據,其中最重要的圖集數據用于實現2D 到3D的逆投影,次重要的幾何數據表示投影點與虛擬相機的距離。針對其重要性的不同進行QoS 分類保障,在網絡資源受限情況下優先保障重要性級別高的數據傳輸。在不同類型數據的傳輸方面,為了解決云端數據接收的亂序問題,定義每個模塊處理的不同數據的需求時延,通過QoS 分流及差異化保障,有序調度傳輸數據,降低三維重建的端到端時延。
3.3 原型系統驗證
基于現有的三維重建軟硬件方案,本文選擇了主流的MVS 方案與RGB-D 相機作為采集設備,實現了靜態物體云端三維重建原型系統(見圖2)。圖2 左側為實驗環境下的圖像采集環境,采集數據通過本地主機可以在無線網絡(Wi-Fi)或有線網絡下上傳到云端服務器進行重建。為了實現高效數據傳輸,基于云管端架構和業務模塊化設計,本文測試了兩種系統架構:將全部三維重建功能放在云端;將三維重建部分數據預處理功能放在終端,而其余功能放在云端(見圖3)。預處理可以通過時域和空域的平滑減少上行數據量。例如,將連續5 張深度圖平滑成1 張更精確的深度圖,或者對深度圖像進行去畸變、邊緣檢測、閾值截取、去噪聲等操作。針對三維重建原始數據量較大的關鍵問題,對于三維重建中涉及的RGB 圖像、深度圖像、點云三種主要數據類型設計了有損和無損的壓縮方法。通過本文測試,可以發現原型系統實現了8 臺深度相機設備在不同重建場景下,基于6 種不同RGB 圖像分辨率及4 種深度相機分辨率進行數據采集,總體原始數據總量最大可達300 MB;有損壓縮方面最高均可實現20:1 左右的壓縮比,無損壓縮方面最高可以分別實現4:1、10:1、6.7:1 左右的壓縮比。在不顯著影響三維重建效果的前提下,總體數據傳輸總量需求可從300 MB降低至20 MB 左右,為不同網絡帶寬情況下的數據傳輸提供了解決方案。
未來,用戶使用移動終端多視角拍攝任意物體后,通過6G 網絡將三維數據上傳到云端即可重建并得到該物體的三維模型,從而有利于該業務大范圍普及。
4 結束語
未來,6G 網絡將會涵蓋更多領域,開拓數字孿生、智能交互等全新的應用場景,推動整個社會向智慧化發展,并帶來深刻的社會形態變革。為了實現這一目標,不僅需要在業務和通信原有技術路徑上加大基礎理論和關鍵技術研究,還需要注重跨界融合技術的創新,推動以云端三維重建為代表的業務和網絡向融合方向發展。
從推動云端三維重建業務在6G 時代落地來看,建議后續重點布局以下幾個方向:一是需考慮對音視頻、三維數據等多流數據進行擴展,并支持實時互動要求下的數據高效傳輸與可靠性保障;二是需要全系列協議棧的聯合支撐,如應用層協議和無線通信鏈路層協議之間的協同傳輸與性能優化,以共同保障6G 新業務在網絡中的傳輸需求;三是需要針對云端三維重建類業務在無線側的多流傳輸、實時上行調度等方面進行深入研究,推動6G 無線網絡的標準化進展。
網業融合是一個長期的演進過程,需要在早期就集合產、學、研、用各方力量,共同探索,并加快關鍵技術的合作與研發。面向商業實際需求與產業化問題,做好系統性理論研究和技術方案設計,并在技術驗證及業務示范中不斷迭代,可望形成產業化的實施方案,盡早培育6G 產業和應用生態。為此,需要不斷加強跨領域的溝通與合作,推動經驗和資源共享,提高技術互動和包容精神,以便更好地促進6G 網絡與業務的融合發展。