原標(biāo)題:iPhone 11 Pro 一秒生成3D全息圖 MIT是如何做到的? 來源:雷鋒網(wǎng)
幾個月前,顯示屏霸主三星聯(lián)合首爾大學(xué),設(shè)計出了一款超薄交互式全息顯示屏。只要按方向鍵,屏幕上的海龜馬上就朝特定方向游起來了。三星表達(dá),這款顯示屏可以從多個角度提供高辨別率的、真實度極高的 3D 視頻,有朝一日還會集成得益機(jī)。
本認(rèn)為這差不多夠硬核了,沒想到的是,在索尼爸爸的支(資)持下,MIT 的一組研究人員宣稱差不多用手機(jī)生成了 3D 全息圖!
想要對一張圖片上的任意物體進(jìn)行對焦,只需短短幾毫秒。
2021 年 3 月 10 日,相關(guān)研究成果發(fā)表于 Nature,題為 Towards real-time photorealistic 3D holography with deep neural networks(使用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)逼確實實時三維全息)。
何謂“全息”?
第一來了解一下所謂的“全息”。
實質(zhì)上,全息投影是一種 3D 技術(shù),英文名稱為 Holographic Projection,其中 holo 源于希臘語,意為“完全的信息”。
“完全的信息”要傳遞,需要下面這兩步:
其原理可以這樣簡單明白:全息圖的每個像素上散射了光波,這些光波相互作用,就能産生一種深度上的錯覺,呈現(xiàn)出一種立體感。
基于此,全息投影又稱虛擬成像。
正如 IEEE Spectrum 所說:
值得一提的是,人們在觀看 3D 全息圖像時不也許覺得眼睛勞累,這與傳統(tǒng)的 3D 顯示(使用 2D 圖像產(chǎn)生深度錯覺)不同。
彩色 3D 全息圖實時生成
即使三星已經(jīng)設(shè)計出了全息顯示屏,使得全息投影技術(shù)在硬件上有了重要突破,但不可否認(rèn),要在電子設(shè)備上顯示全息數(shù)據(jù),仍是一項重大挑戰(zhàn)。
IEEE Spectrum 表達(dá),每個全息圖都意味著編碼大批的數(shù)據(jù),只有如此才能打造出深度錯覺。因此,生成全息視頻通常需要一臺超算的算力。
此前就有科研團(tuán)隊嘗試過一些解決策略,希望減少所需的計算量,例如用簡單的查找表取代複雜的物理模擬——然而,這往往以犧牲圖像質(zhì)量爲(wèi)代價。
而 MIT 的思路則是設(shè)計卷積神經(jīng)網(wǎng)絡(luò)。
的確來講,他們打造了一種基于深度學(xué)習(xí)的 CGH(computer-generated holography,計算機(jī)生成全息術(shù),可通過對衍射和干涉的數(shù)值模擬實現(xiàn)高空間角度辨別率的三維投影)管道,該管道能夠從單一 RGB(注:工業(yè)界的一種顏色標(biāo)準(zhǔn),通過對紅(R)、綠(G)、藍(lán)(B)三色通道的變化及其相互間的疊加來獲得形形色色的顏色)深度圖像實時合成逼確實彩色 3D 全息圖。
研究團(tuán)隊使用了一系列可訓(xùn)練的張量來模擬人類處置視覺信息的過程,建立了一個包含著 4000 對(每一對基本上一張 RGB 深度照片及其對應(yīng)的 3D 全息圖,如下圖所示)計算機(jī)生成圖像的數(shù)據(jù)庫。
最后,研究團(tuán)隊做到了在短短幾毫秒內(nèi)就能創(chuàng)建出無斑點(diǎn)、自然、高辨別率的 3D 全息圖。
據(jù)了解,卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)存不到 620 KB,能保證單個消費(fèi)級圖形處置單元均勻每秒生成 60 幅辨別率 1920 × 1080 的全息圖。
使用低功耗的人工智能加速芯片,該卷積神經(jīng)網(wǎng)絡(luò)能在移動設(shè)備和疆界設(shè)備(在谷歌 edge TPU 上每秒生成 2 張全息圖)上交互運(yùn)行。
MIT 的方法究竟有何重要意義,事實上可以通過下面那個比喻來明白:
計算機(jī)生成全息圖的過程就像是在切蛋糕。
使用查找表生成全息圖,就像是在切蛋糕之前標(biāo)記每塊蛋糕的疆界一樣。使用物理模擬來計算空間中每個點(diǎn)的外觀,類似于用 8 次精確切割切出 8 塊蛋糕。盡管通過省掉計算切割位置的步驟可以省一些時間,但這依然是個耗時的大工程。而 MIT 使用深度學(xué)習(xí),實質(zhì)上實現(xiàn)了用 3 次精確切割就將蛋糕切成 8 塊。
未來,研究團(tuán)隊或許還將增加眼動追蹤技術(shù)加快系統(tǒng)運(yùn)行速度,這項成果后續(xù)也將在 VR、AR 耳機(jī)等土地中獲得應(yīng)用。
關(guān)于作者
該論文來自 MIT 計算機(jī)科學(xué)與人工智能實驗室(CSAIL)& 電子工程與計算機(jī)科學(xué)系,通訊作者為 Liang Shi 和 Wojciech Matusik。
雷鋒網(wǎng)注重到,Wojciech Matusik 為 MIT CSAIL & 電子工程與計算機(jī)科學(xué)系傳授。
Wojciech Matusik 傳授要緊研究土地為計算機(jī)圖形學(xué)、計算設(shè)計和制造。他于 1997 年獲加州大學(xué)伯克利分校 EECS(電子工程與計算機(jī)科學(xué))學(xué)士學(xué)位,于 2001 年獲 MIT EECS 碩士學(xué)位,于 2013 年獲 MIT 計算機(jī)圖形學(xué)博士學(xué)位。
關(guān)于上述研究,Wojciech Matusik 傳授表達(dá):
另外論文一作為 Liang Shi(史亮)。
他是由 Wojciech Matusik 傳授指導(dǎo)的一名在讀博士生,2014 年于北京航空航天大學(xué)獲得光電子工程學(xué)士學(xué)位,2016 年于斯坦福大學(xué)獲得電子工程碩士學(xué)位,要緊研究土地包括 VR/AR、計算攝影/顯示/制作、機(jī)器學(xué)習(xí)和計算機(jī)圖形學(xué)。