來(lái)自 MIT 的研究者使用深度學(xué)習(xí)推出了 3D 全息圖生成新方法,可認(rèn)為VR、3D 打印、醫(yī)學(xué)成像等創(chuàng)建全息圖,同時(shí)能夠在智專家機(jī)上運(yùn)行。
提起三維場(chǎng)景可視化,虛擬現(xiàn)實(shí)(VR)是最常見的一種技術(shù)。但通過多年宣傳,VR 頭戴式耳機(jī)仍未成為電視或計(jì)算機(jī)屏幕上觀看視頻的必備設(shè)備。一個(gè)重要的原因是 VR 會(huì)讓用戶感覺不適。盡管用戶實(shí)際上是注視著 2D 顯示器,但 VR 會(huì)產(chǎn)生 3D 觀看的錯(cuò)覺,從而使人視覺勞累和感覺頭暈惡心。更好的 3D 可視化解決方案也許在于一種產(chǎn)生了六十年的技術(shù):全息圖。
全息圖能夠杰出地展現(xiàn) 3D 世界,同時(shí)它的出現(xiàn)結(jié)果非常漂亮。全息圖可以依據(jù)觀看者的位置提供變化的視角,并同意眼睛調(diào)整焦深以交替聚焦在前景和背景上。
長(zhǎng)期以來(lái),研究者們一直在試圖制造出計(jì)算機(jī)生成的全息圖,但傳統(tǒng)上,該過程需要一臺(tái)超級(jí)計(jì)算機(jī)來(lái)進(jìn)行物理模擬,這非常耗時(shí),並且産生的結(jié)果真實(shí)感不高。
邇來(lái),來(lái)自麻省理工學(xué)院的研究者已經(jīng)開發(fā)出一種幾乎可以馬上生成全息圖的研究方法。研究者表達(dá):「基于深度學(xué)習(xí)的方法非常高效,使得新方法瞬間就能夠在筆記本電腦上運(yùn)行?!?/p>
研究團(tuán)隊(duì)的要緊成員,MIT 電氣工程與計(jì)算機(jī)科學(xué)系(EECS)的博士生 Liang Shi 說:「以前人們認(rèn)為,使用現(xiàn)有的消費(fèi)級(jí)硬件還不也許進(jìn)行實(shí)時(shí) 3D 全息計(jì)算的。人們經(jīng)常說:商用全息顯示器將在未來(lái)十年左右出現(xiàn),但這種說法差不多存在了數(shù)十年?!?/p>
Shi 認(rèn)為該團(tuán)隊(duì)稱為「張量全息術(shù)」的新方法將最后實(shí)現(xiàn)這一「十年目標(biāo)」。這一進(jìn)展也許會(huì)推動(dòng) VR 和 3D 打印等土地引入全息技術(shù)。該研究的論文現(xiàn)已發(fā)表在《Nature》上,索尼對(duì)部分研究提供了支持。
論文鏈接:https://www.nature.com/articles/s41586-020-03152-0
代碼地址:https://github.com/liangs111/tensor_holography
追求更好的 3D 全息圖
照片可以忠實(shí)地再現(xiàn)場(chǎng)景的顏色,但最后產(chǎn)生的是一個(gè)平面圖像。相比之下,全息圖對(duì)每一個(gè)光波的亮度和相位都進(jìn)行編碼。這種組合可以更加真實(shí)地描述場(chǎng)景的視差和深度。莫奈的《睡蓮》可以突出畫作的色彩感,而全息圖可以讓作品變得栩栩如生,出現(xiàn)出每一筆特殊的 3D 質(zhì)感。
但全息圖的制作與共享仍是一個(gè)挑戰(zhàn)。
全息圖從 20 世紀(jì)中期結(jié)束發(fā)展,早期全息圖是用光學(xué)原理記載的。這種技術(shù)需要將激光分為兩部分,一半用來(lái)照亮被攝體,另一半用作光波相位的參考,該參考產(chǎn)生了全息圖特有的深度感。產(chǎn)生的圖像基本上靜態(tài)的,不能捕捉運(yùn)動(dòng)。很難復(fù)制和共享。
而計(jì)算機(jī)生成全息術(shù)通過模擬光學(xué)裝置躲開了這些挑戰(zhàn),但是該過程也許是一個(gè)就算難題。Shi 說:「由于場(chǎng)景中每個(gè)點(diǎn)都有不同的深度,因此無(wú)法對(duì)所有點(diǎn)都使用雷同的操作,這大大增加了龐大性?!怪笓]集群超級(jí)計(jì)算機(jī)運(yùn)行這些基于物理的模擬也許需要幾秒鐘或幾分鐘來(lái)獲得一張全息圖像。另外,現(xiàn)有的算法不能精確地對(duì)遮擋物(occlusion)進(jìn)行建模。
因此,Shi 的團(tuán)隊(duì)采取了不同的方法:「讓計(jì)算機(jī)自學(xué)物理?!?/p>
他們使用深度學(xué)習(xí)來(lái)加速計(jì)算機(jī)生成全息術(shù),從而實(shí)現(xiàn)實(shí)時(shí)全息圖的生成。該團(tuán)隊(duì)設(shè)計(jì)了一個(gè)卷積神經(jīng)網(wǎng)絡(luò):這是一種處置技術(shù),使用一系列可訓(xùn)練張量來(lái)粗略模擬人類處置視覺信息的方法。通常,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要比較大的、高質(zhì)量的數(shù)據(jù)集,但此前 3D 全息圖土地并不存在如此的數(shù)據(jù)集。
該團(tuán)隊(duì)建立了一個(gè)包含 4000 對(duì)計(jì)算機(jī)生成圖像的數(shù)據(jù)庫(kù)。每一對(duì)都匹配一張圖片,圖像信息包括每個(gè)像素的顏色和深度信息,這些信息與全息圖相對(duì)應(yīng)。研究者使用外形和顏色龐大多變的場(chǎng)景,像素的深度從背景到前景均勻分布,并使用一組基于物理的新型計(jì)算來(lái)處置遮擋,產(chǎn)生了逼確實(shí)訓(xùn)練數(shù)據(jù)。接下來(lái),算法結(jié)束發(fā)揚(yáng)作用。
數(shù)據(jù)集樣例
通過學(xué)習(xí)每個(gè)圖像對(duì),張量網(wǎng)絡(luò)調(diào)整了其計(jì)算參數(shù),從而逐步增強(qiáng)了其創(chuàng)建全息圖的能力。完全優(yōu)化的網(wǎng)絡(luò)的運(yùn)行速度比基于物理的計(jì)算快了多個(gè)數(shù)量級(jí)。這種功效讓研究團(tuán)隊(duì)也感覺驚訝。
Matusik 說:「它的表現(xiàn)讓我們很驚奇。在短短幾毫秒內(nèi),張量全息術(shù)可以從含有深度信息的圖像中生成全息圖,其中深度信息是由典型的計(jì)算機(jī)生成圖像提供的,可以通過多機(jī)位的設(shè)置或激光雷達(dá)傳感器(這兩者基本上一些新型智專家機(jī)的標(biāo)準(zhǔn)配置)計(jì)算出來(lái)。
這一進(jìn)展為實(shí)時(shí) 3D 全息攝影鋪平了道路。更重要的是,壓縮型張量網(wǎng)絡(luò)僅需要不足 1 MB 的內(nèi)存。這一點(diǎn)非常適合現(xiàn)代智專家機(jī)。
微軟第一光學(xué)架構(gòu)師 Joel Kollin 說:「這項(xiàng)研究表明真正的 3D 全息顯示器是實(shí)用的,只需要適當(dāng)?shù)挠?jì)算需求。該研究的圖像質(zhì)量比此前有了顯著的改善,將提升觀看者的真實(shí)感和舒適感。」
Kollin 還暗示:「全息顯示器可以依據(jù)觀看者的眼部定制,矯正眼睛的像差?!?/p>
其他應(yīng)用
實(shí)時(shí) 3D 全息技術(shù)還有助于 VR、3D 打印等系統(tǒng)的發(fā)展。研究團(tuán)隊(duì)表達(dá),新系統(tǒng)可以幫助 VR 觀眾沉醉在更真實(shí)的場(chǎng)景中,同時(shí)排除眼睛勞累和長(zhǎng)期使用 VR 的其他副作用。這項(xiàng)技術(shù)可以很容易地應(yīng)用在調(diào)制光波相位的顯示器上。目前,大多數(shù)價(jià)格有理的消費(fèi)級(jí)顯示器只調(diào)節(jié)亮度,但如果廣泛采用 3D 全息技術(shù),相位調(diào)制顯示器的成本會(huì)下降。
另外,3D 全息技術(shù)還可以促進(jìn)立體 3D 打印技術(shù)的發(fā)展。事實(shí)證明,這種技術(shù)比傳統(tǒng)的逐層 3D 打印更快、更精確。其他的應(yīng)用還包括用于顯微鏡、醫(yī)療數(shù)據(jù)可視化以及具有特殊光學(xué)特征的平面設(shè)計(jì)。
Matusik 說:「這是一個(gè)巨大的飛躍,可以完全轉(zhuǎn)變?nèi)藗儗?duì)全息技術(shù)的態(tài)度,我們覺得神經(jīng)網(wǎng)絡(luò)是為這項(xiàng)任務(wù)而生的?!?/p>
作者介紹
該論文的第一作者是 MIT 的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)的博士生史亮。他本科卒業(yè)于北京航空航天大學(xué),2016 年獲得斯坦福大學(xué)電氣工程碩士學(xué)位。史亮的研究興致包括 VR/AR、計(jì)算攝影、計(jì)算制造、計(jì)算機(jī)圖形學(xué)、機(jī)器學(xué)習(xí)等。
第二作者是 MIT CSAIL 博士生李北辰。他本科卒業(yè)于清華大學(xué)。他的研究興致是機(jī)器學(xué)習(xí)在計(jì)算機(jī)圖形學(xué)、計(jì)算設(shè)計(jì)和計(jì)算制造中的跨學(xué)科應(yīng)用。
參考鏈接:https://news.mit.edu/2021/3d-holograms-vr-0310
對(duì)于企業(yè)和開發(fā)者,如何加滿機(jī)器學(xué)習(xí)技能點(diǎn),更輕松地上手機(jī)器學(xué)習(xí)?
3月15日,亞馬遜雲(yún)科技機(jī)器學(xué)習(xí)高級(jí)國(guó)產(chǎn)產(chǎn)品經(jīng)理孟和將帶來(lái)線上分享。本次分享從供應(yīng)鏈和自動(dòng)駕駛領(lǐng)域的相關(guān)應(yīng)用案例視頻出發(fā),詳細(xì)講解亞馬遜雲(yún)科技將提供哪些關(guān)鍵資源,幫助開發(fā)者團(tuán)隊(duì)提高機(jī)器學(xué)習(xí)技能,從而更好地應(yīng)用AI。