在互聯(lián)網(wǎng)時(shí)代,大伙兒以一串ID存在于網(wǎng)絡(luò)上,在XR時(shí)代,你將以何種形式活躍在元宇宙中?
6月23日,Rokid開展軟件國(guó)產(chǎn)產(chǎn)品演示分享會(huì),從XR交互引擎、XR系統(tǒng)框架、XR創(chuàng)新應(yīng)用、AI算法應(yīng)等層面,相繼演示了數(shù)字人、手勢(shì)交互、YodaOS國(guó)際化、全息空間2.0、OpenXR、MSpace、Light(WebXR)、AR導(dǎo)航、6DoF空間聲場(chǎng)技術(shù)、全新端到端ASR算法等最新成果。
前沿技術(shù)成果接連上演,現(xiàn)場(chǎng)掌聲雷動(dòng),Rokid技術(shù)人er們也爲(wèi)XR時(shí)代的交互方法畫下了新的藍(lán)圖。
發(fā)布3D數(shù)字人技術(shù)
讓用戶“捏”個(gè)活靈活現(xiàn)的自己
在元宇宙中,如何定制一個(gè)獨(dú)一無二的形象?本次軟件國(guó)產(chǎn)產(chǎn)品演示分享會(huì)帶來了Rokid數(shù)字人最新技術(shù)成果——豐富可擴(kuò)展的3D數(shù)字人模型和數(shù)字人引擎。
通過不同設(shè)計(jì)的眉毛、眼睛、鼻子、嘴巴、臉型以及裝扮,Rokid 3D數(shù)字人模型支持用戶通過“捏臉”和換妝的方法,定制專屬自己的形象。
目前,Rokid數(shù)字人模型已基本滿足亞洲用戶群體,未來的數(shù)字人模型將以更多五官分類組合、膚色、發(fā)型、發(fā)色以及不同地區(qū)風(fēng)格的服裝等,讓不同國(guó)家和地區(qū)的用戶都可以擁有專屬數(shù)字形象。
值得一提的是,通過音素識(shí)別解決方案打造的數(shù)字人引擎,在無需額外的攝像頭捕捉面部的情況下,僅通過音頻就能識(shí)別出人講話的口型和情緒狀態(tài),實(shí)現(xiàn)聲音和表情的高度同步,完整呈現(xiàn)用戶的喜怒哀樂,讓數(shù)字人形象更加靈活生動(dòng),可被廣泛應(yīng)用于遊戲、社交、商超、公共場(chǎng)所導(dǎo)覽等場(chǎng)景。
未來,Rokid數(shù)字人技術(shù)不僅將以SDK的方法向行業(yè)開發(fā)者開放,同時(shí)還將登錄Rokid Air AR智能眼鏡,支持用戶在設(shè)置界面定制自己的專屬形象,Rokid推出的多人在線協(xié)同應(yīng)用——MSpace,也將接入數(shù)字人技術(shù),讓用戶實(shí)現(xiàn)更好的交互體驗(yàn)。
首創(chuàng)單目RGB攝像頭實(shí)現(xiàn)2D、3D手勢(shì)交互
目前主流的AR眼鏡一般都用ToF或多目攝像頭來實(shí)現(xiàn)手勢(shì)交互,但Rokid爲(wèi)面向未來的XR設(shè)備打造的方案僅通過單顆RGB攝像頭和高幀率IMU傳感器的VIO方法獲得穩(wěn)定性好、精確度高的6DoF追蹤結(jié)果,同時(shí)基于同一顆攝像頭相機(jī)共享數(shù)據(jù),還可以用于完成自然、靈動(dòng)的手勢(shì)交互體驗(yàn)。
本次軟件產(chǎn)品演示分享會(huì),Rokid技術(shù)團(tuán)隊(duì)就演示了全新升級(jí)的單目2D RGB手勢(shì)交互技術(shù),并帶來了單目3D RGB手勢(shì)交互技術(shù)的最新成果。其中,單目2D RGB手勢(shì)交互實(shí)現(xiàn)了雙手聯(lián)動(dòng)、虛空觸發(fā)以及抬拉拖拽等互動(dòng),實(shí)現(xiàn)了更高的靈活度和更自然的交互。
單目3D RGB手勢(shì)交互演示
基于深度學(xué)習(xí)算法和大批先驗(yàn)數(shù)據(jù),使得使用單目RGB來重建3D Hand成為了也許。Rokid自研的單目3D手勢(shì)算法能在移動(dòng)端實(shí)時(shí)重建手部姿態(tài)參數(shù),包括手部6DoF,手部關(guān)節(jié)點(diǎn)26DoF,以及Hand Mesh信息,為AR的手勢(shì)交互提供良好的算法基礎(chǔ)。
MSpace再升級(jí)
Light(WebXR)、AR導(dǎo)航原生應(yīng)用發(fā)布
在打造強(qiáng)有力的XR交互引擎的同時(shí),Rokid技術(shù)團(tuán)隊(duì)還帶來了Light(WebXR)、AR導(dǎo)航原生應(yīng)用,並對(duì)MSpace進(jìn)行了重要更新。
① Light(WebXR)
實(shí)現(xiàn)Web端XR開發(fā)者和應(yīng)用的輕松接入
市面上豐富的云游戲庫,該如何通過Rokid AR玩起來?如何戴著Rokid AR看電影、看小說、逛論壇、瀏覽網(wǎng)頁?輕量級(jí)內(nèi)容聚合平臺(tái)—— Light(WebXR)重磅亮相,一站式解決用戶多種需求。
未來,Light(WebXR)將登錄Rokid Air應(yīng)用商店,為用戶帶來更多Web端XR應(yīng)用和資源。同時(shí),Light(WebXR)支持了標(biāo)準(zhǔn)的WebXR API,歡迎更多Web端XR開發(fā)者參與到AR生態(tài)建設(shè)中。
② MSpace
通過虛擬化身+空間聲場(chǎng)技術(shù),打造更真實(shí)的臨場(chǎng)感
作爲(wèi)XR時(shí)代的原生應(yīng)用,MSpace具備屏幕共享、3D內(nèi)容協(xié)作、虛擬分身等核心能力。在此次軟件國(guó)產(chǎn)產(chǎn)品演示分享會(huì)中,Rokid技術(shù)團(tuán)隊(duì)帶來了調(diào)和聲場(chǎng)渲染、虛擬分身驅(qū)動(dòng)、空間協(xié)同、全息渲染等技術(shù)的升級(jí)版MSpace,實(shí)現(xiàn)了實(shí)時(shí)音頻驅(qū)動(dòng)虛擬分身的口型、表情與動(dòng)作,讓虛擬分身更形象生動(dòng)。同時(shí),升級(jí)版MSpace還支持空間中公有物體同步操作、私有物體隨心操作,虛擬物體準(zhǔn)確放置並能實(shí)現(xiàn)身臨其境的光影結(jié)果。
③AR導(dǎo)航
更臨場(chǎng)感的導(dǎo)航體驗(yàn),迷路星人再也不含糊
手機(jī)導(dǎo)航不便宜,傳統(tǒng)的2D圖標(biāo)+單眼AR導(dǎo)航,不僅視角受限,提示還不夠明顯,AR導(dǎo)航急需革新!
在此次軟件國(guó)產(chǎn)產(chǎn)品演示分享會(huì)中,Rokid技術(shù)團(tuán)隊(duì)就演示了圍繞立體感、臨場(chǎng)感和沈浸感爲(wèi)用戶打造的身臨其境、指哪去哪的AR導(dǎo)航體驗(yàn)。
相較于傳統(tǒng)單眼模式,雙目AR導(dǎo)航會(huì)讓視覺在一定程度上減少和現(xiàn)實(shí)的割裂感,另外這款應(yīng)用還采用了近大遠(yuǎn)小的空間透視關(guān)系和全局實(shí)時(shí)光照投影,能大幅度提升使用者的沈浸感。
關(guān)于導(dǎo)航用戶最擔(dān)心的精度問題,Rokid AR導(dǎo)航通過采用高精度的地圖、GPS定位和磁力計(jì)校正來提高導(dǎo)航的精度。未來,Rokid AR導(dǎo)航還將進(jìn)入SLAM技術(shù)和地理信息系統(tǒng)平臺(tái),為用戶搭建一個(gè)真正的虛實(shí)結(jié)合的元宇宙出行平臺(tái)。
高能AI算法
一場(chǎng)關(guān)于技術(shù)變革的深度較量
在高能體驗(yàn)的背后,都離不開強(qiáng)有力的算法支持。Rokid算法工程師的日?偸窃跇O致中追求革新,落地人們關(guān)于元宇宙的一切暢想。此次,Rokid就公開發(fā)布包括Atauro Audio(6DoF空間聲場(chǎng))以及全新端到端ASR算法等最新成果,從聲、形等多方面推動(dòng)AR和AI技術(shù)革新。
①Atauro Audio(6DoF空間聲場(chǎng))
讓耳朵也進(jìn)入元宇宙
在眼鏡之後,耳朵也要進(jìn)入元宇宙啦!通過6DoF空間聲場(chǎng)技術(shù),Rokid正在實(shí)現(xiàn)關(guān)于“聲臨其境”的變革。6DoF空間聲場(chǎng)是聲音在三維領(lǐng)域的體現(xiàn),不同于傳統(tǒng)雙聲道、立體音帶來的聽覺體驗(yàn),6DoF空間聲場(chǎng)技術(shù)可以在混合現(xiàn)實(shí)中模擬聲源與人耳之間因空間位置變化、有無遮擋物等帶來的聲音強(qiáng)弱與方向的變化,從而讓AR眼鏡爲(wèi)用戶帶來更具臨場(chǎng)感的聽覺體驗(yàn)。
6DoF空間聲場(chǎng)技術(shù)將會(huì)集成到全新升級(jí)版的YodaOS-XR操作系統(tǒng)中,作爲(wèi)YodaOS-XR操作系統(tǒng)的基礎(chǔ)能力供行業(yè)開發(fā)者們進(jìn)行調(diào)用。同時(shí),Rokid還計(jì)劃推進(jìn)更多應(yīng)用于AR眼鏡的特殊音效的開發(fā),如環(huán)繞與微重低音的高保真音效等,以高效易用的SDK讓開發(fā)者真正實(shí)現(xiàn)即拿即用。
②全新端到端ASR算法
實(shí)現(xiàn)從坐火車到乘飛機(jī)的升級(jí)
Rokid語音技術(shù)不斷升級(jí),通過全新端到端語音技術(shù),在原有基礎(chǔ)上實(shí)現(xiàn)字錯(cuò)率降低30%。
同時(shí),本次升級(jí)不僅僅是傳統(tǒng)意義上的優(yōu)化,而是實(shí)現(xiàn)了從0到1的工業(yè)級(jí)語音識(shí)別技術(shù)革新和更簡(jiǎn)單的算法架構(gòu)、更快的訓(xùn)練速度、更簡(jiǎn)單的接口、更容易的調(diào)試方法、更低的資源消耗,達(dá)到真正的“穩(wěn),準(zhǔn),快”結(jié)果。
未來,Rokid端到端語音技術(shù)還將在小語種、鉛直領(lǐng)域定制賦能AR行業(yè)等方面不斷形成新的突破,值得期待。
系統(tǒng)框架再升級(jí)
更國(guó)際化、更開放、更高適配性
在此次軟件產(chǎn)品演示分享會(huì)中,Rokid技術(shù)團(tuán)隊(duì)還帶來了全新升級(jí)的系統(tǒng)框架,包括多國(guó)語言、全息空間2.0、OpenXR標(biāo)準(zhǔn)等,讓Rokid YodaOS-XR操作系統(tǒng)更加強(qiáng)大。
其中,Rokid YodaOS-XR操作系統(tǒng)國(guó)際化再進(jìn)一步,中、英、德、俄、西、葡、韓、日、意、法、馬來、阿拉伯語等多種語言即將發(fā)布,進(jìn)一步助力Rokid全球業(yè)務(wù)的持續(xù)推進(jìn)!
Rokid全息空間1.0也升級(jí)到了2.0版本。相較于1.0版本的頭控3DoF、眼鏡中3D展示、語音識(shí)別技術(shù)三個(gè)交互方面探索,全息空間2.0實(shí)現(xiàn)了統(tǒng)一的3D物體控制框架,能對(duì)虛擬空間中的模型進(jìn)行移動(dòng)、旋轉(zhuǎn)和縮放操作,從而使AR全息化體驗(yàn)更強(qiáng)。這一能力,Rokid原生應(yīng)用MSpace已直接移植,爲(wèi)MSpace遠(yuǎn)程協(xié)同空間添加更負(fù)有樂趣的全息模型。
除了3D物體控制框架,全息空間2.0的多模態(tài)交互方法還由虛擬控制器+SLAM+空間音頻構(gòu)成,可以爲(wèi)用戶帶來更強(qiáng)的臨場(chǎng)感。值得一提的是,全息空間2.0僅通過一個(gè)RGB攝像頭開發(fā)完成,實(shí)現(xiàn)了性能與成本的高度平穩(wěn)。
在技術(shù)不斷前進(jìn)的同時(shí),YodaOS-XR操作系統(tǒng)在公布全面支持OpenXR標(biāo)準(zhǔn)后,行業(yè)合作和落地應(yīng)用也取得了突破性進(jìn)展。在沒多久前,Rokid與行業(yè)主流3D引擎 Cocos 達(dá)成戰(zhàn)略合作,推動(dòng)OpenXR標(biāo)準(zhǔn)全面落地;贠penXR標(biāo)準(zhǔn)打造的AR示例游戲《幽靈射手》也將登錄Rokid Air應(yīng)用商店,這也是Rokid YodaOS-XR操作系統(tǒng)公布全面支持OpenXR標(biāo)準(zhǔn)以來,首款基于此標(biāo)準(zhǔn)接入的應(yīng)用。
基于OpenXR標(biāo)準(zhǔn),Rokid將與更多行業(yè)開發(fā)者、遊戲引擎公司達(dá)成合作,協(xié)同催動(dòng)內(nèi)容創(chuàng)作者的産出,爲(wèi)用戶提供更爲(wèi)良好的內(nèi)容環(huán)境,真正實(shí)現(xiàn)雙贏。
技術(shù)的持續(xù)革新,延續(xù)著國(guó)產(chǎn)產(chǎn)品的生命力。Rokid技術(shù)工程師們對(duì)極致技術(shù)的追求,正在讓更自然的AR交互體驗(yàn)變成現(xiàn)實(shí)。未來,Rokid將持續(xù)把最新的交互和技術(shù)融入操作系統(tǒng)YodaOS-XR中,打造全新的AR體驗(yàn)。在奔向AR未來的旅途中,讓我們?cè)诰一起期待Rokider爲(wèi)行業(yè)開發(fā)者以及用戶創(chuàng)造的驚喜!