元宇宙進(jìn)化論,進(jìn)化到全語言即時識別同步翻譯空中字幕顯示無限增強聽力的方法
本篇是AR,VR等XR眼鏡用翻譯機識別中日韓英語聲音并且翻譯的方法,永久短網(wǎng)址是xr.fan/fy
概述
AR眼鏡不僅能無限增強視力,還可以無限增強聽力,不過這些在古人看來都是神力的技術(shù),即便現(xiàn)代人想用,也是不是免費的,要加錢。
還好聽力需要的科技看起來比視力簡單便宜,應(yīng)該會先一步在眼鏡里應(yīng)用和普及。
實現(xiàn)原理
按照聲音進(jìn)眼鏡的順序,大概有這幾個步驟。
硬件,麥克風(fēng)收音
硬件,接收音頻信號
軟件,聲音識別抓取語音
軟件,語音轉(zhuǎn)文字
軟件,文字轉(zhuǎn)其它語言
硬件,眼鏡顯示
那就一個一個開始分析吧。
麥克風(fēng)收音
這是所有聲音的來源,如果把攝像頭比作賽博眼睛,那麥克風(fēng)就是賽博耳朵,分為有損收音和無損收音。
無損收音
無損收音就是聲音采集沒有任何音質(zhì)損失,這在現(xiàn)實是不可能的,現(xiàn)實只能無限接近于無損。
無損收音只能在虛擬空間實現(xiàn),常見的電腦播放聲音,播出來之前都是無損的,聲音識別在這之前是100%完整的音頻信號。
這種無損收音技術(shù)已經(jīng)非常成熟而且免費,也不需要用戶做什么操作都是一鍵自動內(nèi)錄采集收音。
所以一般需要配置的地方,就是不同設(shè)備之間如何無損實時傳輸音頻。
常用的方法是通過藍(lán)牙接收,沒藍(lán)牙的電腦也建議弄個藍(lán)牙適配器,不然走wifi和usb更麻煩。
然后在微軟的軟件商店,搜索Bluetooth Audio Receiver?;蛘咧苯哟蜷_下邊連接,選擇右邊欄在 Microsoft Store 獲取。問微軟賬號的話直接關(guān)閉就能下載了,無需登錄。
https://apps.microsoft.com/store/detail/bluetooth-audio-receiver/9N9WCLWDQS5J
下載好后,手機藍(lán)牙里找電腦名字連接電腦藍(lán)牙,配對以后,打開這個Receiver軟件就能看到手機名字,然后點一下手機名字,再選open connection,這樣手機放音樂就可以在電腦里聽到了。
也可以讓手機麥克風(fēng)也能進(jìn)電腦。
安卓
這要用到手機麥克風(fēng)app,例如麥克風(fēng)擴音器,然后用上邊方法在app里藍(lán)牙連電腦,這樣用手機講話,聲音就在電腦里了,但這是有損失的。
蘋果
用手機麥克風(fēng)給筆記本macbook聲音,蘋果自己家剛出個連續(xù)互通。https://support.apple.com/zh-cn/HT209037
這個對手機型號和版本有要求,手機更新后,mac重啟再進(jìn)設(shè)置,選聲音,輸入,然后就能看到手機的名字,選上以后,按照后邊的方法用quick time點開錄制,選好麥克風(fēng),拉大下邊音量條就可以通過手機收聲音,但也是有損失的。
有損收音
現(xiàn)實皆有損,專業(yè)的錄音棚效果不是日常能做到的,而且用眼鏡需要室內(nèi)戶外識別聲音,那能選的麥克風(fēng),只有便攜的全向和指向兩種,一個所有方向收音,一個指定方向收音。
有線的便宜,而且有的不需要電源,室內(nèi)用用還好。
直插型的,對設(shè)備要求很高不能有聲,如果接筆記本,風(fēng)扇就是最大噪音干擾源,還需要接延長線遠(yuǎn)離。
所以考慮到最廣泛的使用場景,無線便攜全向帶電池的,那只有視頻會議類別的麥克風(fēng)是現(xiàn)階段最適合的了,這里用的宜麗客LBT-SP02
會議用無線全向麥克風(fēng)本身就是為多方向多人語音設(shè)計,支持減噪和消回聲,相當(dāng)于把電腦的麥克風(fēng)喇叭分離出來,更容易找地方擺放。因為自帶音箱,不僅可以用于自己收音,還可以讓對方放音。
接收音頻信號
這個取決于想要用來做什么,手機和電腦都是常見的接收設(shè)備,像本篇的翻譯機,就需要win或者mac系統(tǒng),那就只能在這兩個選。
根據(jù)場景,室內(nèi)無所謂,室外就要小和便攜,macos最小的就是macbook air和mac mini
WIN的話選擇很多,從小到電腦棒,再到掌機平板和筆記本都屬于便攜范圍,這里當(dāng)然是支持dp的可以直接顯示的設(shè)備優(yōu)先(見AR眼鏡用USB-C的DP視頻輸出設(shè)備),然后是有hdmi輸出接口的,通過hdmi到usbc轉(zhuǎn)接器給眼鏡也能用,hdmi無線給手機也行?;旧喜恢С謉p的,也都有hdmi,所以這塊不是什么問題。
要是只弄個主機,其實電腦棒就夠。只是電腦棒近年發(fā)展幾乎停滯,這個本該是現(xiàn)在眼鏡最佳接收萬能設(shè)備,翻遍網(wǎng)絡(luò)只找到一款支持usbc dp的,meegopad t08,nreal尚未兼容,還好也有hdmi。
這里用的gpd win max2和macbook air做為便攜本來收錄音頻。
winmax2大小只有macbook air的一半,兩個lite那么大,可能是現(xiàn)在集成鍵盤鼠標(biāo)觸摸板電池屏幕一堆接口兼具cpu顯卡性能的win系統(tǒng)適合打包在一起出門的機型,跟另一家最新6800U的平板onexplayer2比,onexplayer2無鍵鼠不能手持接口也少然后只是小點但是厚度一樣代價是沒有5g和雙nvme。
雖然理論上winmax2這貨有usbc3.2+usbc4.0+hdmi轉(zhuǎn)接能同時支持3個以上眼鏡,但由于amd更換芯片組,nreal現(xiàn)在國內(nèi)固件還不適配所以只能用hdmi轉(zhuǎn),國外固件也只支持一個usbc3.2接口。
聲音識別抓取語音
一般聲音收集軟件,在系統(tǒng)播放聲音時就能同步收音,只有在用麥克風(fēng)收音的情況下需要講一下。
正常用電腦的麥克風(fēng),是默認(rèn)不傳給喇叭的,因為開啟可能會有回聲,以及環(huán)境聲音會同時在喇叭里播放基本就不用聽東西了。但如果不讓麥克風(fēng)走播放通道,這時聲音收集軟件是獲取不到麥克風(fēng)聲音的。
這在本篇需要用翻譯機軟件的情況下,等于外面的聲音就無法獲取了,盡管這個聲音是有損失的,那也必須要開啟。具體方法是
WIN系統(tǒng)
右鍵點右下角喇叭選聲音,
點錄制欄
雙擊默認(rèn)設(shè)備,或者選擇需要用到的麥克風(fēng),設(shè)置默認(rèn)再點開
選偵聽
然后點應(yīng)用試試聲,
如果有回聲或者嘯叫馬上取消偵聽,再點應(yīng)用
有的電腦麥克風(fēng)和喇叭設(shè)計的位置不對就無法用偵聽
如果沒問題,這時外部聲音說話之類的,電腦喇叭就有聲了。
調(diào)小音量也有助于減少回聲嘯叫
MAC系統(tǒng)
系統(tǒng)內(nèi)收音沒什么好方法,只能開啟quick time play,新建音頻錄制,然后不用錄,把下邊喇叭拉起來,聲音就進(jìn)系統(tǒng)里了。
語音轉(zhuǎn)文字
這個是輸入法和各種應(yīng)用的標(biāo)配功能。
win系統(tǒng)按win鍵+H啟用。
macos進(jìn)設(shè)置,鍵盤,右側(cè)下拉找到聽寫,設(shè)置好快捷鍵就能用聲音打字了。
文字轉(zhuǎn)其它語言
有文字,翻譯這些文字就有各種服務(wù)和應(yīng)用了。
例如騰訊翻譯君,有道翻譯都支持各種語言實時互譯
本篇用的是訊飛雙屏翻譯機,支持中日韓英語四種語言實時識別和互翻。
訊飛有兩種識別翻譯方式,一個是自帶一個領(lǐng)夾藍(lán)牙麥克風(fēng),用于演講時識別聲音,再轉(zhuǎn)換中日韓英語四種字幕及翻譯到win或者mac系統(tǒng)上顯示。這個小麥克風(fēng)適合自用和臨時用用,收音距離有限。
另一個是系統(tǒng)播放聲音,例如視頻和音頻,然后自動識別聲音,跟上邊一樣轉(zhuǎn)換中日韓英語和翻譯。再加上前邊設(shè)置外接麥克風(fēng)偵聽的方法,讓聲音進(jìn)系統(tǒng),訊飛也就能翻譯到了。
這兩種方式都能讓電腦給眼鏡用訊飛的字幕,因為翻譯軟件背景是全黑透明的,所以在眼鏡里看就是空中文字的效果,不影響畫面。
或者電腦給手機投屏,用hdmi圖傳給手機,所有現(xiàn)場和網(wǎng)絡(luò)手機都能同時看到一樣的字幕。
雖然訊飛這個翻譯機不支持usbc dp輸出顯示,但其本身就是個安卓系統(tǒng),說明以后手機實現(xiàn)類似功能事可行的。
眼鏡顯示
最終,這些設(shè)備和軟件在完成各自的任務(wù)后,在最后一個環(huán)節(jié)把字幕送進(jìn)了眼鏡里,就是這樣的效果。
電腦內(nèi)錄收音和全向麥克風(fēng)外放同時收音,這個是對視頻觀看聊天等場景模擬,聊天環(huán)境安靜識別率更高。
其它設(shè)備外放,全向麥克風(fēng)收音,這個是對電腦外部現(xiàn)實各種環(huán)境模擬。
翻譯不準(zhǔn)確是正常的,按照前面的說明,例如在完美的條件下,也是存在聲音和轉(zhuǎn)換損失的。
硬件,麥克風(fēng)收音(內(nèi)錄無損)
硬件,接收音頻信號(內(nèi)錄無損)
軟件,聲音識別抓取語音(內(nèi)錄無損,純語音無任何背景音)
軟件,語音轉(zhuǎn)文字(轉(zhuǎn)換有損)
軟件,文字轉(zhuǎn)其它語言(轉(zhuǎn)換有損)
硬件,眼鏡顯示(最終顯示有損)
這樣再看看效果,純語音環(huán)境內(nèi)錄效果
這可能就是現(xiàn)在實時翻譯的天花板了。但TED準(zhǔn)確率過高,估計是訊飛訓(xùn)練AI的素材就用的ted,游戲里非正常語境的就效果差些,也就是現(xiàn)階段,可用于日常簡單會話。
戶外用廣播進(jìn)手機能解決大部分環(huán)境噪音問題。語音轉(zhuǎn)文字轉(zhuǎn)其它語言這些也是能夠一直升級換代的。win和mac系統(tǒng)本身日常語音識別率就很高。
現(xiàn)在地球最強翻譯chatgpt還沒大規(guī)模應(yīng)用,文字轉(zhuǎn)其它語言也能接近無損,所以用眼鏡看各種語言翻譯,預(yù)計將是最快能夠普及的元宇宙技術(shù)。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。