LiveVideoStack Meet是聚焦音頻、視頻、圖像等技術(shù)的最新探索與應(yīng)用實(shí)踐多媒體技術(shù)領(lǐng)域盛會,第二站已于10月24日在蘇州拉開帷幕。
本次活動匯聚了國內(nèi)外音視頻行業(yè)數(shù)位頂尖技術(shù)專家及具備多年工作經(jīng)驗(yàn)的音視頻工程師、多媒體工程師、圖像算法工程師、運(yùn)維與物聯(lián)網(wǎng)工程師等數(shù)十人,討論話題涵蓋教育、社交、辦公等十余個(gè)領(lǐng)域。
作為美國西北大學(xué)計(jì)算機(jī)視覺專業(yè)博士及原亞馬遜Lab126核心音頻研發(fā)團(tuán)隊(duì)領(lǐng)導(dǎo)人,耳目達(dá)(Hamedal)品牌創(chuàng)始人兼CEO辛鑫受邀參與主題演講。
他結(jié)合早年在微軟參與Windows開發(fā)的經(jīng)驗(yàn)及創(chuàng)業(yè)成果,分享了自己關(guān)于《耳目達(dá)音視頻會議產(chǎn)品的創(chuàng)新實(shí)踐》,特別聚焦視聽業(yè)高質(zhì)量發(fā)展,希冀通過音視頻技術(shù)幫助企業(yè)順利完成數(shù)字化轉(zhuǎn)型,并就“視頻會議的下一個(gè)十年”這一議題與在場大咖們進(jìn)行了深入探討。

緊抓風(fēng)向,深耕行業(yè)
智能辦公時(shí)代已來。過去的2020年是線上辦公飛躍的一年,智能交互、遠(yuǎn)程開會、云會議、云課堂等紛紛從成長階段走向成熟,表明音視頻技術(shù)進(jìn)入了發(fā)展的機(jī)遇期。此外,以直播、小視頻為代表的沉浸式媒體與娛樂應(yīng)用的全面爆發(fā),也展現(xiàn)出音視頻技術(shù)的不可或缺性。
在分享中,辛鑫博士提到“隨著移動互聯(lián)?的發(fā)展,人們獲取信息的終端得以進(jìn)一步從固定場景轉(zhuǎn)變?yōu)橐苿訄鼍?,帶來的圖像采集、語音傳輸、數(shù)據(jù)運(yùn)算的量級都比以前有了指數(shù)級的增長?!?/span>
“音視頻技術(shù)作為實(shí)現(xiàn)移動溝通、企業(yè)數(shù)字化升級的底層核心能力,其重要性不言而喻。而對我們做音視頻產(chǎn)品的廠家而言,如何完成該領(lǐng)域的技術(shù)創(chuàng)新、智能產(chǎn)品的不斷突破,是每時(shí)每刻都必須思考的事情。 ”
“所有的創(chuàng)新改變都離不開人才,人是基石,夯實(shí)基礎(chǔ)方能穩(wěn)固根基。
所以自2018年創(chuàng)立之初,耳目達(dá)集結(jié)國內(nèi)外優(yōu)秀的專業(yè)人才,共同完成所有產(chǎn)品及技術(shù)的自主開發(fā)?,F(xiàn)除了具備業(yè)界熟知的噪聲抑制、回聲消除、去混響和全雙工技術(shù)外,蛙聲科技團(tuán)隊(duì)還自研出特寫分屏、五級級聯(lián)、區(qū)域拾音等創(chuàng)新技術(shù),并已成功應(yīng)用于旗下一體機(jī)、會議降噪麥克風(fēng)音箱、會議攝像頭、話務(wù)降噪耳機(jī)等產(chǎn)品中。 ”
“ 面對當(dāng)下AI、5G和IoT等創(chuàng)新技術(shù)的飛速發(fā)展及‘萬物智聯(lián)’的數(shù)字浪潮,耳目達(dá)將一直堅(jiān)持產(chǎn)業(yè)先進(jìn)技術(shù)與創(chuàng)新理念相結(jié)合,搭建起全方位、多層次的產(chǎn)品體系,未來會議主機(jī)、藍(lán)牙耳機(jī)、天花式吊頂陣列麥克風(fēng)等一系列新品將逐步來到大眾視野,助力各行業(yè)實(shí)現(xiàn)智慧辦公。 ”
耳目達(dá)的技術(shù)硬核
“如今視頻傾向于向4K/8K超高清方向演變,越來越多的人講究沉浸式視頻體驗(yàn)。”辛鑫博士坦言,耳目達(dá)主要利用算法+AI技術(shù)+圖像處理+語音處理這四塊為客戶提供靈活的、可靠的、安全化產(chǎn)品及場景化解決方案。
技術(shù)的升級,必然誕生好的產(chǎn)品。
耳目達(dá)自研的區(qū)域拾音技術(shù)效果顯著,它通過麥克風(fēng)陣列進(jìn)行拾音,利用聲音信號到達(dá)不同麥克風(fēng)的時(shí)延信息,并且搭載波束形成算法,計(jì)算不同方向到達(dá)的語音成分做不同的增益,從而達(dá)到對空間中的感興趣聲源的指向性接收效果。如果將指向性由點(diǎn)拓展成區(qū)域,就被稱作為“區(qū)域拾音”。
目前,該技術(shù)已于耳目達(dá)V11網(wǎng)絡(luò)攝像頭和V30會議攝像頭中得到落地應(yīng)用,即在特定區(qū)域(產(chǎn)品視角范圍)內(nèi)清晰拾音,區(qū)域外則不拾音,從而避免無關(guān)雜音對溝通交流的干擾,做到隨時(shí)隨地的高質(zhì)量遠(yuǎn)程會議。
為了更淺顯易懂,以V30為例,其拾音區(qū)域?yàn)檎胺?20°(30°-150°)范圍內(nèi),經(jīng)過區(qū)域拾音技術(shù)處理后,會看到<30°和>150°區(qū)域?yàn)槁曇粢种茀^(qū)域。如下圖所示:
同樣,耳目達(dá)A20會議降噪麥克風(fēng)音箱獨(dú)有的五級級聯(lián)技術(shù)也值得說道。
顧名思義,五級級聯(lián)即為將五臺相同設(shè)備連接(5臺A20),當(dāng)操縱一臺機(jī)器時(shí)(1臺A20),其余4臺同步進(jìn)行相同操作,從而實(shí)現(xiàn)分布式拾音與擴(kuò)音,很好地解決了大空間乃至超大空間內(nèi)常見的聲音模糊與消散問題。在保證語音純正的情況下,音量將均衡地?cái)U(kuò)散至每個(gè)人耳中,不會出現(xiàn)聲音斷續(xù)和忽高忽低的情況。讓遠(yuǎn)程溝通事半功倍,會議體驗(yàn)大幅提升。
受益于該項(xiàng)技術(shù),企業(yè)數(shù)字化會議的建設(shè)成本也能明顯降低,因?yàn)锳20已可完全滿足不同應(yīng)用場景的業(yè)務(wù)發(fā)展需求,即使后期轉(zhuǎn)戰(zhàn)更大會議室開會,也無需另購昂貴的超大型會議音箱。
耳目達(dá)的特寫分屏技術(shù)也是不少技術(shù)宅的熱門話題。簡言之,視頻會議中的智能分屏模式包含裁剪、拼接兩部分,就是把一幅圖的某幾個(gè)區(qū)域裁剪出來,然后把幾張裁剪出來的圖片拼接在一起,組成一幅新的圖。如圖1所示,假設(shè)在大圖中有4個(gè)人,根據(jù)人臉、人體檢測確定4個(gè)人的位置分別是A,B,C,D,然后根據(jù)位置裁剪出4張小圖,最后把4張小圖拼接成一幅新的大圖。
辛鑫指出,特寫分屏的挑戰(zhàn)在于大量數(shù)據(jù)拷貝會占用較多的cpu使用率,尤其對于4k的圖像,cpu的壓力會更大。耳目達(dá)產(chǎn)品則是通過使用主控的硬件處理模塊,把數(shù)據(jù)拷貝放在硬件模塊單元里處理,以減輕cpu的負(fù)載,從而完成對特定圖像做畫質(zhì)增強(qiáng),使主體更加突出,背景更加純凈。
在日常使用中,得益于聲源定位、語音追蹤、人臉檢測等多種AI算法,耳目達(dá)的C30R 智能4K視頻會議一體機(jī)這款產(chǎn)品可實(shí)現(xiàn)更佳的場景識別和優(yōu)化,精準(zhǔn)確認(rèn)發(fā)言人所在位置并給予特寫鏡頭,讓交互雙方遠(yuǎn)隔千里依舊清晰看到各與會人的面部表情,從而更好理解所要傳達(dá)的內(nèi)容,而不是靠聽聲音去猜,享受更加愉悅的開會體驗(yàn)。
演講最后,辛鑫明確指出,如今數(shù)字化轉(zhuǎn)型時(shí)代已經(jīng)到來,耳目達(dá)也已明確品牌發(fā)展策略,自身將持續(xù)優(yōu)化升級相關(guān)技術(shù)和解決方案,期待與各方一起基于高清、互動、優(yōu)化人聲方面,最大化釋放協(xié)同效應(yīng),更好地支持企業(yè)數(shù)字化轉(zhuǎn)型。