国产露脸精品国产沙发|极品妇被弄得99久九精品亚洲|亚洲va成精品在线播放人|日韩精品久久久免费观看

    
    

        <delect id="w59je"></delect>

            當(dāng)前位置:首頁 > 乒乓球資訊 > 正文內(nèi)容

            給大家科普一下摩登3娛樂總代學(xué)(2023已更新(今日/知乎)

            杏彩體育2年前 (2023-01-13)乒乓球資訊37

            Transformer

            * 題目: iSegFormer: Interactive Image Segmentation with Transformers

            * 鏈接: https://arxiv.org/abs/2112.11325

            * 作者: Qin Liu

            * 摘要: 我們提出了 iSegFormer,這是一種用于交互式圖像分割的新型基于轉(zhuǎn)換器的方法。 iSegFormer 建立在現(xiàn)有的分割轉(zhuǎn)換器之上,用戶點(diǎn)擊作為附加輸入,允許用戶交互和迭代地細(xì)化分割掩碼。

            * 題目: SOIT: Segmenting Objects with Instance-Aware Transformers

            * 鏈接: https://arxiv.org/abs/2112.11037

            * 作者: Xiaodong Yu,Dahu Shi,Xing Wei,Ye Ren,Tingqun Ye,Wenming Tan

            * 其他: AAAI 2022

            * 摘要: 本文提出了一個(gè)端到端的實(shí)例分割框架,稱為 SOIT,它使用實(shí)例感知轉(zhuǎn)換器分割對(duì)象。受 DETR~\cite{carion2020end} 的啟發(fā),我們的方法將實(shí)例分割視為一個(gè)直接的集合預(yù)測問題,并有效地消除了對(duì)許多手工組件的需求,例如 RoI 裁剪、一對(duì)多標(biāo)簽分配和非最大抑制(網(wǎng)絡(luò)管理系統(tǒng))。在 SOIT 中,學(xué)習(xí)多個(gè)查詢以在全局圖像上下文下直接推理一組并行的語義類別、邊界框位置和像素級(jí)掩碼的對(duì)象嵌入。類和邊界框可以很容易地嵌入到一個(gè)固定長度的向量中。特別是像素級(jí)掩碼,嵌入了一組參數(shù)以構(gòu)建輕量級(jí)的實(shí)例感知轉(zhuǎn)換器。之后,全分辨率掩碼由實(shí)例感知轉(zhuǎn)換器生成,不涉及任何基于 RoI 的操作??傮w而言,SOIT 引入了一個(gè)簡單的單階段實(shí)例分割框架,既無 RoI 又無 NMS。 MS COCO 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明 SOIT 顯著優(yōu)于最先進(jìn)的實(shí)例分割方法。此外,統(tǒng)一查詢嵌入中多個(gè)任務(wù)的聯(lián)合學(xué)習(xí)也可以顯著提高檢測性能。代碼位于 \url{this https URL}。

            * 題目: MPViT: Multi-Path Vision Transformer for Dense Prediction

            * 鏈接: https://arxiv.org/abs/2112.11010

            * 作者: Youngwan Lee,Jonghee Kim,Jeff Willette,Sung Ju Hwang

            * 其他: technical report

            * 摘要: 諸如對(duì)象檢測和分割之類的密集計(jì)算機(jī)視覺任務(wù)需要有效的多尺度特征表示來檢測或分類具有不同大小的對(duì)象或區(qū)域。雖然卷積神經(jīng)網(wǎng)絡(luò) (CNN) 一直是此類任務(wù)的主要架構(gòu),但最近推出的視覺變換器 (ViT) 旨在取代它們作為主干。與 CNN 類似,ViT 構(gòu)建了一個(gè)簡單的多階段結(jié)構(gòu)(即從細(xì)到粗),用于具有單尺度補(bǔ)丁的多尺度表示。在這項(xiàng)工作中,我們以與現(xiàn)有 Transformer 不同的視角,探索多尺度補(bǔ)丁嵌入和多路徑結(jié)構(gòu),構(gòu)建多路徑視覺變換器 (MPViT)。 MPViT 通過使用重疊卷積補(bǔ)丁嵌入,同時(shí)嵌入相同大小(即序列長度)的特征和不同尺度的補(bǔ)丁。然后,不同尺度的標(biāo)記通過多條路徑獨(dú)立地輸入到 Transformer 編碼器中,并聚合所得特征,從而在同一特征級(jí)別實(shí)現(xiàn)精細(xì)和粗略的特征表示。由于多樣化的多尺度特征表示,我們的 MPViTs 從微小~(5M) 縮放到基礎(chǔ)~(73M),在 ImageNet 分類、??對(duì)象檢測、實(shí)例分割、和語義分割。這些廣泛的結(jié)果表明 MPViT 可以作為各種視覺任務(wù)的多功能骨干網(wǎng)絡(luò)。代碼將在 \url{this https URL} 上公開提供。

            * 題目: Lite Vision Transformer with Enhanced Self-Attention

            * 鏈接: https://arxiv.org/abs/2112.10809

            * 作者: Chenglin Yang,Yilin Wang,Jianming Zhang,He Zhang,Zijun Wei,Zhe Lin,Alan Yuille

            * 摘要: 盡管視覺變換器模型具有令人印象深刻的表示能力,但當(dāng)前的輕量級(jí)視覺變換器模型在局部區(qū)域仍然存在不一致和不正確的密集預(yù)測。我們懷疑他們的自我注意機(jī)制的力量在更淺和更薄的網(wǎng)絡(luò)中受到限制。我們提出了 Lite Vision Transformer (LVT),這是一種新型的輕量級(jí)變壓器網(wǎng)絡(luò),具有兩個(gè)增強(qiáng)的自注意力機(jī)制,以提高移動(dòng)部署的模型性能。對(duì)于低級(jí)特征,我們引入了卷積自注意力(CSA)。與之前合并卷積和自注意力的方法不同,CSA 在大小為 3x3 的內(nèi)核中將局部自注意力引入卷積以豐富 LVT 第一階段的低級(jí)特征。對(duì)于高級(jí)特征,我們提出了遞歸 Atrous Self-Attention (RASA),它在計(jì)算相似度圖時(shí)利用多尺度上下文和遞歸機(jī)制,以增加具有邊際額外參數(shù)成本的表示能力。 LVT的優(yōu)越性體現(xiàn)在ImageNet識(shí)別、ADE20K語義分割、COCO全景分割上。該代碼已公開。

            三維視覺

            * 題目: StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

            * 鏈接: https://arxiv.org/abs/2112.11427

            * 作者: Roy Or-El,Xuan Luo,Mengyi Shan,Eli Shechtman,Jeong Joon Park,Ira Kemelmacher-Shlizerman

            * 其他: Project Webpage: this https URL

            * 摘要: 我們引入了一種高分辨率、3D 一致的圖像和形狀生成技術(shù),我們稱之為 StyleSDF。我們的方法僅在單視圖 RGB 數(shù)據(jù)上進(jìn)行訓(xùn)練,并站在 StyleGAN2 的肩膀上進(jìn)行圖像生成,同時(shí)解決了 3D 感知 GAN 中的兩個(gè)主要挑戰(zhàn):1)RGB 圖像的高分辨率、視圖一致的生成,以及2)詳細(xì)的3D形狀。我們通過將基于 SDF 的 3D 表示與基于樣式的 2D 生成器合并來實(shí)現(xiàn)這一點(diǎn)。我們的 3D 隱式網(wǎng)絡(luò)渲染低分辨率特征圖,基于樣式的網(wǎng)絡(luò)從中生成視圖一致的 1024x1024 圖像。值得注意的是,我們基于 SDF 的 3D 建模定義了詳細(xì)的 3D 表面,從而實(shí)現(xiàn)了一致的體積渲染。與現(xiàn)有技術(shù)相比,我們的方法在視覺和幾何質(zhì)量方面顯示出更高質(zhì)量的結(jié)果。

            * 題目: Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of Articulated Objects

            * 鏈接: https://arxiv.org/abs/2112.11347

            * 作者: Atsuhiro Noguchi,Umar Iqbal,Jonathan Tremblay,Tatsuya Harada,Orazio Gallo

            * 其他: 15 pages, Project page: this https URL

            * 摘要: 在控制姿勢的同時(shí)渲染關(guān)節(jié)對(duì)象對(duì)于虛擬現(xiàn)實(shí)或電影動(dòng)畫等應(yīng)用至關(guān)重要。然而,操縱一個(gè)物體的姿態(tài)需要了解它的底層結(jié)構(gòu),即它的關(guān)節(jié)以及它們?nèi)绾蜗嗷プ饔?。不幸的是,假設(shè)結(jié)構(gòu)是已知的,正如現(xiàn)有方法所做的那樣,排除了處理新對(duì)象類別的能力。我們建議通過觀察它們從多個(gè)視圖移動(dòng)來學(xué)習(xí)以前看不見的鉸接對(duì)象的外觀和結(jié)構(gòu),而無需額外的監(jiān)督,例如關(guān)節(jié)注釋或有關(guān)結(jié)構(gòu)的信息。我們的見解是,彼此相對(duì)移動(dòng)的相鄰部件必須通過關(guān)節(jié)連接。為了利用這一觀察結(jié)果,我們將 3D 中的對(duì)象部分建模為橢圓體,這使我們能夠識(shí)別關(guān)節(jié)。我們將這種顯式表示與一種隱式表示相結(jié)合,以補(bǔ)償引入的近似值。我們表明我們的方法適用于不同的結(jié)構(gòu),從四足動(dòng)物到單臂機(jī)器人,再到人類。

            * 題目: Deep Learning Based 3D Point Cloud Regression for Estimating Forest Biomass

            * 鏈接: https://arxiv.org/abs/2112.11335

            * 作者: Stefan Oehmcke,Lei Li,Jaime Revenga,Thomas Nord-Larsen,Katerina Trepekli,Fabian Gieseke,Christian Igel

            * 摘要: 了解森林生物量儲(chǔ)存及其發(fā)展對(duì)于實(shí)施有效的氣候變化減緩措施很重要。它是研究驅(qū)使毀林、再造林和毀林的過程所必需的,并且是碳核算的先決條件。使用機(jī)載 LiDAR 的遙感可用于大規(guī)模測量植被生物量。我們提出了深度學(xué)習(xí)系統(tǒng),用于直接從 3D LiDAR 點(diǎn)云數(shù)據(jù)預(yù)測木材體積、地上生物量 (AGB) 和隨后的碳。我們?yōu)辄c(diǎn)云回歸設(shè)計(jì)了不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),并根據(jù)從國家森林清單的現(xiàn)場測量中獲得 AGB 估計(jì)值的地區(qū)的遙感數(shù)據(jù)對(duì)其進(jìn)行評(píng)估。我們對(duì) Minkowski 卷積神經(jīng)網(wǎng)絡(luò)的回歸適應(yīng)給出了最好的結(jié)果。與基于點(diǎn)云基本統(tǒng)計(jì)數(shù)據(jù)的最先進(jìn)方法相比,深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生了更準(zhǔn)確的木材體積、AGB 和碳估計(jì)值,我們預(yù)計(jì)這一發(fā)現(xiàn)將對(duì)基于 LiDAR 的分析產(chǎn)生重大影響陸地生態(tài)系統(tǒng)動(dòng)態(tài)。

            * 題目: High-Fidelity Point Cloud Completion with Low-Resolution Recovery and Noise-Aware Upsampling

            * 鏈接: https://arxiv.org/abs/2112.11271

            * 作者: Ren-Wu Li,Bo Wang,Chun-Peng Li,Ling-Xiao Zhang,Lin Gao

            * 摘要: 完成一個(gè)無序的局部點(diǎn)云是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。依賴解碼潛在特征來恢復(fù)完整形狀的現(xiàn)有方法通常會(huì)導(dǎo)致完整的點(diǎn)云過度平滑、丟失細(xì)節(jié)和嘈雜。我們建議先解碼和細(xì)化低分辨率(低分辨率)點(diǎn)云,而不是解碼整個(gè)形狀,然后執(zhí)行逐塊噪聲感知上采樣,而不是一次對(duì)整個(gè)稀疏點(diǎn)云進(jìn)行插值,這往往丟失細(xì)節(jié)。關(guān)于缺乏初始解碼低分辨率點(diǎn)云細(xì)節(jié)的可能性,我們提出了一種迭代細(xì)化以恢復(fù)幾何細(xì)節(jié)和對(duì)稱化過程以保留來自輸入部分點(diǎn)云的可信信息。在獲得稀疏且完整的點(diǎn)云后,我們提出了一個(gè) patch-wise 上采樣策略。與解碼整個(gè)形狀不同,基于補(bǔ)丁的上采樣可以更好地恢復(fù)精細(xì)細(xì)節(jié),但是,由于數(shù)據(jù)差異,現(xiàn)有的上采樣方法不適用于完成任務(wù)(即,這里的輸入稀疏數(shù)據(jù)不是來自真實(shí)數(shù)據(jù))。因此,我們提出了一種補(bǔ)丁提取方法來在稀疏點(diǎn)云和真實(shí)點(diǎn)云之間生成訓(xùn)練補(bǔ)丁對(duì),以及一個(gè)異常值去除步驟來抑制稀疏點(diǎn)云中的噪聲點(diǎn)。結(jié)合低分辨率恢復(fù),我們的整個(gè)方法能夠?qū)崿F(xiàn)高保真點(diǎn)云完成。提供綜合評(píng)估以證明所提出的方法及其各個(gè)組件的有效性。

            * 題目: PointCaps: Raw Point Cloud Processing using Capsule Networks with Euclidean Distance Routing

            * 鏈接: https://arxiv.org/abs/2112.11258

            * 作者: Dishanika Denipitiyage,Vinoj Jayasundara,Ranga Rodrigo,Chamira U. S. Edussooriya

            * 摘要: 由于能夠保持輸入數(shù)據(jù)的空間一致性,使用膠囊網(wǎng)絡(luò)的原始點(diǎn)云處理在分類、重建和分割中被廣泛采用。然而,大多數(shù)現(xiàn)有的基于膠囊的網(wǎng)絡(luò)方法計(jì)算量很大,并且無法將整個(gè)點(diǎn)云表示為單個(gè)膠囊。我們通過提出 PointCaps(一種具有參數(shù)共享的新型卷積膠囊架構(gòu))來解決現(xiàn)有基于膠囊網(wǎng)絡(luò)的方法中的這些局限性。與 PointCaps 一起,我們提出了一種新穎的歐幾里德距離路由算法和一種與類無關(guān)的潛在表示。潛在表示捕獲點(diǎn)云的物理可解釋幾何參數(shù),通過動(dòng)態(tài)歐幾里德路由,PointCaps 很好地表示了點(diǎn)的空間(點(diǎn)對(duì)部分)關(guān)系。與最先進(jìn)的膠囊網(wǎng)絡(luò)相比,PointCaps 的參數(shù)數(shù)量明顯減少,需要的 FLOP 數(shù)量也明顯減少,同時(shí)實(shí)現(xiàn)更好的重建,原始點(diǎn)云的分類和分割精度相當(dāng)。

            * 題目: Generating Photo-realistic Images from LiDAR Point Clouds with Generative Adversarial Networks

            * 鏈接: https://arxiv.org/abs/2112.11245

            * 作者: Nuriel Shalom Mor

            * 其他: 11 pages, 4 figures

            * 摘要: 我們研究了生成對(duì)抗網(wǎng)絡(luò) (GAN) 從 LiDAR 點(diǎn)云生成逼真圖像的可行性。為此,我們創(chuàng)建了一個(gè)點(diǎn)云圖像對(duì)數(shù)據(jù)集,并訓(xùn)練 GAN 從包含反射率和距離信息的 LiDAR 點(diǎn)云中預(yù)測逼真的圖像。我們的模型學(xué)習(xí)了如何僅從點(diǎn)云數(shù)據(jù)中預(yù)測逼真的圖像,甚至是帶有黑色汽車的圖像。由于黑色汽車的反射率低,因此很難直接從點(diǎn)云中檢測到它們。這種方法將來可能會(huì)用于對(duì)從 LiDAR 點(diǎn)云生成的逼真圖像執(zhí)行視覺對(duì)象識(shí)別。除了傳統(tǒng)的 LiDAR 系統(tǒng),從 LiDAR 點(diǎn)云生成逼真圖像的第二個(gè)系統(tǒng)將同時(shí)運(yùn)行,用于實(shí)時(shí)視覺對(duì)象識(shí)別。通過這種方式,我們可以保留 LiDAR 的優(yōu)勢,并受益于使用照片般逼真的圖像進(jìn)行視覺對(duì)象識(shí)別,而無需使用任何相機(jī)。此外,這種方法可用于在不使用任何相機(jī)圖像的情況下對(duì)點(diǎn)云進(jìn)行著色。

            * 題目: PONet: Robust 3D Human Pose Estimation via Learning Orientations Only

            * 鏈接: https://arxiv.org/abs/2112.11153

            * 作者: Jue Wang,Shaoli Huang,Xinchao Wang,Dacheng Tao

            * 摘要: 傳統(tǒng)的 3D 人體姿態(tài)估計(jì)依賴于首先檢測 2D 身體關(guān)鍵點(diǎn),然后解決 2D 到 3D 的對(duì)應(yīng)問題。盡管結(jié)果很有希望,但這種學(xué)習(xí)范式高度依賴于 2D 關(guān)鍵點(diǎn)檢測器的質(zhì)量,它不可避免地容易受到遮擋和干擾-of-image this http URL 本文,我們提出了一種新穎的姿勢定向網(wǎng)絡(luò)(PONet),它能夠僅通過學(xué)習(xí)方向來穩(wěn)健地估計(jì) 3D 姿勢,從而在沒有圖像證據(jù)的情況下繞過容易出錯(cuò)的關(guān)鍵點(diǎn)檢測器。對(duì)于肢體部分不可見的圖像,PONet 通過利用局部圖像證據(jù)來估計(jì)這些肢體的 3D 方向來恢復(fù) 3D 姿勢。此外,PONet 也有能力從肢體完全不可見的圖像中推斷出完整的 3D 姿勢,通過利用可見肢體之間的方向相關(guān)性以補(bǔ)充估計(jì)的姿勢,進(jìn)一步提高 3D 姿勢估計(jì)的魯棒性。我們在多個(gè)數(shù)據(jù)集上評(píng)估我們的方法,包括 Human3.6M、MPII、MPI-INF-3DHP 和 3DPW。我們的方法在理想設(shè)置中實(shí)現(xiàn)了與最先進(jìn)技術(shù)相當(dāng)?shù)慕Y(jié)果,但顯著消除了對(duì)關(guān)鍵點(diǎn)檢測器和相應(yīng)計(jì)算負(fù)擔(dān)的依賴。在具有高度挑戰(zhàn)性的場景中,例如截?cái)嗪筒脸覀兊姆椒ū憩F(xiàn)非常穩(wěn)健,并且與現(xiàn)有技術(shù)相比產(chǎn)生了非常出色的結(jié)果,展示了其在實(shí)際應(yīng)用中的潛力。

            * 題目: Cloud Sphere: A 3D Shape Representation via Progressive Deformation

            * 鏈接: https://arxiv.org/abs/2112.11133

            * 作者: Zongji Wang,Yunfei Liu,Feng Lu

            * 其他: This paper was submitted first in CVPR 2021 (paper id: 2255), and then was submitted in CVM 2022 (id: 160)

            * 摘要: 在 3D 形狀分析領(lǐng)域,長期以來一直在研究形狀的幾何特性。本文不是使用專家設(shè)計(jì)的描述符或端到端的深度神經(jīng)網(wǎng)絡(luò)直接提取代表性特征,而是致力于從形狀形成過程中發(fā)現(xiàn)獨(dú)特的信息。具體來說,作為模板的球形點(diǎn)云逐漸變形,以從粗到細(xì)的方式適應(yīng)目標(biāo)形狀。在形狀形成過程中,插入了幾個(gè)檢查點(diǎn),以方便記錄和調(diào)查中間階段。對(duì)于每個(gè)階段,偏移字段被評(píng)估為階段感知描述。整個(gè)形狀形成過程中偏移的總和可以完全定義幾何形狀的目標(biāo)形狀。從這個(gè)角度來看,人們可以廉價(jià)地從模板中導(dǎo)出逐點(diǎn)形狀的對(duì)應(yīng)關(guān)系,這有利于各種圖形應(yīng)用程序。在本文中,提出了基于漸進(jìn)變形的自動(dòng)編碼器 (PDAE) 來通過從粗到細(xì)的形狀擬合任務(wù)來學(xué)習(xí)階段感知描述。實(shí)驗(yàn)結(jié)果表明,所提出的PDAE具有高保真度重建3D形狀的能力,并且在多階段變形過程中保持一致的拓?fù)浣Y(jié)構(gòu)。執(zhí)行基于階段感知描述的其他應(yīng)用程序,證明了其通用性。

            * 題目: Efficient Registration of Forest Point Clouds by Global Matching of Relative Stem Positions

            * 鏈接: https://arxiv.org/abs/2112.11121

            * 作者: Xufei Wang,Zexin Yang,Xiaojun Cheng,Jantien Stoter,Wenbin Xu,Zhenlun Wu,Liangliang Nan

            * 摘要: 注冊森林環(huán)境的點(diǎn)云是激光雷達(dá)在精準(zhǔn)林業(yè)中應(yīng)用的必要先決條件。最先進(jìn)的森林點(diǎn)云配準(zhǔn)方法需要提取單個(gè)樹木的屬性,并且在處理具有密集樹木的真實(shí)森林的點(diǎn)云時(shí)存在效率瓶頸。我們提出了一種自動(dòng)、穩(wěn)健且高效的森林點(diǎn)云配準(zhǔn)方法。我們的方法首先從原始點(diǎn)云中定位樹干,然后根據(jù)它們的相對(duì)空間關(guān)系匹配樹干以確定配準(zhǔn)轉(zhuǎn)換。與現(xiàn)有方法相比,我們的算法不需要額外的單個(gè)樹木屬性,并且對(duì)環(huán)境中的樹木數(shù)量具有線性復(fù)雜度,使其能夠?qū)R大型森林環(huán)境的點(diǎn)云。大量實(shí)驗(yàn)表明,我們的方法在配準(zhǔn)準(zhǔn)確性和魯棒性方面優(yōu)于最先進(jìn)的方法,并且在效率方面明顯優(yōu)于現(xiàn)有技術(shù)。此外,我們引入了一個(gè)新的基準(zhǔn)數(shù)據(jù)集,補(bǔ)充了極少數(shù)現(xiàn)有的開放數(shù)據(jù)集,用于開發(fā)和評(píng)估森林點(diǎn)云配準(zhǔn)方法。

            * 題目: EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection

            * 鏈接: https://arxiv.org/abs/2112.11088

            * 作者: Zhe Liu,Tengteng~Huang,Bingling Li,Xiwu Chen,Xi Wang,Xiang Bai

            * 摘要: 最近,融合 LiDAR 點(diǎn)云和相機(jī)圖像以提高 3D 對(duì)象檢測的性能和魯棒性受到越來越多的關(guān)注,因?yàn)檫@兩種模式自然具有很強(qiáng)的互補(bǔ)性。在本文中,我們通過引入一種新穎的級(jí)聯(lián)雙向融合~(CB-Fusion)模塊和多模態(tài)一致性~(MC)損失,提出了用于多模態(tài) 3D 對(duì)象檢測的 EPNet++。更具體地說,所提出的 CB-Fusion 模塊以級(jí)聯(lián)雙向交互融合的方式增強(qiáng)了點(diǎn)特征與圖像特征的豐富語義信息,從而導(dǎo)致更全面和更具判別力的特征表示。 MC 損失明確保證了兩種模態(tài)的預(yù)測分?jǐn)?shù)之間的一致性,以獲得更全面和可靠的置信度分?jǐn)?shù)。在 KITTI、JRDB 和 SUN-RGBD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了 EPNet++ 優(yōu)于最先進(jìn)的方法。此外,我們強(qiáng)調(diào)一個(gè)關(guān)鍵但容易被忽視的問題,即在稀疏場景中探索 3D 檢測器的性能和魯棒性。大量實(shí)驗(yàn)表明,EPNet++ 在高度稀疏的點(diǎn)云情況下以顯著的優(yōu)勢優(yōu)于現(xiàn)有的 SOTA 方法,這可能是降低 LiDAR 傳感器昂貴成本的一個(gè)可用方向。代碼將在未來發(fā)布。

            視頻處理

            * 題目: Sports Video: Fine-Grained Action Detection and Classification of Table Tennis Strokes from Videos for MediaEval 2021

            * 鏈接: https://arxiv.org/abs/2112.11384

            * 作者: Pierre-Etienne Martin,Jordan Calandre,Boris Mansencal,Jenny Benois-Pineau,Renaud Péteri,Laurent Mascarilla,Julien Morlier

            * 其他: MediaEval 2021, Dec 2021, Online, Germany

            * 摘要: 由于應(yīng)用領(lǐng)域的多樣性,運(yùn)動(dòng)視頻分析是一個(gè)普遍的研究課題,從具有用戶定制摘要的多媒體智能設(shè)備到運(yùn)動(dòng)員表現(xiàn)的分析。 Sports Video 任務(wù)是 MediaEval 2021 基準(zhǔn)測試的一部分。該任務(wù)處理視頻中的細(xì)粒度動(dòng)作檢測和分類。重點(diǎn)是乒乓球比賽的錄音。該任務(wù)自 2019 年開始運(yùn)行,對(duì)自然條件下記錄的未經(jīng)修剪的視頻進(jìn)行了分類挑戰(zhàn),每個(gè)筆畫的時(shí)間邊界都已知。今年,該數(shù)據(jù)集得到了擴(kuò)展,此外,還提供了一項(xiàng)來自沒有注釋的未修剪視頻的檢測挑戰(zhàn)。這項(xiàng)工作旨在為運(yùn)動(dòng)教練和運(yùn)動(dòng)員創(chuàng)建工具,以分析運(yùn)動(dòng)表現(xiàn)。運(yùn)動(dòng)分析和運(yùn)動(dòng)員分析可以建立在這種技術(shù)上,以豐富運(yùn)動(dòng)員的訓(xùn)練經(jīng)驗(yàn)并提高他們的表現(xiàn)。

            * 題目: Continuous-Time Video Generation via Learning Motion Dynamics with Neural ODE

            * 鏈接: https://arxiv.org/abs/2112.10960

            * 作者: Kangyeol Kim,Sunghyun Park,Junsoo Lee,Joonseok Lee,Sookyung Kim,Jaegul Choo,Edward Choi

            * 其他: 24 pages; Accepted to BMVC 2021

            * 摘要: 為了執(zhí)行無條件的視頻生成,我們必須了解真實(shí)世界視頻的分布。為了合成高質(zhì)量的視頻,各種研究試圖學(xué)習(xí)噪聲和視頻之間的映射函數(shù),包括最近努力分離運(yùn)動(dòng)分布和外觀分布。然而,以前的方法以離散的、固定間隔的時(shí)間步長學(xué)習(xí)運(yùn)動(dòng)動(dòng)力學(xué),這與物理身體運(yùn)動(dòng)的連續(xù)性相反。在本文中,我們提出了一種新穎的視頻生成方法,該方法學(xué)習(xí)運(yùn)動(dòng)和外觀的單獨(dú)分布,前者由神經(jīng) ODE 建模以學(xué)習(xí)自然運(yùn)動(dòng)動(dòng)力學(xué)。具體來說,我們采用兩階段方法,其中第一階段將噪聲向量轉(zhuǎn)換為任意幀速率的關(guān)鍵點(diǎn)序列,第二階段根據(jù)給定的關(guān)鍵點(diǎn)序列和外觀噪聲向量合成視頻。我們的模型不僅在數(shù)量上優(yōu)于最近的視頻生成基線,而且還展示了多種功能,例如動(dòng)態(tài)幀速率操作和兩個(gè)數(shù)據(jù)集之間的運(yùn)動(dòng)傳輸,從而為各種視頻生成應(yīng)用打開了新的大門。

            * 題目: Watch Those Words: Video Falsification Detection Using Word-Conditioned Facial Motion

            * 鏈接: https://arxiv.org/abs/2112.10936

            * 作者: Shruti Agarwal,Liwen Hu,Evonne Ng,Trevor Darrell,Hao Li,Anna Rohrbach

            * 摘要: 在當(dāng)今數(shù)字錯(cuò)誤信息的時(shí)代,我們越來越多地面臨視頻偽造技術(shù)帶來的新威脅。這種偽造的范圍從廉價(jià)偽造品(例如,相似或音頻配音)到深度偽造品(例如,復(fù)雜的 AI 媒體合成方法),它們在感知上與真實(shí)視頻無法區(qū)分。為了應(yīng)對(duì)這一挑戰(zhàn),我們提出了一種多模態(tài)語義取證方法來發(fā)現(xiàn)超越檢測視覺質(zhì)量差異的線索,從而處理更簡單的廉價(jià)偽造品和視覺上有說服力的深度偽造品。在這項(xiàng)工作中,我們的目標(biāo)是通過檢測他們的面部動(dòng)作和他們所說的話之間的異常對(duì)應(yīng)關(guān)系來驗(yàn)證視頻中看到的所謂的人確實(shí)是他們自己。我們利用歸因的想法來學(xué)習(xí)將特定說話者與其他人區(qū)分開來的特定于個(gè)人的生物特征識(shí)別模式。我們使用可解釋的動(dòng)作單元 (AU) 來捕捉一個(gè)人的面部和頭部運(yùn)動(dòng),而不是深層的 CNN 視覺特征,并且我們是第一個(gè)使用詞條件面部運(yùn)動(dòng)分析的人。與現(xiàn)有的針對(duì)特定人的方法不同,我們的方法對(duì)于針對(duì)嘴唇操縱的攻擊也很有效。我們進(jìn)一步證明了我們的方法對(duì)訓(xùn)練中未見過的一系列假貨的有效性,包括那些沒有視頻操作的假貨,這些假貨在以前的工作中沒有解決。

            * 題目: Implicit Neural Video Compression

            * 鏈接: https://arxiv.org/abs/2112.11312

            * 作者: Yunfan Zhang,Ties van Rozendaal,Johann Brehmer,Markus Nagel,Taco Cohen

            * 摘要: 我們提出了一種使用隱式神經(jīng)表示壓縮全分辨率視頻序列的方法。每一幀都表示為一個(gè)神經(jīng)網(wǎng)絡(luò),將坐標(biāo)位置映射到像素值。我們使用單獨(dú)的隱式網(wǎng)絡(luò)來調(diào)制坐標(biāo)輸入,從而實(shí)現(xiàn)幀之間的有效運(yùn)動(dòng)補(bǔ)償。再加上一個(gè)小的殘差網(wǎng)絡(luò),這使我們能夠相對(duì)于前一幀有效地壓縮 P 幀。我們通過使用學(xué)習(xí)的整數(shù)量化存儲(chǔ)網(wǎng)絡(luò)權(quán)重來進(jìn)一步降低比特率。我們稱為隱式像素流 (IPF) 的方法對(duì)已建立的神經(jīng)視頻編解碼器進(jìn)行了一些簡化:它不需要接收器訪問預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),不使用昂貴的基于插值的扭曲操作,并且不需要單獨(dú)的訓(xùn)練數(shù)據(jù)集。我們證明了對(duì)圖像和視頻數(shù)據(jù)進(jìn)行神經(jīng)隱式壓縮的可行性。

            分割

            * 題目: Generalizable Cross-modality Medical Image Segmentation via Style Augmentation and Dual Normalization

            * 鏈接: https://arxiv.org/abs/2112.11177

            * 作者: Ziqi Zhou,Lei Qi,Xin Yang,Dong Ni,Yinghuan Shi

            * 摘要: 對(duì)于醫(yī)學(xué)圖像分割,想象一下如果模型只使用源域中的 MR 圖像進(jìn)行訓(xùn)練,那么它在目標(biāo)域中直接分割 CT 圖像的性能如何?這種設(shè)置,即通用的跨模態(tài)分割,擁有其臨床潛力,比其他相關(guān)設(shè)置更具挑戰(zhàn)性,例如域適應(yīng)。為了實(shí)現(xiàn)這一目標(biāo),我們在本文中提出了一種新的雙歸一化模塊,通過在我們的可推廣分割過程中利用增強(qiáng)的源相似和源不同的圖像。具體來說,給定單個(gè)源域,旨在模擬看不見的目標(biāo)域中可能出現(xiàn)的外觀變化,我們首先利用非線性變換來增強(qiáng)源相似和源不同的圖像。然后,為了充分利用這兩種類型的增強(qiáng),我們提出的基于雙歸一化的模型采用共享主干但獨(dú)立的批量歸一化層進(jìn)行單獨(dú)歸一化。之后,我們提出了一個(gè)基于風(fēng)格的選擇方案,在測試階段自動(dòng)選擇合適的路徑。對(duì)三個(gè)公開可用的數(shù)據(jù)集(即 BraTS、Cross-Modality Cardiac 和 Abdominal Multi-Organ 數(shù)據(jù)集)的大量實(shí)驗(yàn)表明,我們的方法優(yōu)于其他最先進(jìn)的域泛化方法。

            * 題目: Generalized Few-Shot Semantic Segmentation: All You Need is Fine-Tuning

            * 鏈接: https://arxiv.org/abs/2112.10982

            * 作者: Josh Myers-Dean,Yinan Zhao,Brian Price,Scott Cohen,Danna Gurari

            * 其他: Includes supplementary materials

            * 摘要: 引入了廣義的小樣本語義分割,以超越僅評(píng)估新類的小樣本分割模型,包括測試它們記住基類的能力。雖然目前所有方法都基于元學(xué)習(xí),但它們在僅觀察幾個(gè)鏡頭后表現(xiàn)不佳且學(xué)習(xí)飽和。我們提出了第一個(gè)微調(diào)解決方案,并證明它解決了飽和問題,同時(shí)在兩個(gè)數(shù)據(jù)集 PASCAL-$5^i$ 和 COCO-$20^i$ 上取得了最先進(jìn)的結(jié)果。我們還表明,無論是微調(diào)多個(gè)最終層還是僅對(duì)最后一層進(jìn)行微調(diào),它都優(yōu)于現(xiàn)有方法。最后,我們提出了一個(gè)三重?fù)p失正則化,展示了如何重新分配新類別和基本類別之間的性能平衡,以便它們之間的差距更小。

            * 題目: One Sketch for All: One-Shot Personalized Sketch Segmentation

            * 鏈接: https://arxiv.org/abs/2112.10838

            * 作者: Anran Qi,Yulia Gryaditskaya,Tao Xiang,Yi-Zhe Song

            * 摘要: 我們提出了第一個(gè)一次性個(gè)性化草圖分割方法。我們的目標(biāo)是將屬于同一類別的所有草圖分割為具有給定零件注釋的單個(gè)草圖,同時(shí) (i) 保留嵌入在示例中的零件語義,以及 (ii) 對(duì)輸入樣式和抽象具有魯棒性。我們將此場景稱為個(gè)性化。有了這個(gè),我們重要的是為下游細(xì)粒度草圖分析任務(wù)啟用了急需的個(gè)性化功能。為了訓(xùn)練強(qiáng)大的分割模塊,我們將示例草圖變形為同一類別的每個(gè)可用草圖。我們的方法推廣到訓(xùn)練期間未觀察到的草圖。我們的主要貢獻(xiàn)是一個(gè)特定于草圖的分層變形網(wǎng)絡(luò)。給定通過圖形卷積網(wǎng)絡(luò)獲得的多級(jí)草圖筆畫編碼,我們的方法在上層估計(jì)從參考到示例的剛體變換。通過較低級(jí)別的筆畫變形進(jìn)一步獲得從示例到全局扭曲參考草圖的更精細(xì)變形。兩個(gè)級(jí)別的變形都由在沒有監(jiān)督的情況下學(xué)習(xí)的關(guān)鍵點(diǎn)之間的均方距離引導(dǎo),確保保留筆畫語義。我們根據(jù)重新用于一次性設(shè)置的最先進(jìn)的分割和感知分組基線和兩種少拍 3D 形狀分割方法來評(píng)估我們的方法。我們表明,我們的方法比所有替代方法平均高出 10% 以上。消融研究進(jìn)一步證明我們的方法對(duì)個(gè)性化具有魯棒性:輸入部分語義和風(fēng)格差異的變化。

            * 題目: A novel approach for the automated segmentation and volume quantification of cardiac fats on computed tomography

            * 鏈接: https://arxiv.org/abs/2112.11381

            * 作者: érick Oliveira Rodrigues,FFC Morais,NAOS Morais,LS Conci,LV Neto,Aura Conci

            * 其他: Computer methods and programs in biomedicine, 2016

            * 摘要: 心臟周圍脂肪沉積與多種健康風(fēng)險(xiǎn)因素有關(guān),例如動(dòng)脈粥樣硬化、頸動(dòng)脈僵硬、冠狀動(dòng)脈鈣化、心房顫動(dòng)等。這些沉積物與肥胖無關(guān),這加強(qiáng)了其直接分割以進(jìn)行進(jìn)一步量化。然而,由于所需的人力工作量和隨之而來的醫(yī)生和技術(shù)人員的高成本,這些脂肪的手動(dòng)分割尚未在臨床實(shí)踐中廣泛部署。在這項(xiàng)工作中,我們提出了一種統(tǒng)一的方法來自動(dòng)分割和量化兩種類型的心臟脂肪。分段的脂肪被稱為心外膜和縱隔,并通過心包彼此分開。付出了很多努力來實(shí)現(xiàn)最少的用戶干預(yù)。所提出的方法主要包括注冊和分類算法來執(zhí)行所需的分割。我們比較了幾種分類算法在此任務(wù)上的性能,包括神經(jīng)網(wǎng)絡(luò)、概率模型和決策樹算法。所提出方法的實(shí)驗(yàn)結(jié)果表明,關(guān)于心外膜和縱隔脂肪的平均準(zhǔn)確度為 98.5%(如果特征歸一化為 99.5%),平均真陽性率為 98.0%。平均而言,骰子相似指數(shù)等于 97.6%。

            * 題目: RC-Net: A Convolutional Neural Network for Retinal Vessel Segmentation

            * 鏈接: https://arxiv.org/abs/2112.11078

            * 作者: Tariq M Khan,Antonio Robles-Kelly,Syed S. Naqvi

            * 摘要: 近年來,基于復(fù)雜卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的日益復(fù)雜的方法一直在緩慢地推動(dòng)完善的基準(zhǔn)數(shù)據(jù)集的性能。在本文中,我們退后一步來檢查對(duì)這種復(fù)雜性的真正需求。我們提出了 RC-Net,一個(gè)完全卷積的網(wǎng)絡(luò),其中每層的過濾器數(shù)量經(jīng)過優(yōu)化,以減少特征重疊和復(fù)雜性。我們還使用跳過連接通過將網(wǎng)絡(luò)中的池化操作數(shù)量保持在最低限度來將空間信息損失保持在最低限度。我們的實(shí)驗(yàn)中使用了兩個(gè)公開可用的視網(wǎng)膜血管分割數(shù)據(jù)集。在我們的實(shí)驗(yàn)中,RC-Net 非常有競爭力,其性能優(yōu)于可訓(xùn)練參數(shù)少兩個(gè)甚至三個(gè)數(shù)量級(jí)的替代血管分割方法。

            * 題目: Leveraging Image Complexity in Macro-Level Neural Network Design for Medical Image Segmentation

            * 鏈接: https://arxiv.org/abs/2112.11065

            * 作者: Tariq M. Khan,Syed S. Naqvi,Erik Meijering

            * 摘要: 編碼器 - 解碼器神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的最新進(jìn)展導(dǎo)致了廣泛的醫(yī)學(xué)圖像分割任務(wù)的顯著性能改進(jìn)。然而,用于給定任務(wù)的最先進(jìn)網(wǎng)絡(luò)可能在計(jì)算上要求太高而無法在負(fù)擔(dān)得起的硬件上運(yùn)行,因此用戶經(jīng)常通過修改各種宏觀設(shè)計(jì)方面來求助于實(shí)際的解決方法。兩個(gè)常見的例子是輸入圖像的下采樣和減少網(wǎng)絡(luò)深度以滿足計(jì)算機(jī)內(nèi)存限制。在本文中,我們研究了這些變化對(duì)分割性能的影響,并表明圖像復(fù)雜性可以用作選擇最適合給定數(shù)據(jù)集的指南。我們考慮了四種統(tǒng)計(jì)方法來量化圖像復(fù)雜性并評(píng)估它們在十個(gè)不同公共數(shù)據(jù)集上的適用性。為了我們的實(shí)驗(yàn)?zāi)康?,我們還提出了兩種新的編碼器 - 解碼器架構(gòu),代表淺層和深層網(wǎng)絡(luò),它們比當(dāng)前流行的網(wǎng)絡(luò)具有更高的內(nèi)存效率。我們的結(jié)果表明,中值頻率是決定可接受的輸入下采樣因子和網(wǎng)絡(luò)深度的最佳復(fù)雜性度量。對(duì)于高復(fù)雜度數(shù)據(jù)集,在原始圖像上運(yùn)行的淺層網(wǎng)絡(luò)可能比在下采樣圖像上運(yùn)行的深層網(wǎng)絡(luò)產(chǎn)生更好的分割結(jié)果,而低復(fù)雜度圖像的情況可能相反。

            非強(qiáng)監(jiān)督

            * 題目: Unsupervised deep learning techniques for powdery mildew recognition based on multispectral imaging

            * 鏈接: https://arxiv.org/abs/2112.11242

            * 作者: Alessandro Benfenati,Paola Causin,Roberto Oberti,Giovanni Stefanello

            * 摘要: 目標(biāo)。植物病害的可持續(xù)管理是一項(xiàng)具有相關(guān)經(jīng)濟(jì)和環(huán)境影響的公開挑戰(zhàn)。最佳策略依賴于在有利條件下進(jìn)行實(shí)地偵察的人類專業(yè)知識(shí),以評(píng)估疾病癥狀的當(dāng)前存在和程度。這項(xiàng)勞動(dòng)密集型任務(wù)因要偵察的大范圍區(qū)域以及要檢測的早期癥狀的毫米級(jí)大小而變得復(fù)雜。有鑒于此,基于圖像的早期疾病癥狀檢測是自動(dòng)化該過程的一種有吸引力的方法,能夠以可持續(xù)的成本實(shí)現(xiàn)潛在的高通量監(jiān)測。方法。深度學(xué)習(xí)已成功應(yīng)用于各個(gè)領(lǐng)域,通過訓(xùn)練過程學(xué)習(xí)過濾器來自動(dòng)選擇相關(guān)圖像特征。深度學(xué)習(xí)最近也進(jìn)入了植物病害檢測領(lǐng)域:遵循這個(gè)想法,在這項(xiàng)工作中,我們提出了一種深度學(xué)習(xí)方法來自動(dòng)識(shí)別黃瓜葉子上的白粉病。我們專注于應(yīng)用于多光譜成像數(shù)據(jù)的無監(jiān)督深度學(xué)習(xí)技術(shù),我們建議使用自動(dòng)編碼器架構(gòu)來研究兩種疾病檢測策略:i)壓縮空間中的特征聚類; ii) 異常檢測。結(jié)果。這兩種提議的方法已經(jīng)通過定量指數(shù)進(jìn)行了評(píng)估。聚類方法本身并不能完全提供準(zhǔn)確的預(yù)測,但它確實(shí)提供了相關(guān)信息。相反,異常檢測具有顯著的分辨率潛力,可以進(jìn)一步利用它作為具有非常有限數(shù)量標(biāo)記樣本的監(jiān)督架構(gòu)的先驗(yàn)。

            * 題目: ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action Localization

            * 鏈接: https://arxiv.org/abs/2112.10977

            * 作者: Zichen Yang,Jie Qin,Di Huang

            * 其他: Accepted to AAAI 2022

            * 摘要: 未修剪視頻中的弱監(jiān)督時(shí)間動(dòng)作定位 (WTAL) 已成為一項(xiàng)實(shí)用但具有挑戰(zhàn)性的任務(wù),因?yàn)橹挥幸曨l級(jí)標(biāo)簽可用。現(xiàn)有方法通常利用現(xiàn)成的段級(jí)特征,這些特征存在空間不完整性和時(shí)間不連貫性,從而限制了它們的性能。在本文中,我們通過使用簡單而有效的圖卷積網(wǎng)絡(luò)(即動(dòng)作補(bǔ)充圖網(wǎng)絡(luò) (ACGNet))增強(qiáng)段級(jí)表示,從新的角度解決了這個(gè)問題。它有助于當(dāng)前視頻片段感知其他視頻片段的時(shí)空依賴性,這些依賴可能傳達(dá)補(bǔ)充線索,隱含地減輕上述兩個(gè)問題造成的負(fù)面影響。通過這種方式,段級(jí)特征對(duì)時(shí)空變化更具辨別力和魯棒性,有助于提高定位精度。更重要的是,提議的 ACGNet 作為通用模塊工作,可以靈活地插入不同的 WTAL 框架,同時(shí)保持端到端的訓(xùn)練方式。在 THUMOS14 和 ActivityNet1.2 基準(zhǔn)測試中進(jìn)行了大量實(shí)驗(yàn),其中最先進(jìn)的結(jié)果清楚地證明了所提出方法的優(yōu)越性。

            * 題目: Geometry-Aware Unsupervised Domain Adaptation

            * 鏈接: https://arxiv.org/abs/2112.11041

            * 作者: You-Wei Luo,Chuan-Xian Ren,Zi-Ying Chen

            * 摘要: 無監(jiān)督域適應(yīng) (UDA) 旨在在存在數(shù)據(jù)集移位的情況下將知識(shí)從標(biāo)記的源域轉(zhuǎn)移到未標(biāo)記的目標(biāo)域。大多數(shù)現(xiàn)有方法不能很好地解決領(lǐng)域?qū)R和類別區(qū)分,這可能會(huì)扭曲下游任務(wù)(例如分類)的內(nèi)在數(shù)據(jù)結(jié)構(gòu)。為此,我們提出了一種新穎的幾何感知模型,通過核范數(shù)優(yōu)化同時(shí)學(xué)習(xí)可轉(zhuǎn)移性和可辨別性。我們從子空間幾何的角度介紹了 UDA 的域一致性和類正交性。域一致性將確保模型具有更大的學(xué)習(xí)可分離表示的能力,而類正交性將最小化集群之間的相關(guān)性以減輕錯(cuò)位。因此,它們是一致的,并且可以相互受益。此外,我們對(duì) UDA 中基于規(guī)范的學(xué)習(xí)文獻(xiàn)提供了理論見解,這確保了我們模型的可解釋性。我們表明域和集群的規(guī)范預(yù)計(jì)會(huì)更大或更小,以分別增強(qiáng)可轉(zhuǎn)移性和可辨別性。在標(biāo)準(zhǔn) UDA 數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果證明了我們的理論和模型的有效性。

            未分類

            * 題目: GOAL: Generating 4D Whole-Body Motion for Hand-Object Grasping

            * 鏈接: https://arxiv.org/abs/2112.11454

            * 作者: Omid Taheri,Vasileios Choutas,Michael J. Black,Dimitrios Tzionas

            * 摘要: 生成能夠真實(shí)移動(dòng)的數(shù)字人有很多應(yīng)用并且被廣泛研究,但是現(xiàn)有的方法專注于身體的主要四肢,而忽略了手和頭。手已經(jīng)單獨(dú)研究過,但重點(diǎn)是生成對(duì)物體的逼真靜態(tài)抓握。為了合成與世界互動(dòng)的虛擬角色,我們需要同時(shí)生成全身動(dòng)作和逼真的手部抓握。這兩個(gè)子問題本身都具有挑戰(zhàn)性,并且姿勢的狀態(tài)空間明顯更大,手和身體運(yùn)動(dòng)的尺度不同,全身姿勢和手抓握必須一致,滿足物理約束,并且說得通。此外,還涉及頭部,因?yàn)榛肀仨氉⒁晫?duì)象才能與之交互。我們第一次解決了生成抓握未知物體的化身的全身、手部和頭部運(yùn)動(dòng)的問題。作為輸入,我們稱為 GOAL 的方法需要一個(gè) 3D 對(duì)象、它的位置以及一個(gè)起始的 3D 身體姿勢和形狀。 GOAL 使用兩個(gè)新穎的網(wǎng)絡(luò)輸出一系列全身姿勢。首先,GNet 生成具有逼真的身體、頭部、手臂和手部姿勢以及手部對(duì)象接觸的目標(biāo)全身抓握。其次,MNet 生成起始姿勢和目標(biāo)姿勢之間的運(yùn)動(dòng)。這是具有挑戰(zhàn)性的,因?yàn)樗枰硪阅_與地面接觸的方式走向物體,將頭部朝向它,伸出手并以逼真的手部姿勢和手部物體接觸抓住它。為了實(shí)現(xiàn)這一點(diǎn),網(wǎng)絡(luò)利用了一種結(jié)合 SMPL-X 身體參數(shù)和 3D 頂點(diǎn)偏移的表示。我們在 GRAB 數(shù)據(jù)集上定性和定量地訓(xùn)練和評(píng)估 GOAL。結(jié)果表明 GOAL 可以很好地泛化到看不見的對(duì)象,優(yōu)于基線。 GOAL 朝著合成逼真的全身物體抓取邁出了一步。

            * 題目: Learned Queries for Efficient Local Attention

            * 鏈接: https://arxiv.org/abs/2112.11435

            * 作者: Moab Arar,Ariel Shamir,Amit H. Bermano

            * 摘要: Vision Transformers (ViT) 作為強(qiáng)大的視覺模型。與前幾年主導(dǎo)視覺研究的卷積神經(jīng)網(wǎng)絡(luò)不同,視覺變換器能夠捕獲數(shù)據(jù)中的長期依賴關(guān)系。盡管如此,任何 Transformer 架構(gòu)的一個(gè)組成部分,即自注意力機(jī)制,都存在高延遲和內(nèi)存利用率低的問題,使其不太適合高分辨率輸入圖像。為了減輕這些缺點(diǎn),分層視覺模型在非交錯(cuò)窗口上局部使用自注意力。這種松弛降低了輸入大小的線性復(fù)雜性;然而,它限制了跨窗口交互,損害了模型性能。在本文中,我們提出了一個(gè)新的平移不變局部注意層,稱為查詢和參與 (QnA),它以重疊的方式在本地聚合輸入,很像卷積。 QnA 背后的關(guān)鍵思想是引入學(xué)習(xí)查詢,從而實(shí)現(xiàn)快速高效的實(shí)現(xiàn)。我們通過將其合并到分層視覺轉(zhuǎn)換器模型中來驗(yàn)證我們層的有效性。我們展示了速度和內(nèi)存復(fù)雜性的改進(jìn),同時(shí)實(shí)現(xiàn)了與最先進(jìn)模型相當(dāng)?shù)臏?zhǔn)確性。最后,我們的層隨著窗口大小的擴(kuò)展特別好,需要的內(nèi)存最多減少 10 倍,同時(shí)比現(xiàn)有方法快 5 倍。

            * 題目: ADJUST: A Dictionary-Based Joint Reconstruction and Unmixing Method for Spectral Tomography

            * 鏈接: https://arxiv.org/abs/2112.11406

            * 作者: Mathé T. Zeegers,Ajinkya Kadu,Tristan van Leeuwen,Kees Joost Batenburg

            * 其他: This paper is under consideration at Inverse Problems. 28 pages, 16 figures

            * 摘要: 多光譜探測器的進(jìn)步正在引起 X 射線計(jì)算機(jī)斷層掃描 (CT) 的范式轉(zhuǎn)變。從這些探測器獲取的光譜信息可用于提取感興趣對(duì)象的體積材料成分圖。如果材料及其光譜響應(yīng)是先驗(yàn)已知的,則圖像重建步驟相當(dāng)簡單。但是,如果它們未知,則需要聯(lián)合估計(jì)地圖和響應(yīng)。光譜 CT 中的傳統(tǒng)工作流程包括先進(jìn)行體積重建,然后進(jìn)行材料分解,反之亦然。然而,這些方法固有地受到聯(lián)合重建問題的不適定性的影響。為了解決這個(gè)問題,我們提出了“一種基于字典的光譜斷層掃描聯(lián)合重建和分離方法”(ADJUST)。我們的公式依賴于形成 CT 中常見材料的光譜特征字典和物體中存在的材料數(shù)量的先驗(yàn)知識(shí)。特別地,我們根據(jù)空間材料圖、光譜字典和字典元素的材料指標(biāo)線性分解光譜體積。我們提出了一種內(nèi)存高效的加速交替近端梯度方法,以找到由此產(chǎn)生的雙凸問題的近似解。從幾個(gè)合成體模的數(shù)值演示中,我們觀察到 ADJUST 與其他最先進(jìn)的方法相比表現(xiàn)得非常好。此外,我們解決了 ADJUST 針對(duì)有限測量模式的穩(wěn)健性問題。

            * 題目: Shape from Polarization for Complex Scenes in the Wild

            * 鏈接: https://arxiv.org/abs/2112.11377

            * 作者: Chenyang Lei,Chenyang Qi,Jiaxin Xie,Na Fan,Vladlen Koltun,Qifeng Chen

            * 摘要: 我們提出了一種新的數(shù)據(jù)驅(qū)動(dòng)方法,該方法具有基于物理先驗(yàn)的從單個(gè)偏振圖像進(jìn)行場景級(jí)法線估計(jì)的方法?,F(xiàn)有的極化形狀 (SfP) 的工作主要集中在估計(jì)單個(gè)物體的法線,而不是野外的復(fù)雜場景。高質(zhì)量場景級(jí) SfP 的一個(gè)關(guān)鍵障礙是在復(fù)雜場景中缺乏真實(shí)世界的 SfP 數(shù)據(jù)。因此,我們貢獻(xiàn)了第一個(gè)真實(shí)世界場景級(jí) SfP 數(shù)據(jù)集,其中包含成對(duì)的輸入偏振圖像和地面實(shí)況法線貼圖。然后,我們提出了一個(gè)基于學(xué)習(xí)的框架,該框架具有多頭自注意力模塊和查看編碼,旨在處理場景級(jí) SfP 中由復(fù)雜材料和非正交投影引起的日益增加的偏振模糊度。我們訓(xùn)練的模型可以推廣到遠(yuǎn)場戶外場景,因?yàn)槠窆夂捅砻娣ň€之間的關(guān)系不受距離的影響。實(shí)驗(yàn)結(jié)果表明,我們的方法在兩個(gè)數(shù)據(jù)集上明顯優(yōu)于現(xiàn)有的 SfP 模型。我們的數(shù)據(jù)集和源代碼將在 \url{this https URL} 上公開提供。

            * 題目: Contrastive Object Detection Using Knowledge Graph Embeddings

            * 鏈接: https://arxiv.org/abs/2112.11366

            * 作者: Christopher Lang,Alexander Braun,Abhinav Valada

            * 摘要: 大多數(shù)情況下,對(duì)象識(shí)別已被視為一個(gè)熱點(diǎn)問題,將類視為離散和不相關(guān)的。必須將每個(gè)圖像區(qū)域分配給一組對(duì)象的一個(gè)??成員,包括背景類,不考慮對(duì)象類型中的任何相似性。在這項(xiàng)工作中,我們比較了從 one-hot 方法中學(xué)習(xí)到的類嵌入的錯(cuò)誤統(tǒng)計(jì)數(shù)據(jù)與來自自然語言處理或廣泛應(yīng)用于開放世界對(duì)象檢測的知識(shí)圖的語義結(jié)構(gòu)化嵌入。多個(gè)知識(shí)嵌入以及距離度量的廣泛實(shí)驗(yàn)結(jié)果表明,與具有挑戰(zhàn)性的 COCO 和 Cityscapes 對(duì)象檢測基準(zhǔn)上的 one-hot 方法相比,基于知識(shí)的類表示會(huì)導(dǎo)致更多的語義錯(cuò)誤分類。我們通過為基于關(guān)鍵點(diǎn)和基于轉(zhuǎn)換器的對(duì)象檢測架構(gòu)提出知識(shí)嵌入設(shè)計(jì),將我們的發(fā)現(xiàn)推廣到多個(gè)對(duì)象檢測架構(gòu)。

            * 題目: Transferable End-to-end Room Layout Estimation via Implicit Encoding

            * 鏈接: https://arxiv.org/abs/2112.11340

            * 作者: Hao Zhao,Rene Ranftl,Yurong Chen,Hongbin Zha

            * 其他: Project: this https URL

            * 摘要: 我們研究從單個(gè)全景圖像估計(jì)房間布局的問題。大多數(shù)以前的工作有兩個(gè)階段:特征提取和參數(shù)模型擬合。在這里,我們提出了一種端到端的方法,可以直接從輸入的全景圖像中預(yù)測參數(shù)布局。它利用隱式編碼程序,將參數(shù)布局嵌入到潛在空間中。然后學(xué)習(xí)從圖像到這個(gè)潛在空間的映射使得端到端的房間布局估計(jì)成為可能。然而,盡管端到端方法具有許多有趣的特性,但仍有幾個(gè)臭名昭著的缺點(diǎn)。一個(gè)廣泛提出的批評(píng)是,他們受到數(shù)據(jù)集偏見的困擾,并且不會(huì)轉(zhuǎn)移到不熟悉的領(lǐng)域。我們的研究呼應(yīng)了這一共同信念。為此,我們建議使用語義邊界預(yù)測圖作為中間域。它在四個(gè)基準(zhǔn)測試(Structured3D、PanoContext、S3DIS 和 Matterport3D)上帶來了顯著的性能提升,尤其是在零次傳輸設(shè)置中。將發(fā)布代碼、數(shù)據(jù)和模型。

            * 題目: Multispectral image fusion by super pixel statistics

            * 鏈接: https://arxiv.org/abs/2112.11329

            * 作者: Nati Ofir

            * 摘要: 多光譜圖像融合是遙感和圖像處理的基本問題。經(jīng)典和深度學(xué)習(xí)方法都可以解決這個(gè)問題。本文重點(diǎn)介紹經(jīng)典解決方案,并為該系列介紹了一種新的新穎方法。所提出的方法基于融合圖像的內(nèi)容進(jìn)行多光譜圖像融合。它依賴于基于融合輸入中分割超像素信息水平的分析。具體來說,我解決了可見色 RGB 到近紅外 (NIR) 融合的任務(wù)。 RGB 圖像捕捉場景的顏色,而 NIR 捕捉細(xì)節(jié)并超越霧霾和云層。由于每個(gè)通道感知場景的不同信息,它們的融合具有挑戰(zhàn)性和趣味性。所提出的方法旨在產(chǎn)生包含每個(gè)光譜的兩個(gè)優(yōu)點(diǎn)的融合。本手稿實(shí)驗(yàn)表明,與其他經(jīng)典融合方法相比,所提出的方法在視覺上具有豐富的信息,這些方法可以在嵌入式設(shè)備上快速運(yùn)行而無需大量計(jì)算資源。

            * 題目: Review of Face Presentation Attack Detection Competitions

            * 鏈接: https://arxiv.org/abs/2112.11290

            * 作者: Zitong Yu,Jukka Komulainen,Xiaobai Li,Guoying Zhao

            * 其他: Handbook of Biometric Anti-Spoofing (3rd Ed.)

            * 摘要: 自從欺騙漏洞被廣泛認(rèn)識(shí)到以來,人臉呈現(xiàn)攻擊檢測(PAD)就受到越來越多的關(guān)注。 2011 年、2013 年、2017 年、2019 年、2020 年和 2021 年與主要生物識(shí)別學(xué)和計(jì)算機(jī)視覺會(huì)議聯(lián)合舉辦的八場國際比賽中,對(duì)單模和多模面部反欺騙的最新技術(shù)進(jìn)行了評(píng)估,每場比賽都給人類帶來了新的挑戰(zhàn)。研究界。在本章中,我們介紹了 2019 年至 2021 年五項(xiàng)最新比賽的設(shè)計(jì)和結(jié)果。前兩個(gè)挑戰(zhàn)旨在評(píng)估面部 PAD 在多模態(tài)設(shè)置中的有效性,除了引入近紅外 (NIR) 和深度模態(tài)之外彩色相機(jī)數(shù)據(jù),而最近的三場比賽側(cè)重于評(píng)估在傳統(tǒng)彩色圖像和視頻上運(yùn)行的人臉 PAD 算法的域和攻擊類型泛化能力。我們還總體上討論了從比賽中吸取的教訓(xùn)和該領(lǐng)域的未來挑戰(zhàn)。

            * 題目: Image quality enhancement of embedded holograms in holographic information hiding using deep neural networks

            * 鏈接: https://arxiv.org/abs/2112.11246

            * 作者: Tomoyoshi Shimobaba,Sota Oshima,Takashi Kakue,and Tomoyoshi Ito

            * 摘要: 全息信息隱藏是一種將全息圖或圖像嵌入到另一個(gè)全息圖中的技術(shù),用于全息圖的版權(quán)保護(hù)和隱寫術(shù)。使用深度神經(jīng)網(wǎng)絡(luò),我們提供了一種提高嵌入式全息圖視覺質(zhì)量的方法。嵌入的全息圖的亮度設(shè)置為宿主全息圖亮度的一小部分,從而導(dǎo)致宿主全息圖的重建圖像幾乎沒有損壞。然而,由于嵌入的全息圖的重建圖像比重建的宿主圖像更暗,因此難以感知。在這項(xiàng)研究中,我們使用深度神經(jīng)網(wǎng)絡(luò)來恢復(fù)變暗的圖像。

            * 題目: Hateful Memes Challenge: An Enhanced Multimodal Framework

            * 鏈接: https://arxiv.org/abs/2112.11244

            * 作者: Aijing Gao,Bingjun Wang,Jiaqi Yin,Yating Tian

            * 摘要: Facebook AI發(fā)起的仇恨模因挑戰(zhàn)賽吸引了世界各地的參賽者。挑戰(zhàn)的重點(diǎn)是檢測多模態(tài)模因中的仇恨言論。各種最先進(jìn)的深度學(xué)習(xí)模型已應(yīng)用于此問題,并且在挑戰(zhàn)排行榜上的表現(xiàn)也在不斷提高。在本文中,我們增強(qiáng)了仇恨檢測框架,包括利用 Detectron 進(jìn)行特征提取,探索具有不同損失函數(shù)的 VisualBERT 和 UNITER 模型的不同設(shè)置,研究仇恨模因與敏感文本特征之間的關(guān)聯(lián),最后構(gòu)建集成方法以提升模型性能。我們微調(diào)的 VisualBERT、UNITER 和集成方法的 AUROC 在挑戰(zhàn)的測試集上分別達(dá)到了 0.765、0.790 和 0.803,超過了基線模型。我們的代碼可在此 https URL 獲得

            * 題目: Projected Sliced Wasserstein Autoencoder-based Hyperspectral Images Anomaly Detection

            * 鏈接: https://arxiv.org/abs/2112.11243

            * 作者: Yurong Chen,Hui Zhang,Yaonan Wang,Q. M. Jonathan Wu,Yimin Yang

            * 摘要: 異常檢測是指識(shí)別偏離正常模式的觀察,這一直是各個(gè)領(lǐng)域的活躍研究領(lǐng)域。最近,不斷增加的數(shù)據(jù)規(guī)模、復(fù)雜性和維度使傳統(tǒng)的基于表示和統(tǒng)計(jì)的異常值檢測方法變得具有挑戰(zhàn)性。在本文中,我們在高光譜圖像異常檢測中利用生成模型。要點(diǎn)是對(duì)正態(tài)數(shù)據(jù)的分布進(jìn)行建模,而分布外的樣本可以視為異常值。首先,研究了基于變分推理的異常檢測方法。我們從理論上和經(jīng)驗(yàn)上發(fā)現(xiàn)它們是不穩(wěn)定的,因?yàn)榫嚯x($f$-divergence)的強(qiáng)概念用作正則化。其次,本文介紹了切片 Wasserstein 距離,這是一種較 f-divergence 更弱的分布度量。然而,隨機(jī)切片的數(shù)量給估計(jì)真實(shí)距離帶來了困難。最后,我們提出了一種基于投影切片 Wasserstein (PSW) 自編碼器的異常篩選方法。特別是,我們利用一種計(jì)算友好的特征分解方法來找到主成分作為切片高維數(shù)據(jù)。此外,我們提出的距離可以用封閉形式計(jì)算,即使先驗(yàn)分布不是高斯分布。在各種真實(shí)世界的高光譜異常檢測基準(zhǔn)上進(jìn)行的綜合實(shí)驗(yàn)證明了我們提出的方法的優(yōu)越性能。

            * 題目: Improving Robustness with Image Filtering

            * 鏈接: https://arxiv.org/abs/2112.11235

            * 作者: Matteo Terzi,Mattia Carletti,Gian Antonio Susto

            * 摘要: 對(duì)抗性魯棒性是深度學(xué)習(xí)和計(jì)算機(jī)視覺研究中最具挑戰(zhàn)性的問題之一。所有最先進(jìn)的技術(shù)都需要一個(gè)耗時(shí)的程序來創(chuàng)建巧妙的擾動(dòng)圖像。由于其成本,已經(jīng)提出了許多解決方案來避免對(duì)抗訓(xùn)練。然而,所有這些嘗試都被證明是無效的,因?yàn)楣粽咴O(shè)法利用像素之間的虛假相關(guān)性來觸發(fā)模型隱式學(xué)習(xí)的脆弱特征。本文首先介紹了一種稱為 Image-Graph Extractor (IGE) 的新圖像過濾方案,該方案通過圖結(jié)構(gòu)提取圖像的基本節(jié)點(diǎn)及其連接。通過利用 IGE 表示,我們構(gòu)建了一種新的防御方法,即過濾作為防御,它不允許攻擊者糾纏像素以創(chuàng)建惡意模式。此外,我們表明使用過濾圖像進(jìn)行數(shù)據(jù)增強(qiáng)有效地提高了模型對(duì)數(shù)據(jù)損壞的魯棒性。我們在 CIFAR-10、CIFAR-100 和 ImageNet 上驗(yàn)證了我們的技術(shù)。

            * 題目: Attention-Based Sensor Fusion for Human Activity Recognition Using IMU Signals

            * 鏈接: https://arxiv.org/abs/2112.11224

            * 作者: Wenjin Tao,Haodong Chen,Md Moniruzzaman,Ming C. Leu,Zhaozheng Yi,Ruwen Qin

            * 摘要: 人類活動(dòng)識(shí)別 (HAR) 使用可穿戴設(shè)備,例如嵌入慣性測量單元 (IMU) 傳感器的智能手表,具有與我們?nèi)粘I钕嚓P(guān)的各種應(yīng)用,例如鍛煉跟蹤和健康監(jiān)測。在本文中,我們提出了一種新的基于注意力的人類活動(dòng)識(shí)別方法,該方法使用佩戴在不同身體位置的多個(gè) IMU 傳感器。首先,傳感器特征提取模塊旨在從具有卷積神經(jīng)網(wǎng)絡(luò) (CNN) 的單個(gè)傳感器中提取最具辨別力的特征。其次,開發(fā)了一種基于注意力的融合機(jī)制,以了解傳感器在不同身體位置的重要性并生成注意力特征表示。最后,應(yīng)用傳感器間特征提取模塊來學(xué)習(xí)傳感器間相關(guān)性,這些相關(guān)性連接到分類器以輸出預(yù)測的活動(dòng)類別。所提出的方法使用五個(gè)公共數(shù)據(jù)集進(jìn)行評(píng)估,并且在各種活動(dòng)類別上均優(yōu)于最先進(jìn)的方法。

            * 題目: Learning Human Motion Prediction via Stochastic Differential Equations

            * 鏈接: https://arxiv.org/abs/2112.11124

            * 作者: Kedi Lyu,Zhenguang Liu,Shuang Wu,Haipeng Chen,Xuhong Zhang,Yuyu Yin

            * 其他: 9 pages, 6 figures

            * 摘要: 人體運(yùn)動(dòng)理解和預(yù)測是我們追求機(jī)器智能和人機(jī)交互系統(tǒng)的一個(gè)組成部分。當(dāng)前的方法通常采用運(yùn)動(dòng)學(xué)建模方法,嚴(yán)重依賴于先前的解剖知識(shí)和約束。然而,這種方法很難推廣到不同的骨骼模型表示,而且往往不能充分考慮運(yùn)動(dòng)的動(dòng)態(tài)范圍和復(fù)雜性,從而阻礙了預(yù)測的準(zhǔn)確性。在這項(xiàng)工作中,我們提出了一種基于隨機(jī)微分方程和路徑積分的運(yùn)動(dòng)預(yù)測問題建模新方法。每個(gè)骨骼關(guān)節(jié)的運(yùn)動(dòng)曲線被公式化為一個(gè)基本的隨機(jī)變量,并用朗之萬方程建模。我們開發(fā)了一種使用 GAN 來模擬路徑積分的策略,這相當(dāng)于優(yōu)化未來可能的路徑。我們在兩個(gè)大型基準(zhǔn)數(shù)據(jù)集 Human 3.6M 和 CMU MoCap 中進(jìn)行實(shí)驗(yàn)。值得強(qiáng)調(diào)的是,我們的方法比當(dāng)前最先進(jìn)的方法平均提高了 12.48% 的準(zhǔn)確度。

            * 題目: Can We Use Neural Regularization to Solve Depth Super-Resolution?

            * 鏈接: https://arxiv.org/abs/2112.11085

            * 作者: Milena Gazdieva,Oleg Voynov,Alexey Artemov,Youyi Zheng,Luiz Velho,Evgeny Burnaev

            * 其他: 9 pages

            * 摘要: 使用商品傳感器捕獲的深度圖通常需要超分辨率才能在應(yīng)用中使用。在這項(xiàng)工作中,我們研究了一種基于變分問題陳述和 Tikhonov 正則化的超分辨率方法,其中正則化器使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化。這種方法以前已成功應(yīng)用于光聲斷層掃描。我們通過實(shí)驗(yàn)表明,將其應(yīng)用于深度圖超分辨率是困難的,并提供有關(guān)其原因的建議。

            * 題目: RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality

            * 鏈接: https://arxiv.org/abs/2112.11081

            * 作者: Xiaohan Ding,Honghao Chen,Xiangyu Zhang,Jungong Han,Guiguang Ding

            * 其他: The code and models are available at this https URL. arXiv admin note: text overlap with arXiv:2105.01883

            * 摘要: 與卷積層相比,全連接 (FC) 層在建模遠(yuǎn)程依賴方面更好,但在捕獲局部模式方面較差,因此通常不太適合圖像識(shí)別。在本文中,我們提出了一種方法,即局部性注入,通過將并行卷積核的訓(xùn)練參數(shù)合并到 FC 內(nèi)核中,將局部先驗(yàn)合并到 FC 層中。局部注入可以被視為一種新的結(jié)構(gòu)重新參數(shù)化方法,因?yàn)樗ㄟ^轉(zhuǎn)換參數(shù)等效地轉(zhuǎn)換結(jié)構(gòu)?;诖耍覀兲岢隽艘粋€(gè)名為 RepMLP Block 的多層感知器 (MLP) 塊,它使用三個(gè) FC 層來提取特征,以及一種名為 RepMLPNet 的新型架構(gòu)。分層設(shè)計(jì)將 RepMLPNet 與其他同時(shí)提出的視覺 MLP 區(qū)分開來。由于它生成不同級(jí)別的特征圖,因此它有資格作為語義分割等下游任務(wù)的主干模型。我們的結(jié)果表明:1)局部注入是 MLP 模型的通用方法; 2) RepMLPNet 與其他 MLP 相比具有良好的準(zhǔn)確性-效率權(quán)衡; 3) RepMLPNet 是第一個(gè)無縫轉(zhuǎn)移到 Cityscapes 語義分割的 MLP。代碼和模型可在此 https URL 處獲得。

            * 題目: fMRI Neurofeedback Learning Patterns are Predictive of Personal and Clinical Traits

            * 鏈接: https://arxiv.org/abs/2112.11014

            * 作者: Rotem Leibovitz,Jhonathan Osin,Lior Wolf,Guy Gurevitch,Talma Hendler

            * 摘要: 我們在功能 MRI (fMRI) 的指導(dǎo)下,獲得了一個(gè)人在自我神經(jīng)調(diào)節(jié)任務(wù)中學(xué)習(xí)進(jìn)度的個(gè)人簽名。該簽名基于在第二次神經(jīng)反饋會(huì)話中預(yù)測杏仁核的活動(dòng),假設(shè)在第一次會(huì)話中具有類似的 fMRI 衍生的大腦狀態(tài)。預(yù)測是由深度神經(jīng)網(wǎng)絡(luò)進(jìn)行的,該網(wǎng)絡(luò)在整個(gè)訓(xùn)練隊(duì)列中進(jìn)行了訓(xùn)練。該信號(hào)表示一個(gè)人在執(zhí)行杏仁核調(diào)節(jié)任務(wù)方面的進(jìn)展,在多個(gè)原型大腦狀態(tài)中聚合,然后由線性分類器分類為各種個(gè)人和臨床適應(yīng)癥。獲得的簽名的預(yù)測能力比以前從 fMRI 神經(jīng)反饋中獲得個(gè)人簽名的方法更強(qiáng),并提供了一個(gè)人的學(xué)習(xí)模式可以用作診斷工具的指示。我們的代碼已經(jīng)可用,數(shù)據(jù)將被共享,前提是道德批準(zhǔn)。

            * 題目: Point spread function estimation for blind image deblurring problems based on framelet transform

            * 鏈接: https://arxiv.org/abs/2112.11004

            * 作者: Reza Parvaz

            * 摘要: 圖像處理中最重要的問題之一是由于模糊過程而丟失的圖像的近似。這些類型的問題分為非盲問題和盲問題。由于原始圖像和點(diǎn)擴(kuò)散函數(shù)估計(jì)的未知性,第二類問題在計(jì)算方面比第一類問題更復(fù)雜。在本文中,引入了一種基于$l_0-\alpha l_1$正則化和framelet變換的粗到細(xì)迭代算法來近似擴(kuò)展函數(shù)估計(jì)。由于將內(nèi)核分解為不同的頻率,F(xiàn)ramelet transfer 改進(jìn)了恢復(fù)的內(nèi)核。在所提出的模型中,分?jǐn)?shù)梯度算子也被用來代替普通的梯度算子。所提出的方法在不同類型的圖像上進(jìn)行了研究,例如文本、面部、自然。所提方法的輸出反映了所提算法在從盲問題中恢復(fù)圖像的有效性。

            * 題目: Expansion-Squeeze-Excitation Fusion Network for Elderly Activity Recognition

            * 鏈接: https://arxiv.org/abs/2112.10992

            * 作者: Xiangbo Shu,Jiawen Yang,Rui Yan,Yan Song

            * 摘要: 這項(xiàng)工作側(cè)重于老年人活動(dòng)識(shí)別的任務(wù),這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)槔夏耆嘶顒?dòng)中存在個(gè)體動(dòng)作和人與物體的交互。因此,我們試圖通過專注地融合多模態(tài)特征來有效地聚合來自 RGB 視頻和骨架序列的動(dòng)作和交互的判別信息。最近,通過利用從 Squeeze-and-Excitation Networks (SENet) 擴(kuò)展而來的非線性注意機(jī)制,提出了一些非線性多模態(tài)融合方法。受此啟發(fā),我們提出了一種新穎的擴(kuò)展-擠壓-激發(fā)融合網(wǎng)絡(luò) (ESE-FN) 來有效解決老年人活動(dòng)識(shí)別的問題,該網(wǎng)絡(luò)學(xué)習(xí)模態(tài)和通道方式的擴(kuò)展-擠壓-激發(fā) (ESE) 注意力以專注地融合以模態(tài)和通道方式的多模態(tài)特征。此外,我們設(shè)計(jì)了一種新的多模態(tài)損失(ML),通過添加單模態(tài)的最小預(yù)測損失與單模態(tài)的預(yù)測損失之間的差異懲罰來保持單模態(tài)特征和融合的多模態(tài)特征之間的一致性。融合模態(tài)。最后,我們對(duì)最大規(guī)模的老年人活動(dòng)數(shù)據(jù)集,即 ETRI-Activity3D(包括 110,000 多個(gè)視頻和 50 多個(gè)類別)進(jìn)行了實(shí)驗(yàn),以證明所提出的 ESE-FN 與 state-of-最先進(jìn)的方法。此外,更廣泛的實(shí)驗(yàn)結(jié)果表明,所提出的 ESE-FN 在正常動(dòng)作識(shí)別任務(wù)方面也與其他方法相當(dāng)。

            * 題目: Mapping industrial poultry operations at scale with deep learning and aerial imagery

            * 鏈接: https://arxiv.org/abs/2112.10988

            * 作者: Caleb Robinson,Ben Chugg,Brandon Anderson,Juan M. Lavista Ferres,Daniel E. Ho

            * 摘要: 動(dòng)物集中飼養(yǎng)操作 (CAFO) 對(duì)空氣、水和公共健康構(gòu)成嚴(yán)重風(fēng)險(xiǎn),但已證明難以監(jiān)管。美國政府問責(zé)局指出,一個(gè)基本挑戰(zhàn)是缺乏關(guān)于 CAFO 的全面位置信息。我們使用美國農(nóng)業(yè)部的國家農(nóng)業(yè)影像計(jì)劃 (NAIP) 100 萬/像素航空影像來檢測美國大陸的家禽 CAFO。我們訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò) (CNN) 模型來識(shí)別單個(gè)家禽谷倉,并將性能最佳的模型應(yīng)用于超過 42 TB 的圖像,以創(chuàng)建第一個(gè)全國性的家禽 CAFO 開源數(shù)據(jù)集。我們針對(duì)來自加利福尼亞州 10 個(gè)手工標(biāo)記縣的家禽 CAFO 設(shè)施位置的保留驗(yàn)證集驗(yàn)證模型預(yù)測,并證明這種方法具有填補(bǔ)環(huán)境監(jiān)測空白的巨大潛力。

            * 題目: Generalizing Interactive Backpropagating Refinement for Dense Prediction

            * 鏈接: https://arxiv.org/abs/2112.10969

            * 作者: Fanqing Lin,Brian Price,Tony Martinez

            * 摘要: 隨著深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算機(jī)視覺領(lǐng)域中用于密集預(yù)測任務(wù)的最先進(jìn)方法,已經(jīng)開發(fā)了許多方法來自動(dòng)估計(jì)給定視覺輸入的目標(biāo)輸出。盡管所提出的自動(dòng)方法的估計(jì)精度不斷提高,但交互細(xì)化通常是進(jìn)一步校正所必需的。最近,已經(jīng)為交互式分割任務(wù)提出了特征反向傳播細(xì)化方案(\text{\textit{f}-BRS}),它能夠有效優(yōu)化插入預(yù)訓(xùn)練網(wǎng)絡(luò)的一小組輔助變量,以產(chǎn)生對(duì)象分割更好地與用戶輸入保持一致。然而,提議的輔助變量僅包含通道尺度和偏差,將優(yōu)化僅限于全局細(xì)化。在這項(xiàng)工作中,為了將反向傳播細(xì)化推廣到范圍廣泛的密集預(yù)測任務(wù),我們引入了一組 G-BRS(廣義反向傳播細(xì)化方案)層,這些層能夠?qū)σ韵氯蝿?wù)進(jìn)行全局和局部細(xì)化:交互式分割、語義分割、圖像摳圖和單目深度估計(jì)。在 SBD、Cityscapes、Mapillary Vista、Composition-1k 和 NYU-Depth-V2 上的實(shí)驗(yàn)表明,我們的方法只需點(diǎn)擊幾下就可以成功地泛化并顯著提高現(xiàn)有預(yù)訓(xùn)練的最先進(jìn)模型的性能。

            * 題目: DRPN: Making CNN Dynamically Handle Scale Variation

            * 鏈接: https://arxiv.org/abs/2112.10963

            * 作者: Jingchao Peng,Haitao Zhao,Zhengwei Hu,Yi Zhuang,Bofan Wang

            * 摘要: 根據(jù)我們對(duì)紅外目標(biāo)的觀察,序列幀內(nèi)嚴(yán)重的尺度變化經(jīng)常發(fā)生。在本文中,我們提出了一種動(dòng)態(tài)重新參數(shù)化網(wǎng)絡(luò)(DRPN)來處理尺度變化并平衡紅外數(shù)據(jù)集中小目標(biāo)和大目標(biāo)之間的檢測精度。 DRPN 采用多分支不同大小的卷積核和動(dòng)態(tài)卷積策略。具有不同卷積核大小的多個(gè)分支具有不同大小的感受野。動(dòng)態(tài)卷積策略使 DRPN 自適應(yīng)加權(quán)多個(gè)分支。 DRPN 可以根據(jù)目標(biāo)的尺度變化動(dòng)態(tài)調(diào)整感受野。此外,為了在測試階段保持有效的推理,訓(xùn)練后通過重新參數(shù)化技術(shù)將多分支結(jié)構(gòu)進(jìn)一步轉(zhuǎn)換為單分支結(jié)構(gòu)。對(duì) FLIR、KAIST 和 InfraPlane 數(shù)據(jù)集的大量實(shí)驗(yàn)證明了我們提出的 DRPN 的有效性。實(shí)驗(yàn)結(jié)果表明,使用所提出的 DRPN 作為基本結(jié)構(gòu)而不是 SKNet 或 TridentNet 的檢測器獲得了最佳性能。

            * 題目: Task-Oriented Image Transmission for Scene Classification in Unmanned Aerial Systems

            * 鏈接: https://arxiv.org/abs/2112.10948

            * 作者: Xu Kang,Bin Song,Jie Guo,Zhijin Qin,F. Richard Yu

            * 摘要: 物聯(lián)網(wǎng)的蓬勃發(fā)展使其計(jì)算和存儲(chǔ)能力擴(kuò)展到云端和邊緣協(xié)同的航空系統(tǒng)中的計(jì)算任務(wù),特別是基于深度學(xué)習(xí)(DL)的人工智能(AI)任務(wù)。無人機(jī)(UAV)采集大量圖像/視頻數(shù)據(jù),由于其存儲(chǔ)和計(jì)算能力有限,只能將智能分析任務(wù)移交給后端移動(dòng)邊緣計(jì)算(MEC)服務(wù)器。如何有效地為 AI 模型傳輸最相關(guān)的信息是一個(gè)具有挑戰(zhàn)性的話題。受近年來面向任務(wù)的通信的啟發(fā),我們?yōu)閳鼍胺诸惾蝿?wù)提出了一種新的航拍圖像傳輸范式。在前端無人機(jī)上開發(fā)了一個(gè)輕量級(jí)模型,用于語義塊傳輸,感知圖像和信道條件。為了實(shí)現(xiàn)傳輸延遲和分類精度之間的權(quán)衡,使用深度強(qiáng)化學(xué)習(xí)(DRL)來探索在各種信道條件下對(duì)后端分類器貢獻(xiàn)最大的語義塊。實(shí)驗(yàn)結(jié)果表明,與固定傳輸策略和傳統(tǒng)的內(nèi)容感知方法相比,所提出的方法可以顯著提高分類精度。

            * 題目: Pixel-Stega: Generative Image Steganography Based on Autoregressive Models

            * 鏈接: https://arxiv.org/abs/2112.10945

            * 作者: Siyu Zhang,Zhongliang Yang,Haoqin Tu,Jinshuai Yang,Yongfeng Huang

            * 摘要: 在這封信中,我們探索了基于自回歸模型的生成圖像隱寫術(shù)。我們提出了Pixel-Stega,它通過自回歸模型和算術(shù)編碼算法實(shí)現(xiàn)了像素級(jí)的信息隱藏。首先,自回歸模型之一 PixelCNN++ 用于生成每個(gè)像素的顯式條件概率分布。其次,通過基于算術(shù)編碼的隱寫采樣(stegosampling)將秘密信息編碼為像素的選擇。我們對(duì)灰度和彩色圖像數(shù)據(jù)集進(jìn)行了定性和定量評(píng)估。實(shí)驗(yàn)結(jié)果表明,Pixel-Stega 能夠根據(jù)像素的熵自適應(yīng)地嵌入秘密信息,以實(shí)現(xiàn)高嵌入容量(高達(dá) 4.3 bpp)和近乎完美的不可感知性(約 50% 的檢測精度)。

            * 題目: Structured Semantic Transfer for Multi-Label Recognition with Partial Labels

            * 鏈接: https://arxiv.org/abs/2112.10941

            * 作者: Tianshui Chen,Tao Pu,Hefeng Wu,Yuan Xie,Liang Lin

            * 其他: Accepted by AAAI 2022

            * 摘要: 多標(biāo)簽圖像識(shí)別是一項(xiàng)基本但實(shí)用的任務(wù),因?yàn)楝F(xiàn)實(shí)世界的圖像固有地具有多個(gè)語義標(biāo)簽。然而,由于輸入圖像和輸出標(biāo)簽空間的復(fù)雜性,很難收集大規(guī)模的多標(biāo)簽注釋。為了降低注釋成本,我們提出了一種結(jié)構(gòu)化語義轉(zhuǎn)移 (SST) 框架,該框架能夠訓(xùn)練具有部分標(biāo)簽的多標(biāo)簽識(shí)別模型,即每張圖像只有一些標(biāo)簽是已知的,而其他標(biāo)簽卻缺失(也稱為未知標(biāo)簽)。該框架由兩個(gè)互補(bǔ)的傳輸模塊組成,它們探索圖像內(nèi)和跨圖像語義相關(guān)性,以傳輸已知標(biāo)簽的知識(shí),為未知標(biāo)簽生成偽標(biāo)簽。具體來說,圖像內(nèi)語義傳輸模塊學(xué)習(xí)特定于圖像的標(biāo)簽共生矩陣,并基于該矩陣映射已知標(biāo)簽以補(bǔ)充未知標(biāo)簽。同時(shí),交叉圖像傳輸模塊學(xué)習(xí)特定類別的特征相似性,并幫助補(bǔ)充具有高相似性的未知標(biāo)簽。最后,已知標(biāo)簽和生成標(biāo)簽都用于訓(xùn)練多標(biāo)簽識(shí)別模型。在 Microsoft COCO、Visual Genome 和 Pascal VOC 數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,所提出的 SST 框架比當(dāng)前最先進(jìn)的算法獲得了優(yōu)越的性能。代碼可在 \url{this https URL

            * 題目: Spatiotemporal Motion Synchronization for Snowboard Big Air

            * 鏈接: https://arxiv.org/abs/2112.10909

            * 作者: Seiji Matsumura,Dan Mikami,Naoki Saijo,Makio Kashino

            * 摘要: 在最受歡迎的冬季運(yùn)動(dòng)之一的單板滑雪訓(xùn)練期間,運(yùn)動(dòng)員和教練使用單個(gè)相機(jī)或智能手機(jī)廣泛地拍攝和檢查他們的跳躍嘗試。但是,通過順序觀看視頻,很難比較兩次試驗(yàn)之間的精確性能差異。因此,兩個(gè)視頻的并排顯示或疊加可能有助于訓(xùn)練。為此,必須確保多個(gè)表演的空間和時(shí)間對(duì)齊。在這項(xiàng)研究中,我們提出了一種傳統(tǒng)但合理的解決方案,使用現(xiàn)有的圖像處理技術(shù)進(jìn)行滑雪板大空中訓(xùn)練。我們對(duì)滑雪專家進(jìn)行了采訪,他們表示時(shí)空對(duì)齊的視頻使他們能夠準(zhǔn)確識(shí)別身體運(yùn)動(dòng)的細(xì)微差異。結(jié)果表明,所提出的方法可用于單板滑雪大空氣的訓(xùn)練。

            * 題目: Translational Concept Embedding for Generalized Compositional Zero-shot Learning

            * 鏈接: https://arxiv.org/abs/2112.10871

            * 作者: He Huang,Wei Tang,Jiawei Zhang,Philip S. Yu

            * 摘要: 廣義組合零樣本學(xué)習(xí)意味著以零樣本方式學(xué)習(xí)屬性-對(duì)象對(duì)的組合概念,其中模型在一組已見概念上進(jìn)行訓(xùn)練,并在一??組已見和未見概念的組合上進(jìn)行測試。這項(xiàng)任務(wù)非常具有挑戰(zhàn)性,不僅因?yàn)榭梢姼拍詈筒豢梢姼拍钪g存在差距,還因?yàn)閷傩院蛯?duì)象之間的上下文相關(guān)性。本文介紹了一種新方法,稱為翻譯概念嵌入,以在統(tǒng)一框架中解決這兩個(gè)困難。它將屬性應(yīng)用于對(duì)象的效果建模為向?qū)ο笤吞砑悠揭茖傩蕴卣鳌N覀兺ㄟ^生成有條件地依賴于對(duì)象原型的平移屬性特征,明確地考慮了屬性和對(duì)象之間的上下文依賴性。此外,我們設(shè)計(jì)了一個(gè)比率方差約束損失來提升模型對(duì)未知概念的泛化能力。它通過利用來自預(yù)訓(xùn)練詞嵌入的知識(shí)來規(guī)范概念之間的距離。我們評(píng)估了我們模型在無偏和有偏概念分類任務(wù)下的性能,并表明我們的模型能夠在預(yù)測不可見和可見概念方面取得良好的平衡。

            * 題目: Encoding Hierarchical Information in Neural Networks helps in Subpopulation Shift

            * 鏈接: https://arxiv.org/abs/2112.10844

            * 作者: Amitangshu Mukherjee,Isha Garg,Kaushik Roy

            * 其他: 14 pages, 2 figures

            * 摘要: 在過去十年中,深度神經(jīng)網(wǎng)絡(luò)已被證明擅長圖像分類任務(wù),在準(zhǔn)確性方面往往超過人類。然而,標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)通常無法理解視覺相關(guān)任務(wù)的不同類別之間的層次結(jié)構(gòu)和依賴關(guān)系的概念。另一方面,人類似乎從概念上學(xué)習(xí)類別,從理解高級(jí)概念逐漸發(fā)展到類別的細(xì)粒度級(jí)別。由于神經(jīng)網(wǎng)絡(luò)無法在其學(xué)習(xí)結(jié)構(gòu)中編碼這種依賴關(guān)系而產(chǎn)生的問題之一是亞群轉(zhuǎn)移——其中使用從訓(xùn)練集類別的轉(zhuǎn)移群體中提取的新的未見類來查詢模型。由于神經(jīng)網(wǎng)絡(luò)將每個(gè)類別視為獨(dú)立于所有其他類別,因此它很難對(duì)依賴于更高層次的層次結(jié)構(gòu)進(jìn)行分類。在這項(xiàng)工作中,我們通過一個(gè)新的條件監(jiān)督訓(xùn)練框架來研究上述問題。我們通過結(jié)構(gòu)化學(xué)習(xí)程序來解決亞群轉(zhuǎn)移問題,該程序通過標(biāo)簽有條件地結(jié)合分層信息。此外,我們引入了圖形距離的概念來模擬錯(cuò)誤預(yù)測的災(zāi)難性影響。我們表明,以這種結(jié)構(gòu)化的分層方式學(xué)習(xí)會(huì)導(dǎo)致網(wǎng)絡(luò)對(duì)亞群轉(zhuǎn)移更加穩(wěn)健,與亞群轉(zhuǎn)移基準(zhǔn)上的標(biāo)準(zhǔn)模型相比,在準(zhǔn)確性方面提高了約 2%,在圖形距離方面提高了約 8.5%。

            * 題目: Max-Margin Contrastive Learning

            * 鏈接: https://arxiv.org/abs/2112.11450

            * 作者: Anshul Shah,Suvrit Sra,Rama Chellappa,Anoop Cherian

            * 其他: Accepted at AAAI 2022

            * 摘要: 標(biāo)準(zhǔn)的對(duì)比學(xué)習(xí)方法通??常需要大量的否定來進(jìn)行有效的無監(jiān)督學(xué)習(xí),并且通常表現(xiàn)出緩慢的收斂性。我們懷疑這種行為是由于用于提供與正面的對(duì)比的負(fù)面選擇的次優(yōu)。我們通過從支持向量機(jī) (SVM) 中汲取靈感來呈現(xiàn)最大邊距對(duì)比學(xué)習(xí) (MMCL) 來解決這一難題。我們的方法選擇負(fù)數(shù)作為通過二次優(yōu)化問題獲得的稀疏支持向量,并通過最大化決策裕度來增強(qiáng)對(duì)比度。由于 SVM 優(yōu)化的計(jì)算要求很高,尤其是在端到端設(shè)置中,我們提出了減輕計(jì)算負(fù)擔(dān)的簡化方法。我們在標(biāo)準(zhǔn)視覺基準(zhǔn)數(shù)據(jù)集上驗(yàn)證了我們的方法,展示了在無監(jiān)督表示學(xué)習(xí)中優(yōu)于最先進(jìn)技術(shù)的性能,同時(shí)具有更好的經(jīng)驗(yàn)收斂特性。

            * 題目: Multi-Modality Distillation via Learning the teachers modality-level Gram Matrix

            * 鏈接: https://arxiv.org/abs/2112.11447

            * 作者: Peng Liu

            * 其他: 10 pages

            * 摘要: 在多模態(tài)知識(shí)蒸餾研究的背景下,現(xiàn)有的方法主要集中在只學(xué)習(xí)教師最終輸出的問題。因此,教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)之間仍然存在著深刻的差異。需要強(qiáng)制學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)的情態(tài)關(guān)系信息。為了有效地利用從教師到學(xué)生的知識(shí)轉(zhuǎn)移,采用了一種通過建模不同模態(tài)之間的關(guān)系信息的新模態(tài)關(guān)系蒸餾范式,即學(xué)習(xí)教師模態(tài)級(jí)的 Gram 矩陣。

            * 題目: PrimSeq: a deep learning-based pipeline to quantitate rehabilitation training

            * 鏈接: https://arxiv.org/abs/2112.11330

            * 作者: Avinash Parnandi,Aakash Kaku,Anita Venkatesan,Natasha Pandit,Audre Wirtanen,Haresh Rajamohan,Kannan Venkataramanan,Dawn Nilsen,Carlos Fernandez-Granda,Heidi Schambra

            * 摘要: 中風(fēng)康復(fù)旨在通過重復(fù)練習(xí)功能性運(yùn)動(dòng)來增加神經(jīng)可塑性,但由于重復(fù)次數(shù)不足,對(duì)恢復(fù)的影響可能很小。最佳的培訓(xùn)內(nèi)容和數(shù)量目前未知,因?yàn)闆]有實(shí)用的工具來衡量它們。在這里,我們展示了 PrimSeq,這是一個(gè)對(duì)中風(fēng)康復(fù)訓(xùn)練中的功能性運(yùn)動(dòng)進(jìn)行分類和計(jì)數(shù)的管道。我們的方法集成了可穿戴傳感器來捕捉上半身運(yùn)動(dòng),一個(gè)深度學(xué)習(xí)模型來預(yù)測運(yùn)動(dòng)序列,以及一個(gè)計(jì)算運(yùn)動(dòng)的算法。訓(xùn)練后的模型準(zhǔn)確地將康復(fù)活動(dòng)分解為組件功能運(yùn)動(dòng),優(yōu)于競爭性機(jī)器學(xué)習(xí)方法。 PrimSeq 還以人類專家的一小部分時(shí)間和勞動(dòng)力成本來量化這些運(yùn)動(dòng)。我們展示了 PrimSeq 在先前未見的具有一系列上肢運(yùn)動(dòng)障礙的中風(fēng)患者中的能力。我們預(yù)計(jì)這些進(jìn)展將支持中風(fēng)康復(fù)定量給藥試驗(yàn)所需的嚴(yán)格測量。

            * 題目: A Theoretical View of Linear Backpropagation and Its Convergence

            * 鏈接: https://arxiv.org/abs/2112.11018

            * 作者: Ziang Li,Yiwen Guo,Haodi Liu,Changshui Zhang

            * 摘要: 反向傳播廣泛用于計(jì)算深度神經(jīng)網(wǎng)絡(luò) (DNN) 中的梯度。反向傳播經(jīng)常與隨機(jī)梯度下降 (SGD) 或其變體一起應(yīng)用,被認(rèn)為是各種機(jī)器學(xué)習(xí)任務(wù)(包括 DNN 訓(xùn)練和對(duì)抗性攻擊/防御)中的事實(shí)上的選擇。最近,Guo 等人引入了一種名為 LinBP 的 BP 線性變體,用于為黑盒對(duì)抗攻擊生成更多可轉(zhuǎn)移的對(duì)抗樣本。然而,尚未對(duì)其進(jìn)行理論研究,缺乏對(duì)這種方法的收斂性分析。本文通過對(duì) LinBP 在涉及神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)(包括對(duì)抗性攻擊和模型訓(xùn)練)中的理論分析,作為對(duì)郭等人論文的補(bǔ)充和擴(kuò)展。我們證明,與 BP 相比,LinBP 可以在相同的超參數(shù)設(shè)置下更快地收斂這些任務(wù),這有??點(diǎn)令人驚訝。我們通過大量實(shí)驗(yàn)證實(shí)了我們的理論結(jié)果。

            * 題目: Learned ISTA with Error-based Thresholding for Adaptive Sparse Coding

            * 鏈接: https://arxiv.org/abs/2112.10985

            * 作者: Ziang Li,Kailun Wu,Yiwen Guo,Changshui Zhang

            * 摘要: 學(xué)習(xí)迭代收縮閾值算法(LISTA)在一些收縮函數(shù)中引入了具有可學(xué)習(xí)閾值的深度展開模型,用于稀疏編碼。借鑒一些理論見解,我們?yōu)?LISTA 提倡基于錯(cuò)誤的閾值 (EBT) 機(jī)制,該機(jī)制利用逐層重建誤差的函數(shù)為每一層的每個(gè)觀察建議合適的閾值。我們表明 EBT 機(jī)制很好地將收縮函數(shù)中的可學(xué)習(xí)參數(shù)與重建誤差分開,使它們更適應(yīng)各種觀察。通過嚴(yán)格的理論分析,我們表明,除了具有更高的適應(yīng)性之外,所提出的 EBT 還可以在 LISTA 及其變體的基礎(chǔ)上實(shí)現(xiàn)更快的收斂。大量的實(shí)驗(yàn)結(jié)果證實(shí)了我們的理論分析并驗(yàn)證了我們方法的有效性。

            * 題目: Nonlinear Transform Source-Channel Coding for Semantic Communications

            * 鏈接: https://arxiv.org/abs/2112.10961

            * 作者: Jincheng Dai,Sixian Wang,Kailin Tan,Zhongwei Si,Xiaoqi Qin,Kai Niu,Ping Zhang

            * 摘要: 在本文中,我們提出了一類新的高效深度聯(lián)合源信道編碼方法,它可以密切適應(yīng)非線性變換下的源分布,它可以被收集在非線性變換源信道編碼(NTSCC)下。在所考慮的模型中,發(fā)射器首先學(xué)習(xí)非線性分析變換以將源數(shù)據(jù)映射到潛在空間,然后通過深度聯(lián)合源信道編碼將潛在表示傳輸?shù)浇邮掌?。我們的模型將非線性變換合并為強(qiáng)先驗(yàn),以有效提取源語義特征并為源通道編碼提供輔助信息。與現(xiàn)有的傳統(tǒng)深度聯(lián)合源信道編碼方法不同,所提出的 NTSCC 本質(zhì)上同時(shí)學(xué)習(xí)源潛在表示和熵模型作為潛在表示的先驗(yàn)。因此,開發(fā)了新穎的自適應(yīng)速率傳輸和超優(yōu)先輔助編解碼器細(xì)化機(jī)制來升級(jí)深度聯(lián)合源信道編碼。整個(gè)系統(tǒng)設(shè)計(jì)被表述為一個(gè)優(yōu)化問題,其目標(biāo)是在既定的感知質(zhì)量指標(biāo)下最小化端到端傳輸率失真性能。在簡單的示例源和測試圖像源中,我們發(fā)現(xiàn)所提出的 NTSCC 傳輸方法通常優(yōu)于使用標(biāo)準(zhǔn)深度聯(lián)合源信道編碼的模擬傳輸和經(jīng)典的基于分離的數(shù)字傳輸。值得注意的是,由于其強(qiáng)大的內(nèi)容感知能力,所提出的 NTSCC 方法可以潛在地支持未來的語義通信。

            * 題目: HarmoFL: Harmonizing Local and Global Drifts in Federated Learning on Heterogeneous Medical Images

            * 鏈接: https://arxiv.org/abs/2112.10775

            * 作者: Meirui Jiang,Zirui Wang,Qi Dou

            * 摘要: 多個(gè)醫(yī)療機(jī)構(gòu)使用聯(lián)邦學(xué)習(xí)(FL)協(xié)同訓(xùn)練模型已成為最大化數(shù)據(jù)驅(qū)動(dòng)模型潛力的有前途的解決方案,但醫(yī)學(xué)圖像中的非獨(dú)立同分布(非 iid)數(shù)據(jù)仍然是一個(gè)突出的挑戰(zhàn)在現(xiàn)實(shí)世界的實(shí)踐中。由不同掃描器或協(xié)議引起的特征異質(zhì)性在本地(客戶端)和全局(服務(wù)器)優(yōu)化的學(xué)習(xí)過程中引入了漂移,這會(huì)損害收斂性和模型性能。許多以前的工作試圖通過解決局部或全局漂移來解決非 iid 問題,但如何共同解決這兩個(gè)本質(zhì)上耦合的漂移仍不清楚。在這項(xiàng)工作中,我們專注于處理局部和全局漂移,并引入了一種稱為 HarmoFL 的新協(xié)調(diào)框架。首先,我們建議通過對(duì)轉(zhuǎn)換到頻域的圖像幅度進(jìn)行歸一化以模擬統(tǒng)一的成像設(shè)置來減輕局部更新漂移,以便在本地客戶端之間生成協(xié)調(diào)的特征空間。其次,基于協(xié)調(diào)特征,我們設(shè)計(jì)了一個(gè)客戶端權(quán)重?cái)_動(dòng),引導(dǎo)每個(gè)局部模型達(dá)到平坦最優(yōu),其中局部最優(yōu)解的鄰域區(qū)域具有一致的低損失。在沒有任何額外通信成本的情況下,擾動(dòng)通過聚合幾個(gè)局部平面最優(yōu)值來幫助全局模型優(yōu)化為收斂的最優(yōu)解。我們對(duì)所提出的方法進(jìn)行了理論上的分析,并根據(jù)經(jīng)驗(yàn)對(duì)三個(gè)醫(yī)學(xué)圖像分類和分割任務(wù)進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明 HarmoFL 優(yōu)于一組最近最先進(jìn)的方法,具有良好的收斂行為。

            掃描二維碼推送至手機(jī)訪問。

            版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。

            本文鏈接:http://thecityplacetownhomes.com/?id=28625

            “給大家科普一下摩登3娛樂總代學(xué)(2023已更新(今日/知乎)” 的相關(guān)文章

            我校大學(xué)生乒乓球比賽圓滿落幕

            我校大學(xué)生乒乓球比賽圓滿落幕

            我校 大學(xué)生乒乓球比賽 圓滿落幕 2022.11.24 為豐富校園大學(xué)生體育生活,提高大學(xué)生身體素質(zhì),傳承乒乓文化,11月22日,以“運(yùn)動(dòng)青春 ‘乒’出精彩” 為主題的校園大學(xué)生乒乓球比賽歷時(shí)兩天在學(xué)校體育館圓滿落幕。本次比賽由校團(tuán)委主辦,體育學(xué)院團(tuán)總支承辦...

            乒乓球比賽十大技巧盤點(diǎn),想不贏球都難

            乒乓球比賽十大技巧盤點(diǎn),想不贏球都難

            1.重心控制球 用重心控制球,即打球時(shí)主要是全身的力量發(fā)力,不僅單純靠手臂,還要利用腿、腰等身體部位的動(dòng)作集中發(fā)力擊球,表現(xiàn)出來的就是身體的重心控制,有用身體重心拉球、打球并送出的感覺。 2.“迎”的手法將球拉得更爆 用“迎”的手法把球拉得更爆要讓弧圈球暴力,應(yīng)盡量...

            狼來了!國乒勁敵強(qiáng)勢奪冠,世界排名連超王楚欽馬龍,僅次樊振東

            狼來了!國乒勁敵強(qiáng)勢奪冠,世界排名連超王楚欽馬龍,僅次樊振東

            2022年乒乓球亞洲杯落下帷幕,國乒“獨(dú)苗”王藝迪連續(xù)擊敗日本名將早田希娜和伊藤美誠之后強(qiáng)勢獲得女單冠軍,王藝迪先是在女單半決賽爭奪中擊敗早田希娜晉級(jí)決賽,隨后她又在決賽中4:2擊敗伊藤美誠,獲得女單冠軍。而在女單銅牌爭奪戰(zhàn)中,印度一姐巴拉特繼續(xù)神奇表現(xiàn),她4:2爆冷擊敗賽會(huì)3號(hào)種子早田希...

            原創(chuàng) 最新乒乓球世界排名公布!澳門賽沒積分,但國乒仍然保持3項(xiàng)第一

            原標(biāo)題:最新乒乓球世界排名公布!澳門賽沒積分,但國乒仍然保持3項(xiàng)第一 最新乒乓球世界排名公布!澳門賽沒積分,但國乒仍然保持3項(xiàng)第一 2022年國乒的第一戰(zhàn)——WTT澳門賽已經(jīng)結(jié)束,但由于該賽事沒有積分,所以中國隊(duì)健兒們的世界排名并沒有任何變化。而就在1月25日的時(shí)候,...

            原創(chuàng)
            日本乒乓球新一姐誕生!4-1擊敗平野美宇,世界排名超越伊藤美誠

            原創(chuàng) 日本乒乓球新一姐誕生!4-1擊敗平野美宇,世界排名超越伊藤美誠

            原標(biāo)題:日本乒乓球新一姐誕生!4-1擊敗平野美宇,世界排名超越伊藤美誠 2022年WTT例行挑戰(zhàn)賽阿拉木圖站女單半決賽,早田希娜4-1擊敗平野美宇,殺入決賽,這次比賽至少能得280分!這意味著在接下來的世界排名中,早田希娜將首次超過伊藤美誠,成為日本乒乓球的新一姐!...

            乒乓球比賽規(guī)則應(yīng)該修改了

            目前的乒乓球比賽規(guī)則是每局11分,7局4勝制。如果按照這種比賽規(guī)則,把一場球總分算下來,贏球的一方贏在了局?jǐn)?shù)上,贏球的個(gè)數(shù)上不一定比輸球的一方多。對(duì)球員有失公平。 比較公平或像籃球一樣,設(shè)定比賽時(shí)間,在規(guī)定的時(shí)間內(nèi),誰贏的球多,誰就是勝者。 比較公平的還有一種方式,那就是設(shè)...

            ?