隐式视频神经表征的通用增强框架

主讲人:张鑫杰 | 香港科技大学博士生

  • 开课时间

    2024.04.24 19:55

  • 课程时长

    50分钟

  • 学习人数

    1494人次学习

立即学习
添加助教进群领取课件&论文

立即学习

隐式视频神经表征的通用增强框架

隐式神经表征(INR)已成为一种有前途的视频存储和处理方法,在各种视频任务中显示出卓越的多功能性。 然而,现有方法通常无法充分利用其表示能力,这主要是由于目标帧解码过程中中间特征对齐不充分。 本文介绍了当前隐式视频表征方法的通用增强框架。 具体来说,我们利用带有时间感知仿射变换模块的条件解码器,该模块使用帧索引作为先验条件来有效地将中间特征与目标帧对齐。 此外,我们引入了一个正弦块来生成不同的中间特征并实现更平衡的参数分布,从而增强模型的容量。 通过高频信息保留重建损失,我们的方法成功地提高了视频回归的重建质量和收敛速度的多个基线INR,并表现出优异的修复和插值结果。 此外,我们集成了一致的熵最小化技术,并基于这些增强的 INR 开发视频编解码器。 UVG 数据集上的实验证实,我们的增强型编解码器显着优于基线 INR,并且与传统和基于学习的编解码器相比,提供有竞争力的速率失真性能。

 

隐式神经表征(INR)已成为一种有前途的视频存储和处理方法,在各种视频任务中显示出卓越的多功能性。 然而,现有方法通常无法充分利用其表示能力,这主要是由于目标帧解码过程中中间特征对齐不充分。 本文介绍了当前隐式视频表征方法的通用增强框架。 具体来说,我们利用带有时间感知仿射变换模块的条件解码器,该模块使用帧索引作为先验条件来有效地将中间特征与目标帧对齐。 此外,我们引入了一个正弦块来生成不同的中间特征并实现更平衡的参数分布,从而增强模型的容量。 通过高频信息保留重建损失,我们的方法成功地提高了视频回归的重建质量和收敛速度的多个基线INR,并表现出优异的修复和插值结果。 此外,我们集成了一致的熵最小化技术,并基于这些增强的 INR 开发视频编解码器。 UVG 数据集上的实验证实,我们的增强型编解码器显着优于基线 INR,并且与传统和基于学习的编解码器相比,提供有竞争力的速率失真性能。

计算机视觉 三维视觉 进阶
模型压缩与部署 模型压缩与部署 进阶