消防网站模板,wordpress 插件阅读,wordpress 教师工作坊,3d全屋定制设计软件论文阅读#xff1a;Seeing in Extra Darkness Using a Deep-Red Flash
今天介绍的这篇文章是 2021 年 ICCV 的一篇 oral 文章#xff0c;主要是为了解决极暗光下的成像问题#xff0c;通过一个深红的闪光灯补光。实现了暗光下很好的成像效果#xff0c;整篇文章基本没有任…论文阅读Seeing in Extra Darkness Using a Deep-Red Flash
今天介绍的这篇文章是 2021 年 ICCV 的一篇 oral 文章主要是为了解决极暗光下的成像问题通过一个深红的闪光灯补光。实现了暗光下很好的成像效果整篇文章基本没有任何公式所用到的网络也比较简单但最后成了一篇顶会的 Oral 文章可能主要创新在于软硬件结合吧。
Abstract
本篇文章提出了一种新的闪光灯技术利用一个深红波段的闪光灯进行补光文章作者说他们主要观察到在明亮环境下人眼由视锥细胞主导成像感知在暗光环境下人眼主要由视杆细胞主导成像感知。人眼的视杆细胞对波长大于 620nm 的红外光谱并不敏感然而相机 sensor 依然有感应。文章作者提出了一种新的调制策略通过 CNN 网络实现图像引导的滤波将一张有噪的 RGB 图像与一张闪光拍摄的图像进行融合。同时文章将这个融合网络进一步扩展到了视频重建文章作者搭建了硬件原型在不同的静态和动态场景都进行了验证实验结果证明这种新型闪光灯技术可以取得很好的成像效果尤其是在暗光环境下。
Introduction
暗光成像是手机摄影中的一个重要特性为了提升手机暗光成像的能力现有的方法也做了多种尝试从对 sensor 的改造比如将 RGGB 的贝尔模式替换成了 RYYB 的贝尔模式到后端算法的设计比如利用多帧曝光技术。
基于闪光灯的摄影技术同样也有非常悠久的历史而且一般来说会获得更好的效果尤其是在非常暗的环境下还有复杂运动的时候这种时候多帧融合的方式可能会存在配准对齐失效的问题。不过闪光摄影技术也有一些弊端一个是闪光灯发出的光随着距离的增加衰减地很快所以闪光灯一般能照射的有效距离不会太远此外闪光灯在闪光的一瞬间对人眼会造成一个很强的炫目在暗光环境下这种强烈的闪光也会造成很不舒适的光污染对暗视觉下的人眼系统造成损伤。如果利用不可见光波段比如近红外或者近紫外的闪光灯可以一定程度上避免这个问题不过目前的相机 sensor 一般对近红外或者近紫外没有光谱响应需要进行定制化的设计。另外一个问题RGB 域的图像与不可见光波段的图像域由于物质对不同光谱的反射特性不一样的原因可能存在一定的差异。这个对跨模态的图像配准与图像融合都存在一定的挑战。
1.1 Human Visual System
接下来文章对人眼视觉系统做了分析人眼的视网膜负责人眼对环境光的响应视网膜上包含两种感光细胞一种是视锥细胞一种是视杆细胞视锥细胞主要负责人眼对明亮环境以及颜色的感知视锥细胞对 550nm 波长的光谱响应最强烈视杆细胞主要负责人眼对暗光环境以及亮度的感知视杆细胞对 500nm 波长的光谱响应最强烈视杆细胞对长波长的光谱不敏感视杆细胞对500nm 波长的光谱响应强度是对 650nm 波长的光谱响应强度的 3 倍。视锥细胞与视杆细胞的组合形成了对中等光强环境的光谱响应。环境由明亮转为黑暗的时候人眼需要一个更长的时间来适应反过来环境由暗转为明亮的时候人眼的适应时间会更短。
1.2 Deep-Red Flash
文章作者接下来就提出用深红波段的闪光灯来实现暗光下的摄影与常见的白光闪光灯比可以感受到的光照强度会更低对人眼的刺激会更小而且夜晚视觉会也能够保存。与不可见波段的闪光灯技术相比普通的相机 sensor 对深红波段是可以直接响应吸收的不需要另外再对 sensor 定制另外深红波段也属于可见光范围内与 RGB 图像可以更好地融合。
Camera and Flash Module
接下来文章介绍了整个系统的硬件原型从图中可以看到一个可以发射深红波段的闪光灯放置在一个 Camear 旁边LED 闪光灯通过信号触发以便闪光灯与拍照能够同步。 Mesopic Flash Reconstruction
这一部分是文章的算法部分首先文章分析了如何从深红闪光灯下的图像提取引导信息文章中用到的 sensor通过光谱响应分析测定对于 660nm 波长的深红光谱来说sensor 的红色通道的响应强度是绿色通道的 4 倍是蓝色通道响应强度的 10 倍。一个直观的策略是直接用红色通道的信息作为引导信息不过文章作者发现这种方式可得到的动态范围比较窄对于红色物体来说可能很快就达到饱和了而对于蓝色物体来说却无法获得足够的能量强度。
为了分析不同物体对这种深红闪光灯的光谱响应文章作者用 1269 Munsell 色卡进行分析这个色卡基本可以代表大多数的自然物体文章考虑了色卡上的每个色块在理想光照情况下对 660nm 的光谱响应文章中使用一个恒定的光源同时色块垂直光源发出的入射光线。最后的统计结果如下图所示 上图左边的图表示的是相比使用单个红色通道使用三通道的信息可以获得更大的动态范围。右边的图是一个统计直方图表明 80% 的自然物体对深红波段的光谱响应大于 0.1说明深红波段有广泛的适用性。
接下来介绍图像融合有了前面的大量铺垫这个图像融合反而是比较简单的一种方法文章中就是用了一个 UNet 来实现这个融合操作文章中就是直接将没有闪光灯时的 RGB 图像与有闪光灯时的 RGB 图像连接在一起然后送入一个 UNet 网络实现整个的融合。
文章中也介绍了如何对视频流进行操作文章中提出了一种交叉采集图像然后逐帧融合的方法采集的时候采集一帧有闪光的图像然后再接一帧没有闪光的图像这样交替地采集下去为了实现时域的对齐文章对 Flash-RGB 图像进行配准因为常规的 RGB 图像噪声很大很难配准对齐了。而 Flash-RGB 是通过深红闪光灯补光采集到的图像所以图像的信噪比更好更容易进行配准通过 Flash-RGB 图像配准得到的位移向量场文章中进行了拆分一部分用于前一帧 Flash-RGB 图像的 warp与当前帧的 No-Flash RGB 图像对齐融合另外一部分用于当前帧的 No-Flash RGB 图像的 warp与当前帧的 Flash-RGB 图像对齐融合这样做可以保证帧率不会减少。融合之后还会再接一个时域平滑的网络整体的算法框图如下所示
Experiments
最后介绍一下实验部分文章中在训练这个网络的时候用的是仿真数据文章中用的是 NYU v2 dataset给定一张正常的 RGB 图像通过给 RGB 图像加噪来模拟暗光下的 RGB 图像另外对 RGB 图像的三通道直接叠加模拟深红闪光下的图像不过为了更好的让网络学习如何利用这个引导信息文章对模拟的深红图像进行了一个频率调制 f ( x , y ) α ⋅ sin ( 2 π T ( x − x ˉ ) 2 ( y − y ˉ ) 2 ) β f(x, y) \alpha \cdot \sin(\frac{2 \pi}{T} \sqrt{(x - \bar{x})^2 (y - \bar{y})^2}) \beta f(x,y)α⋅sin(T2π(x−xˉ)2(y−yˉ)2 )β
其中 x ∈ { 1 , 2 , . . . , W } x \in \{1, 2, ..., W \} x∈{1,2,...,W}, y ∈ { 1 , 2 , . . . , H } y \in \{1, 2, ..., H \} y∈{1,2,...,H}, α \alpha α 是幅度 x ˉ , y ˉ \bar{x}, \bar{y} xˉ,yˉ 是相位偏移 T T T 是周期 β \beta β 表示垂直偏移。
最后是一些效果样例的展示