从零学习做网站,汕头建设银行各支行电话,各大网站排名,android下载软件app论文地址#xff1a;Learning to See in the Dark 图1. 利用卷积网络进行极微光成像。黑暗的室内环境。相机处的照度小于0.1勒克斯。索尼α7S II传感器曝光时间为1/30秒。(a) 相机在ISO 8000下拍摄的图像。(b) 相机在ISO 409600下拍摄的图像。该图像存在噪点和色彩偏差。Learning to See in the Dark 图1. 利用卷积网络进行极微光成像。黑暗的室内环境。相机处的照度小于0.1勒克斯。索尼α7S II传感器曝光时间为1/30秒。(a) 相机在ISO 8000下拍摄的图像。(b) 相机在ISO 409600下拍摄的图像。该图像存在噪点和色彩偏差。© 我们的卷积网络应用于(a)中原始传感器数据所生成的图像。
摘要
由于光子数量少和信噪比低低光照成像颇具挑战性。短曝光图像存在噪声问题而长曝光会导致图像模糊且往往不切实际。人们已经提出了各种去噪、去模糊和增强技术但在诸如夜间视频帧率成像等极端条件下它们的效果有限。为推动基于学习的低光照图像处理流程的发展我们引入了一个原始短曝光低光照图像数据集以及相应的长曝光参考图像。利用这个数据集我们基于全卷积网络的端到端训练开发了一个处理低光照图像的流程。该网络直接对原始传感器数据进行处理取代了许多传统的图像处理流程而传统流程在处理此类数据时往往效果不佳。我们在新数据集上取得了有前景的结果分析了影响性能的因素并指出了未来工作的方向。
1. 引言
噪声存在于任何成像系统中而在低光照环境下它让成像变得尤其具有挑战性。高感光度ISO可用于提高亮度但同时也会放大噪声。可以采用诸如缩放或直方图拉伸之类的后处理方法但由于光子数量少这些方法无法解决低信噪比SNR的问题。在低光照环境中有一些物理方法来提高信噪比包括增大光圈、延长曝光时间以及使用闪光灯。但这些方法各有其典型的缺点。例如延长曝光时间可能会因相机抖动或物体移动而导致图像模糊。
低光照下的快速成像难题在计算摄影领域广为人知但至今仍未得到解决。研究人员已提出了用于低光照图像去噪、去模糊和增强的技术[34, 16, 42]。这些技术通常假定图像是在光线稍暗且噪声水平适中的环境中拍摄的。相比之下我们关注的是在光照严重受限如月光下且曝光时间短理想情况下为视频帧率的极微光成像。在这种情况下传统的相机处理流程会失效图像必须从原始传感器数据中重建。
图1展示了我们的设定。环境极其黑暗相机处的光照不足0.1勒克斯。曝光时间设置为1/30秒光圈为f/5.6。即使使用通常被认为较高的ISO 8000尽管索尼全画幅传感器的感光度很高相机拍摄出的图像基本上仍是黑色的。当ISO达到409,600这远远超出了大多数相机的能力范围时场景内容可辨但图像暗淡、有噪声且颜色失真。正如我们将展示的即使是最先进的去噪技术[32]也无法去除此类噪声也无法解决色彩偏差问题。另一种方法是使用连拍图像[24, 14]但连拍对齐算法在极微光条件下可能会失效而且连拍处理流程并非为视频拍摄而设计例如由于连拍中使用了“幸运成像”技术。
我们提出了一种新的图像处理流程通过数据驱动的方法来应对极微光摄影的挑战。具体而言我们训练深度神经网络以学习针对低光照原始数据的图像处理流程包括颜色转换、去马赛克、降噪和图像增强。该流程采用端到端的训练方式以避免传统相机处理流程在这种情况下出现的噪声放大和误差累积问题。
现有的大多数低光照图像处理方法都是在合成数据或没有真实参考的真实低光照图像上进行评估的。据我们所知目前尚无公开数据集可用于使用多样化的真实世界数据和真实参考来训练和测试快速低光照图像处理技术。因此我们收集了一个新的数据集其中包含在低光照条件下快速曝光拍摄的原始图像。每张低光照图像都有对应的长曝光高质量参考图像。我们在新数据集上取得了有前景的结果低光照图像放大倍数高达300倍同时成功实现了降噪和正确的颜色转换。我们系统地分析了该流程的关键要素并讨论了未来的研究方向。 lux勒克斯是一个用于衡量光照强度的国际单位制导出单位以下是关于它的详细解释 定义勒克斯被定义为每平方米的流明数即(1)勒克斯等于(1)流明/平方米(1 lx 1 lm/m^{2})。流明是光通量的单位它表示光源在单位时间内发出的光的总量。勒克斯主要用于描述被照表面所接收到的光的强度也就是表示某一区域表面被照亮的程度。 实际应用场景 室内照明设计在设计办公室、教室、商场等室内空间的照明时需要根据不同的功能和活动要求确保达到合适的勒克斯数值。例如一般办公室的桌面照明通常要求达到300 - 500勒克斯以保证工作人员能够清晰地看到文件和操作设备而卧室的照明可能只需要100 - 200勒克斯营造出较为柔和舒适的氛围。道路照明道路照明的亮度也以勒克斯为单位来衡量。城市主干道的照明一般需要达到15 - 20勒克斯左右以确保车辆和行人在夜间能够安全通行而小区内的道路照明可能相对较低在5 - 10勒克斯左右。摄影领域摄影师在拍摄时需要考虑环境的勒克斯值以确定合适的曝光参数。在低光照环境下如光照强度低于1勒克斯的极暗环境拍摄会变得非常困难需要使用高感光度、长曝光时间或辅助照明设备来获得清晰的图像而在阳光充足的户外光照强度可能达到10000勒克斯以上此时需要注意控制曝光避免照片过曝。 与其他光照单位的关系在光照度量中还有其他一些单位如坎德拉cd是发光强度的单位它描述的是光源在特定方向上的发光能力而英尺烛光fc是英制单位制中的光照强度单位(1)英尺烛光等于(1)流明/平方英尺与勒克斯的换算关系为(1)英尺烛光约等于(10.764)勒克斯。 前面提到的“幸运成像”技术“lucky imaging”即幸运成像是一种主要用于天文摄影的成像技术以下是具体介绍
技术原理采用多次短时间100毫秒或以下曝光的方式然后从大量拍摄的照片中挑选出受大气影响最少的部分照片再对这些照片进行移动和叠加最终生成一张图像。由于大气湍流等因素会严重影响地基望远镜的成像质量长时间曝光会使图像变得模糊而幸运成像通过选取受大气干扰小的短曝光图像进行合成能有效减少大气噪声的影响获得清晰度较高的图像。应用实例在拍摄天体时可能会拍摄高达50000张照片然后从中筛选出受大气扰动影响最小的部分用于最终图像的合成。英国剑桥大学和美国加州理工学院的天文学家曾将该技术应用于美国加州200英尺口径的Palomar望远镜得到了25000光年外的M13球状星团以及猫眼星云Cat’s Eye Nebula的图像其分辨率约是哈勃的两倍。 2. 相关工作
低光照图像的计算处理在文献中已有广泛研究。我们简要回顾一下现有方法。
图像去噪图像去噪是底层视觉领域一个发展较为成熟的课题。已提出了许多方法运用了诸如全变分 [36]、小波域处理 [33]、稀疏编码 [9, 28]、核范数最小化 [12] 以及三维变换域滤波BM3D[7] 等技术。这些方法通常基于特定的图像先验知识如平滑性、稀疏性、低秩性或自相似性。研究人员也探索了深度网络在去噪方面的应用包括堆叠稀疏去噪自编码器SSDA[39, 1]、可训练非线性反应扩散TNRD[6]、多层感知器 [3]、深度自编码器 [26] 以及卷积网络 [17, 41]。当在特定噪声水平下进行训练时这些数据驱动的方法能够与诸如BM3D和稀疏编码等最先进的经典技术相媲美。不幸的是大多数现有方法都是在合成数据上进行评估的比如添加了高斯噪声或椒盐噪声的图像。最近一项针对真实数据的细致评估发现在真实图像上BM3D的表现优于更新的技术 [32]。联合去噪与去马赛克也得到了研究包括近期使用深度网络的工作 [15, 10]但这些方法是在合成的拜耳模式和合成噪声上进行评估的而非在极微光条件下采集的真实图像。
除了单图像去噪多图像去噪也得到了关注并且由于从场景中收集到了更多信息它能取得更好的效果 [31, 23, 19, 24, 14, 29]。特别是Liu等人 [24] 以及Hasinoff等人 [14] 提出对同一场景的连拍图像进行去噪。虽然这些流程通常很有效但可能会很复杂涉及参考图像选择“幸运成像”以及图像间的密集对应估计。我们专注于一条互补的研究路线探究单图像处理能达到何种程度。
低光照图像增强多种技术已被应用于增强低光照图像的对比度。一种经典选择是直方图均衡化它平衡了整个图像的直方图。另一种广泛使用的技术是伽马校正它在压缩亮像素的同时增加暗区域的亮度。更先进的方法会进行更全面的全局分析和处理例如使用逆暗通道先验 [8, 29]、小波变换 [27]、Retinex模型 [30] 以及光照图估计 [13]。然而这些方法通常假定图像已经很好地呈现了场景内容。它们没有对图像噪声进行明确建模并且通常将现成的去噪方法作为后处理步骤。相比之下我们考虑的是极微光成像其存在严重的噪声和色彩失真超出了现有增强流程的适用条件。含噪图像数据集尽管有许多关于图像去噪的研究但大多数现有方法都是在合成数据上进行评估的例如添加了高斯噪声或椒盐噪声的干净图像。RENOIR数据集 [2] 被提出用于对真实含噪图像的去噪进行基准测试。然而正如文献 [32] 所报道的RENOIR数据集中的图像对存在空间错位问题。连拍图像已被用于在低光照条件下去噪 [24]但相关数据集并不包含可靠的真实参考数据。谷歌HDR 数据集 [14] 并非针对极微光成像数据集中的大多数图像是在白天拍摄的。最近的达姆施塔特噪声数据集DND[32] 旨在满足去噪领域对真实数据的需求但这些图像也是在白天拍摄的并不适用于低光照图像处理的评估。据我们所知目前没有包含原始低光照图像及相应真实参考的公开数据集。因此我们收集了这样一个数据集以支持该领域系统的可重复性研究。 表1. “暗光可视”SID数据集包含5094张原始短曝光图像每张图像都有一张对应的长曝光参考图像。这些图像由两台相机采集上下排列。从左至右依次为输入图像与参考图像的曝光时间比、滤镜阵列、输入图像的曝光时间以及每种条件下的图像数量。 图2. “暗光可视”SID数据集的示例图像。前两行是室外图像后几行是室内图像。前面展示的是长曝光参考真实图像后面展示的是短曝光输入图像基本为黑色。相机处的照度通常在室外为0.2到5勒克斯在室内为0.03到0.3勒克斯。
3. 暗光可视数据集
我们收集了一个新的数据集用于训练和基准测试原始低光照图像的单图像 处理。“暗光可视”SID数据集包含5094张原始短曝光图像每张都有 对应的长曝光参考图像。需要注意的是多张短曝光图像可以对应同一张长 曝光参考图像。例如我们收集了短曝光图像序列来评估连拍去噪方法。序 列中的每张图像都被视为一张独特的低光照图像因为每张这样的图像都包 含真实的成像伪影对训练和测试很有用。SID中不同的长曝光参考图像数 量为424张。
该数据集包含室内和室外图像。室外图像通常在夜间月光或路灯下拍摄。 室外场景中相机处的照度一般在0.2勒克斯到5勒克斯之间。室内图像的光照 更暗是在关闭普通灯光、专门设置微弱间接照明的封闭房间内拍摄的。室 内场景中相机处的照度一般在0.03勒克斯到0.3勒克斯之间。
输入图像的曝光时间设置在1/30秒到1/10秒之间。相应的参考真实图 像是以长100到300倍的曝光时间拍摄的即10到30秒。由于参考图像的曝 光时间必然较长数据集中的所有场景都是静态的。数据集总结见表1。图2 展示了一小部分参考图像样本。每个条件下约20%的图像被随机选出来组成 测试集另外10%被选作验证集。
图像是使用两台相机拍摄的索尼α7S II和富士X - T2。这两台相机的传 感器不同索尼相机配备全画幅拜耳传感器富士相机配备APS - C规格的 X - Trans传感器。这有助于在不同滤镜阵列产生的图像上评估低光照图像 处理流程。索尼图像的分辨率为4240×2832富士图像的分辨率为6000×4000。 索尼相机使用了两种不同的镜头来收集图像。
相机安装在稳固的三脚架上。我们使用无反相机以避免因反光镜翻动产 生振动。在每个场景中光圈、ISO、对焦和焦距等相机设置都经过调整 以最大化参考长曝光图像的质量。拍摄完长曝光参考图像后通过手机 远程应用程序将曝光时间缩短100到300倍拍摄一系列短曝光图像。在拍 摄长曝光和短曝光图像之间不会触碰相机。我们收集短曝光图像序列以 便与理想的连拍成像流程进行比较后者得益于完美的对齐。
长曝光参考图像可能仍包含一些噪声但感知质量足够高可作为真实 参照。我们的目标应用场景是在低光照条件下生成感知效果良好的图像而 不是彻底去除所有噪声或最大化图像对比度。 4. 方法
4.1 流程
从成像传感器获取原始数据后传统的图像处理流程会应用一系列模块如白平衡、去马赛克、去噪、锐化、色彩空间转换、伽马校正等。这些模块通常针对特定相机进行调校。姜等人[18]提出使用大量局部的、线性的以及经过学习的L3滤波器来近似现代消费级成像系统中复杂的非线性流程。然而无论是传统流程还是L3流程都无法成功应对快速低光照成像因为它们无法处理极低的信噪比。哈西诺夫等人[14]描述了一种用于智能手机相机的连拍成像流程。该方法通过对齐和融合多张图像能产生不错的效果但会引入一定程度的复杂性例如由于需要进行密集的对应关系估计并且可能不容易扩展到视频拍摄比如因使用了“幸运成像”技术。
我们提议使用端到端学习来对快速低光照图像进行直接的单图像 处理。具体而言我们训练一个全卷积网络FCN[22, 25]来执行整个图像处理流程。近期研究表明纯全卷积网络可以有效地表示许多图像处理算法[40, 5]。我们受此启发探究将这种方法应用于极微光成像。我们不是对传统相机处理流程生成的普通sRGB图像进行操作而是对原始传感器数据进行处理。
图3b展示了所提出流程的结构。对于拜耳阵列我们将输入数据整合为四个通道并相应地在每个维度上将空间分辨率降低一半。对于X - Trans阵列图中未展示原始数据以6×6的块排列我们通过交换相邻元素将其整合为9个通道而非36个通道。我们减去黑电平并按所需的放大倍数例如100倍或300倍对数据进行缩放。经过整合和放大的数据被输入到全卷积网络中。输出是一个具有一半空间分辨率的12通道图像。这个尺寸减半的输出由一个亚像素层进行处理以恢复原始分辨率[37]。
经过初步探索我们聚焦于构成流程核心的全卷积网络的两种通用结构一种是最近用于快速图像处理的多尺度上下文聚合网络CAN[5]另一种是U-net[35]。其他研究探索了残差连接[20, 34, 41]但在我们的场景中我们并未发现其有帮助这可能是因为我们的输入和输出采用不同的色彩空间表示。影响我们选择架构的另一个考虑因素是内存消耗我们选择了能够在GPU内存中处理全分辨率图像例如分辨率为4240×2832或6000×4000的架构。因此我们避免了需要处理小图像块并重新组合它们的全连接层[26]。我们默认的架构是U-net[35]。
放大倍数决定了输出图像的亮度。在我们的流程中放大倍数在外部设置并作为输入提供给流程类似于相机中的ISO设置。图4展示了不同放大倍数的效果。用户可以通过设置不同的放大因子来调整输出图像的亮度。在测试时该流程执行盲去噪和颜色转换。网络直接在sRGB空间中输出处理后的图像。 图4. 放大因子对“暗光可视”SID数据集中一张室内图像局部区域的影响索尼100倍放大子集。放大因子作为外部输入提供给我们的处理流程类似于相机中的ISO设置。放大因子越高图像越亮。本图展示了我们的处理流程在不同放大因子下的输出结果。
4.2 训练
我们使用L1损失和Adam优化器[21]从零开始训练网络。在训练过程中网络的输入是短曝光图像的原始数据而真实标签是相应的在sRGB色彩空间中的长曝光图像由原始图像处理库libraw处理。我们针对每台相机训练一个网络。在训练和测试中放大倍数均设置为输入图像与参考图像之间的曝光差异例如100倍、250倍或300倍。在每次迭代中我们随机裁剪出一个512×512的图像块用于训练并通过随机翻转和旋转进行数据增强。学习率初始设置为(10{-4})在2000个epoch后降至(10{-5})。训练持续4000个epoch。 图5. a富士X - T2相机在夜间拍摄的图像感光度ISO为800光圈f/7.1曝光时间1/30秒。相机处的照度约为1勒克斯。b使用传统流程处理原始数据无法有效应对数据中的噪声和色彩偏差问题。c我们基于相同原始数据得到的处理结果。 图6. 将在“暗光可视”SID数据集上训练的网络应用于iPhone 6s智能手机拍摄的低光照原始图像。(a) 一张由iPhone 6s在夜间拍摄的原始图像感光度ISO为400光圈f/2.2曝光时间0.05秒。该图像经过传统图像处理流程处理并调整亮度以匹配参考图像。(b) 我们网络的输出结果放大倍数为100倍。 图7. 来自索尼300倍放大子集的一张图像。(a) 经传统图像处理流程和线性缩放处理的低光照输入图像。(b) 与(a)相同但后续进行了BM3D去噪处理。© 我们的处理结果。 表2. 采用感知实验对比所提出的流程与BM3D和连拍去噪。如文中所述该实验对基线有利。在所提出的单图像流程在具有挑战性的300倍放大子集上仍显著优于基线在相对容易的100倍放大子集上与基线表现相当。
5. 实验
5.1 定性结果与感知实验
与传统流程对比。我们最初的基线是传统相机处理流程在量化前进行放大操作我们使用与我们的流程相同的放大倍数。图5、图6和图7展示了与该基线的定性对比。在极微光条件下传统流程生成的图像存在严重的噪声和颜色失真问题。
与去噪和连拍处理对比。自然而然的下一步是对传统流程的输出事后应用现有的去噪算法。近期一项针对真实数据的细致评估表明在真实图像上BM3D [7] 的表现优于更新的去噪模型 [32]。因此我们将BM3D作为参考去噪算法。图7展示了结果。请注意BM3D是一种非盲去噪方法需要外部指定噪声水平作为参数。较小的噪声水平设置可能会在图像中留下明显可感知的噪声而较大的噪声水平设置可能会过度平滑。如图7所示这两种情况可能在同一图像中同时存在因为均匀加性噪声并非真实低光照图像的合适模型。相比之下我们的流程执行盲去噪操作能够局部适应数据。此外事后去噪并不能解决传统流程输出中存在的其他伪影例如颜色失真。
我们还与连拍去噪burst denoising [24, 14] 进行对比。由于我们数据集中的图像序列已经对齐所以与之对比的连拍成像流程是理想化的它得益于完美对齐而这在实际中并不存在。因为对齐已经完成我们通过对8张图像序列取逐像素中位数来进行连拍去噪。 使用参考长曝光图像从峰值信噪比PSNR/ 结构相似性指数SSIM方面进行对比对BM3D和连拍处理并不公平因为这些基线必须使用经过不同处理的输入图像。为了进行公平对比我们使用参考图像的白平衡系数来减少颜色偏差。此外我们逐通道将提供给基线的图像缩放至与参考图像相同的均值。这些调整使得基线生成的图像在颜色和亮度方面外观上更接近参考图像。请注意这相当于使用先验信息来帮助基线。
为了评估我们的流程、BM3D去噪和连拍去噪所生成图像的相对质量我们基于在亚马逊Mechanical Turk平台 [4] 上部署的盲随机A/B测试进行了一项感知实验。每次对比都会向一名Mechanical Turk工作人员展示由两种不同流程生成的对应图像工作人员必须判断哪张图像质量更高。图像对以随机顺序呈现左右顺序也随机且不表明不同图像的来源。10名Mechanical Turk工作人员共进行了1180次对比。表2展示了工作人员选择我们所展示流程生成的图像而非基线之一生成的对应图像的比例。我们使用测试集的两个子集的图像进行了实验索尼300倍放大具有挑战性和索尼100倍放大相对容易。在具有挑战性的300倍放大子集上我们的流程显著优于基线而在相对容易的100倍放大子集上与基线表现相当。请记住由于为基线提供的数据进行了先验预处理该实验对基线是有利的。还要注意连拍去噪使用了8张完美对齐图像的信息。
智能手机图像的定性结果。我们预计为特定相机传感器训练专门的网络时将获得最佳效果。然而我们关于跨传感器泛化的初步实验表明这可能并非总是必要的。我们将在SID数据集的索尼子集上训练的模型应用于由iPhone 6s智能手机拍摄的图像该手机也具有拜耳滤镜阵列和14位原始数据。我们使用一款应用手动设置ISO和其他参数并导出原始数据进行处理。图6展示了一个具有代表性的结果。由传统流程处理的低光照数据存在严重的噪声和颜色偏移。我们的网络虽然是在来自不同相机的图像上训练的但其处理结果具有良好的对比度、低噪声和调整得当的颜色。 图8. 富士300倍放大测试集中一个图像块在不同网络架构下的对比。(a) 使用多尺度上下文聚合网络CAN结构颜色未正确恢复。(b) 使用U-net。放大查看细节。 图9. 直方图拉伸的效果。(a) 索尼100倍放大子集中经直方图拉伸处理的参考图像。(b) 在经直方图拉伸处理的图像上训练后得到的输出结果。墙体上出现了伪影。© 在未经直方图拉伸处理的图像上训练后得到的输出结果。该结果较暗但更干净。(d) 对©中的图像进行后处理应用直方图拉伸后的效果。 图10. 极微光条件下室内暗室0.2勒克斯信号恢复有限。(a) 索尼300倍放大子集中的一张输入图像经传统流程处理并放大以匹配参考图像。(b) 对(a)应用BM3D去噪后的结果。© 利用8张图像进行连拍去噪由于连拍的所有图像都存在严重伪影结果仍然不佳。(d) 我们网络的处理结果仔细查看可明显发现细节有所丢失。
5.2 控制变量实验
表3第一行报告了所提出流程在峰值信噪比PSNR和结构相似性SSIM[38]方面的准确度。现在我们来描述一系列控制变量实验以评估流程中不同元素的影响。
网络结构我们首先比较不同的网络架构。表3第二行报告了用多尺度上下文聚合网络CAN[5]替代U - net[35]我们的默认架构的结果。U - net在两个数据集上都有更高的PSNR。尽管CAN生成的图像具有更高的SSIM但它们有时会出现色彩丢失的情况。图8展示了富士300倍放大子集中的一个图像块CAN未能正确还原这里的颜色。输入色彩空间大多数现有的去噪方法都是对已经过传统图像处理流程处理的sRGB图像进行操作。我们发现在极微光条件下直接对原始传感器数据进行操作要有效得多。表3第三行展示了将所提出的流程应用于传统流程生成的sRGB图像时的结果。损失函数我们默认使用L1损失但也评估了许多其他损失函数。如表3第四行和第五行所示用L2或SSIM[43]替代L1损失会产生相当的结果。我们没有观察到这些损失函数中的任何一个在感知上有系统性的优势。添加全变分损失并不能提高准确度。添加生成对抗网络GAN损失[11]会显著降低准确度。数据排列原始传感器数据所有颜色都在单个通道中。为卷积网络排列原始数据的常见选择是将颜色值整合到不同通道中并相应降低空间分辨率或者复制和屏蔽不同颜色[10]。我们默认使用整合方式。如表3第六行所示对拜耳数据索尼子集进行屏蔽操作得到的PSNR/SSIM比整合方式更低屏蔽方法的一个典型感知伪影是输出图像中某些色调的丢失。
X - Trans数据的结构与拜耳数据非常不同它以6×6的块排列。一种选择是将其整合到36个通道中。相反我们通过在相邻元素之间交换一些值来创建一个3×3的模式然后将其整合到9个通道中。如表3第七行所示6×6的整合方式得到的PSNR/SSIM更低一个典型的感知伪影是颜色和细节的丢失。
后处理在最初的实验中我们在参考图像的处理流程中加入了直方图拉伸。因此网络除了要学习处理流程的其他部分还必须学习直方图拉伸。尽管尝试了许多网络架构和损失函数我们都未能成功训练网络来完成这项任务。如表3第八行所示当对参考图像应用直方图拉伸时因此网络必须学习直方图拉伸网络的准确度会显著下降。我们的实验表明我们的流程不容易学习对整幅图像的全局直方图统计进行建模和操作并且在面对这项任务时容易过度拟合训练数据。因此我们将直方图拉伸从流程中去除并视情况作为后处理应用。图9展示了一个典型结果尝试学习直方图拉伸会在测试时产生明显的伪影。在未拉伸的参考图像上训练的结果虽然更暗但更清晰。
6. 讨论
由于光子数量少和信噪比低快速低光照成像面临巨大挑战。在亚勒克斯光照条件下以视频帧率进行暗光成像使用传统信号处理技术被认为是不切实际的。在本文中我们提出了“暗光可视”SID数据集旨在支持开发数据驱动的方法以实现这种极端条件下的成像。利用SID数据集我们开发了一种简单的处理流程相较于传统的低光照图像处理方法有所改进。所提出的流程基于全卷积网络的端到端训练。实验结果令人鼓舞在SID数据上成功实现了噪声抑制和正确的颜色转换。
这项工作为未来的研究开辟了诸多可能性。我们的研究未涉及高动态范围HDR色调映射注意图1©中的饱和区域。SID数据集存在局限性它不包含人物和动态物体。所提出流程的结果并不完美未来的研究工作有望进一步改进尤其是300倍放大子集极具挑战性。图10(d)展示了该方法输出结果中存在的一些瑕疵。
所提出流程的另一个局限在于放大倍数必须在外部选定。若能从输入图像中推断出合适的放大倍数就像自动感光度Auto ISO那样将会很有帮助。此外我们目前假定针对特定的相机传感器训练专门的网络。我们关于跨传感器泛化的初步实验结果令人振奋未来的研究可以进一步探索低光照成像网络的泛化能力。
未来研究的另一个方向是运行时优化。所提出的流程处理全分辨率的索尼和富士图像分别需要0.38秒和0.66秒虽然可以实时生成低分辨率预览但对于全分辨率的实时处理而言这个速度还不够快。
我们期待未来的研究能够通过系统地优化网络架构和训练过程等方式进一步提升图像质量。我们希望SID数据集以及我们的实验发现能够激发并支持此类系统性研究。