如你所知,人工智能(AI)正在改变我们处理图像的方式。那些曾经需要Photoshop几个小时处理的任务,现在可以通过AI驱动的工具在几秒钟内完成。那些拍摄模糊的照片,可以被AI工具通过简单点击,在不丢失照片清晰度的情况下修复照明度,消除不必要的噪点,甚至为黑白照片添置色彩。各种由算法驱动的工具使用经过训练的AI模型,先理解图像的样子,再对其开展相应的重建。在训练过程中,AI模型已能通过研究数百万个示例,来“学习”图案、纹理和细节,进而可以“预测”缺失的内容并“自然地”予以填补。当然,对于开发人员、摄影师、以及内容创作者而言,了解AI算法的基础知识,可以帮助其为自己的工作流选择合适的工具。也就是说,即使你从未计划自己亲自编写AI模型,这些知识也将帮助你为图像处理、网络应用或创意项目做出更好的选择。下面,让我们来讨论当前AI图像增强领域最常被使用的五种重要算法,以及我们该如何在现实场景与需求中使用它们。
1.图像着色(Image Colorization)自动化图像着色可能是所有视觉效果上最具戏剧性的AI增强功能。它会根据黑白图像预测原来应该的颜色,进而产生看起来像是全彩色照片拍摄的结果。其背后的AI技术用到的是:在巨大的彩色图像数据集中经过训练的卷积神经网络(CNN)。AI模型在训练期间通过学习灰度和彩色版本,来还原对象本来的显示。例如,模型会了解到草地通常是绿色的,天空通常是蓝色的,而人类的皮肤属于一定的色调范围。
展开剩余84%作为该领域最著名的模型之一,DeOldify结合了CNN和GAN。其中,GAN的设置有助于完善输出结果,使得颜色更自然,进而避免了奇怪或过亮的色调。
其实,除了恢复旧的家庭照片,图像着色也有着诸如:电影与历史项目修复、故事数字化,以及艺术概念化等实际用途。你可以通过链接,了解自动图像着色的相关概念。
2.基于GAN的图像增强(Image Enhancement)作为另一种图像增强AI技术,生成对抗网络(Generative Adversarial Networks,GAN)由两个神经网络组成:试图创建逼真图像的生成器(generator)和评估它们的判别器(discriminator)。经过多次迭代,生成器会变得非常擅长生成真实的图像。
在图像修饰过程中,GAN可以同时处理多项任务,例如:固定照明、提高清晰度、增强纹理,甚至巧妙地更改元素,以使图片更具吸引力。由于GAN是从现实世界的图像中学习,所以其输出通常会让人感觉比传统的编辑滤镜更加自然。
而基于GAN的修图(retouching)可用于专业肖像编辑、电商产品照片、房地产列表,甚至游戏资产创建等应用场景中。用户的直观感受就是在各种应用中常见的“一键增强”按钮。你可以通过链接,了解GAN赋能的图像增强相关概念。
3.自动降噪编码(Denoising Autoencoders)图像中的噪点往往是那些看起来像是不应该存在的颜色或亮度的随机斑点。它经常出现在低光(low-light)照片或使用高ISO设置拍摄的图像中。它们会使得照片看起来有颗粒状、且不那么专业。
对此,传统的降噪方法只是通过模糊图像来隐藏噪点,但这也会破坏图像上的细节部分。而AI降噪的工作方式则不同。它使用自动降噪编码器,从大量成对的图像中学习到哪个是清楚的、哪个是带有噪点的。据此,AI会研究噪点是如何扭曲细节的,进而学习如何逆转该过程。也就是说,自动降噪编码器会在一张混杂的照片中消除噪点,同时保留边缘、纹理和重要的小细节。
降噪模型不仅适用于摄影,也可被用于文档扫描,使得文本更易于阅读,医疗扫描成像更清晰,屏幕截图更精细,以及PPT用户界面的优化。你可以通过链接,了解降噪功能的相关概念。
4.使用超分辨率以升阶图像(Image Upscaling)超分辨率是提高图像分辨率,使其更清晰、更精细,而不仅仅是拉伸像素的过程。过去,放大一张小图像只会使它变得模糊。如今,AI超分辨率的工作方式则是通过研究图像,检测模式,然后生成新的像素。这些新的像素能够与更高质量的原件相匹配。
作为该领域的首个重大突破之一,超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)的工作原理是将图像分解成多个色斑(patches),通过对其进行分析,以预测高分辨率的色斑本该有的样子。作为早期方法,其效果十分明显,不过有时也会产生过度平滑(over-smoothing)的图像。
在此基础上,增强型超级分辨率生成对抗网络(Enhanced Super-Resolution Generative Adversarial Network,ESRGAN)应运而生。ESRGAN使用了GAN架构的生成器来创建增强的图像,并由其判别器来判断生成图像的真实度。通过这种来回的训练,生成器逐渐学会了产生出精细的纹理,如:发丝、织物组织、以及建筑细节等。这些细节在人眼中会看起来更为逼真。
目前超分辨率被广泛应用于电商(如:产生更清晰的产品照片)、打印(如:将网络图像变成高分辨率的海报)、以及网络应用(如:让用户上传的图像看起来更专业)。你可以通过链接,了解超分辨率升阶图像的相关概念。
5.伪影清除(Artifact Removal)当JPEG图像被严重压缩时,会出现块状色斑、模糊的边缘、以及线条周围奇怪的光环。该现象被称为压缩伪影,其出现源于JPEG通过删除细节来换取文件体积的减小。传统的修复方法是通过模糊图像以隐藏这些缺陷,但同时也“软化”了重要的边缘和纹理。
柔性盲卷积神经网络(Flexible Blind Convolutional Neural Network,FBCNN)则采取了一种更聪明的方法。它既无需事先知晓确切的压缩水平,又无需额外的输入,而是经过训练来处理各种伪影的严重程度。这便是它“盲目”的特点所在,即:不需要关于JPEG的任何压缩元数据,便可即时调整模型的恢复过程。
通常,FBCNN主要分两个步骤:首先,它会从图像中提取特征,分析边缘、纹理、以及平面区域的图案,以识别伪影最有可能存在哪里。然后,它通过已学到的映射关系,在不造成损害的基础上,重建目标区域的原始样貌。
同时,由于能够估计压缩质量本身,因此FBCNN避免了过度平滑那些被轻度压缩的图像,或是欠恢复(under-restoring)那些被重度压缩的图像等常见问题。这种灵活性使得FBCNN在诸如:从社交媒体上清理低质量的图像,恢复屏幕截图中的图形和文本,以及打印旧的网络压缩图像等多种情况下都非常实用。
其实,在使用超分辨率或一般性增强之前,现代化AI工具通常都会调用FBCNN作为处理的第一步。可以说,在无法手动调整的情况下,FBCNN适应的能力已经成为目前现实世界恢复JPEG的最实用、且对开发人员最友好的模型之一。你可以通过链接,了解伪影清除的相关概念。
对开发的重要性上文提到的多数模型都提供了对应的API。据此,开发人员可以将它们构建到自己的应用或网站中。如果你运营着社交平台,则可以在用户上传的图像出现在反馈页面之前,自动增强其效果;如果你在构建电商平台,也可以清理和提升产品的图像,以获得更好的销售转化率;如果你从事媒体归档工作,还可以轻松地恢复和保存图像,而无需花费数小时地手动编辑时间。
当然,即使你从未训练过自己的AI模型,上述讨论也可以帮助你了解哪种算法适合你需要解决的实际问题。例如:将超分辨率用于图像放大,将自动降噪用于清理,将着色用于修复,将伪影清除用于压缩,将GAN修图用于整体美化等。
小结目前,依托上述模型与算法的AI图像增强已走出研究实验室,成为了日常使用工具。小白用户都可以将低质量的图像转化为清晰、生动和专业的产品。无论你是希望将图像处理集成到应用中的开发人员,还是需要改进视觉效果的创作者,上述由AI加持的模型工作原理都将能帮助你更快、更精确地完成任务,进一步释放由AI驱动的创造力。
发布于:海南省睿迎网提示:文章来自网络,不代表本站观点。