Deep And Reinforcement Learning Approaches for Computational Photography

Cotogni, Marco

Computational photography represents a fusion of computer science and traditional photography, driven by the goal of enhancing the quality of images captured with conventional cameras. Leveraging digital processing techniques and advanced computational algorithms, this field elevates the perceptual quality of photographs while minimizing the associated resource and post-processing demands. Such algorithms have found their way into various post-processing software, providing valuable assistance to photographers, whether seasoned professionals or newcomers. Nevertheless, despite the effectiveness of these algorithms, several pressing challenges remain unaddressed. In this thesis three main challenges in computational photography are analyzed: (i) the enhancement of low-quality images through artifacts-free fully interpretable algorithms, (ii) the lack of a photographic dataset for photo authorship attribution and photographic style transfer and (iii) the improvement of state-of-the-art convolutional architectures, particularly concerning color constancy in the presence of changing scene illuminants. The first challenge focus on the enhancement of low-quality images through the development of artifact-free, fully interpretable algorithms. Two novel image enhancement methodologies are introduced, based on tree-search theory and deep reinforcement learning. These techniques generate interpretable sequences of enhancement operators enhancing the visual content of low-quality input images. Specifically, one approach employs global image enhancement operators, while the other utilizes local spatial operators to independently enhance different portions of input images. Additionally, an explainability method for image enhancement black-box algorithms is presented. This method, employing a path planning algorithm, not only emulates state-of-the-art enhancements but also rectifies artifacts in the resulting images. The second challenge is tackled presenting a novel dataset, PhotoStyle60 and its subset PhotoStyle10. This dataset contains more than 5700 photographs from 60 different professional and amateurial photographers. This dataset is analyzed and tested on two foundamental scenarios, photo authorship attribution and photographic style transfer. Moreover a novel multi-image photographic style transfer method is proposed. The third challenge centers on improving state-of-the-art convolutional neural networks, particularly concerning their performance in the presence of changing scene illuminants. To address this issue, a novel neural network, the "Offset Equivariant neural network," is introduced. This neural architecture shows high performance in the color constancy task, outperforming existing models in the considered scenarios. Moreover, the effectiveness of this neural design is validated across two additional tasks: image recognition and image inpainting. This thesis makes substantive contributions to the field of computational photography, offering innovative solutions to critical challenges. These contributions aim to advance the field, ultimately augmenting the capabilities of traditional cameras and expanding the creative possibilities available to photographers.

La fotografia computazionale rappresenta una fusione tra informatica e fotografia tradizionale, con l’obiettivo di migliorare la qualità delle immagini catturate con fotocamere convenzionali. Sfruttando tecniche di elaborazione digitale e algoritmi computazionali avanzati, questo campo eleva la qualità percettiva delle fotografie riducendo al minimo le risorse necessarie e le esigenze di post-produzione. Tali algoritmi hanno trovato applicazione in vari software di post-produzione, offrendo preziosa assistenza ai fotografi, sia professionisti esperti che principianti. Tuttavia, nonostante l’efficacia di tali algoritmi, rimangono aperte alcune sfide fondamentali. In questa tesi sono analizzate tre sfide principali nella fotografia computazionale: (i) il miglioramento delle immagini di bassa qualità mediante algoritmi completamente interpretabili e privi di artefatti, (ii) la mancanza di un dataset fotografico per il riconoscimento dell’autore di fotografie e il trasferimento dello stile fotografico e (iii) il miglioramento delle architetture convoluzionali, in particolare per quanto riguarda il task di color constancy in presenza di cambiamenti nell’illuminazione della scena. La prima sfida si concentra sul miglioramento delle immagini di bassa qualità mediante lo sviluppo di algoritmi completamente interpretabili e privi di artefatti. Vengono presentate due nuove metodologie di miglioramento delle immagini, basate sulla algoritmi di ricerca per alberi e reinforcement learning. Queste tecniche generano sequenze interpretabili di operatori di image processing che migliorano il contenuto visivo delle immagini di input di bassa qualità. In particolare, un approccio impiega operatori globali, mentre l’altro utilizza operatori spaziali locali per migliorare in modo indipendente diverse parti delle immagini di input. Inoltre, viene presentato un metodo di interpretabilità per algoritmi di enhancement delle immagini black-box. Questo metodo, utilizzando un algoritmo di path planning, è in grado non solo di emulare i miglioramenti dei metodi all’avanguardia, ma anche di correggere gli artefatti nelle immagini risultanti. La seconda sfida affronta la mancanza di un dataset fotografico completo presentando PhotoStyle60 e il suo sottoinsieme PhotoStyle10. Questo dataset comprende oltre 5700 fotografie provenienti da 60 diversi fotografi professionisti e amatoriali. Questi dataset vengono analizzati e testati su due scenari fondamentali: il riconoscimento dell’autore delle foto e il trasferimento dello stile fotografico. Inoltre, viene proposto un nuovo metodo di trasferimento dello stile fotografico multi-immagine. La terza sfida si concentra sul miglioramento delle architetture neurali convoluzionali, in particolare per quanto riguarda le prestazioni in presenza di cambiamenti nell’illuminazione della scena. Per affrontare questa sfida, viene introdotta una nuova rete neurale, la "Rete Neurale Equivariante", che si dimostra efficace nel task di color constancy, superando i modelli esistenti nei casi considerati. Inoltre, l’efficacia di questa architettura neurale viene testata su due task aggiuntivi: image recognition e image inpainting. Questa tesi offre contributi significativi nel campo della fotografia computazionale, proponendo soluzioni innovative per sfide critiche. Questi contributi mirano a far progredire il settore, aumentando in definitiva le capacità delle fotocamere tradizionali e ampliando le possibilità creative a disposizione dei fotografi.