Seit Jahrzehnten träumt Science-Fiction von einer Welt, in der die Technik das Unverständliche sichtbar machen kann. In außerirdischen Epen und prozeduralen Kriminaldramen haben Detektive und Wahrheitssucher das Mantra wiederholt: Zoomen und verbessern. Es ist als beliebtes Mem in die Populärkultur übergegangen, aber in den letzten Jahren hat maschinelles Lernen diesen Fiktions-Trope zunehmend zu einer zugänglichen Realität gemacht.
Der Image-Net-Wettbewerb ist ein langjähriges Turnier, bei dem Systeme der künstlichen Intelligenz auf ihre Fähigkeit getestet werden, ein Objekt zu erkennen, beispielsweise eine Katze, einen Hund, ein Auto oder eine Straßenlaterne. 2012 gilt als ein Meilensteinjahr, als Forscher Techniken auf Basis neuronaler Netze verwendeten, mit denen die Fehlerrate beim jährlichen ImageNet-Wettbewerb halbiert wurde, weit über der Leistung früherer Systeme. In den darauffolgenden Jahren führte dieser Ansatz zu schnellen Verbesserungen, wobei die neuesten Systeme eine Genauigkeit von fast 99% erreichten.
Durch enorme Mengen an Versuch und Irrtum an riesigen Datensätzen lernen diese Systeme, Muster in den Pixeln zu erkennen. Es ist eine Technik, die es ihnen ermöglicht, eine fundierte Vermutung über Bilder anzustellen, die zu dunkel oder zu verschwommen sind oder das Hauptmotiv von etwas blockiert haben. Machine-Learning-Systeme machen ihre besten Vermutungen, wie das Bild aussehen würde oder vielleicht aussehen sollte, oft mit erstaunlichen Ergebnissen.
Dies wirft eine interessante Frage auf. “Was ist real?” Wir haben zwei Bilder von Intel-CEO Patrick Gelsinger; einer ist etwas verschwommen – man kann seine Gesichtszüge nicht wirklich deutlich sehen. Ein anderer ist knackig, mit Details zu seiner Knochenstruktur und seinem Haar. Der erste ist der beste Versuch einer Kamera mit niedriger Auflösung, die Realität einzufangen. Die zweite ist die beste Vermutung einer KI, was die Kamera übersehen hat.