Geschiedenis van gezichtsherkenningstechnologie
Pioniers op het gebied van geautomatiseerde gezichtsherkenning zijn Woody Bledsoe, Helen Chan Wolf en Charles Bisson.
In 1964 en 1965 werkte Bledsoe samen met Helen Chan en Charles Bisson aan het gebruik van de computer om menselijke gezichten te herkennen (Bledsoe 1966a, 1966b; Bledsoe en Chan 1965). Hij was trots op dit werk, maar omdat de financiering werd verstrekt door een niet nader genoemde inlichtingendienst die niet veel publiciteit toestond, werd er weinig van het werk gepubliceerd. Op basis van de beschikbare referenties werd onthuld dat de initiële aanpak van de Bledsoe het handmatig markeren van verschillende oriëntatiepunten op het gezicht omvatte, zoals de oogcentra, mond, enz., En deze werden wiskundig geroteerd door de computer om te compenseren voor pose-variatie. De afstanden tussen oriëntatiepunten werden ook automatisch berekend en vergeleken tussen afbeeldingen om de identiteit te bepalen.
Gezien een grote database met afbeeldingen (in feite een boek met mugshots) en een foto, was het probleem om uit de database een kleine set records te selecteren zodat een van de afbeeldingsrecords overeenkwam met de foto. Het succes van de methode kan worden gemeten aan de hand van de verhouding van de antwoordlijst tot het aantal records in de database.
Dit project werd mens-machine genoemd omdat de mens de coördinaten van een reeks kenmerken uit de foto’s haalde, die vervolgens door de computer werden gebruikt voor herkenning. Met behulp van een grafisch tablet (GRAFACON of RAND TABLET), zou de operator de coördinaten van kenmerken extraheren, zoals het midden van de pupillen, de binnenhoek van de ogen, de buitenhoek van de ogen, het punt van de weduwe, enzovoort. Op basis van deze coördinaten werd een lijst van 20 afstanden berekend, zoals de breedte van de mond en de breedte van de ogen, pupil tot pupil. Deze operators konden ongeveer 40 foto’s per uur verwerken. Bij het bouwen van de database werd de naam van de persoon op de foto geassocieerd met de lijst van berekende afstanden en opgeslagen in de computer. In de herkenningsfase werd de set afstanden vergeleken met de corresponderende afstand voor elke foto, wat een afstand tussen de foto en het databaserecord opleverde. De dichtstbijzijnde records worden geretourneerd.
Omdat het onwaarschijnlijk is dat twee foto’s overeenkomen in rotatie van het hoofd, mager, gekanteld en schaal (afstand tot de camera), wordt elke reeks afstanden genormaliseerd om het gezicht in frontale richting weer te geven. Om deze normalisatie te bereiken, probeert het programma eerst de helling, de helling en de rotatie te bepalen. Vervolgens maakt de computer met behulp van deze hoeken het effect van deze transformaties op de berekende afstanden ongedaan. Om deze hoeken te berekenen, moet de computer de driedimensionale geometrie van het hoofd kennen. Omdat de werkelijke koppen niet beschikbaar waren, gebruikte Bledsoe (1964) een standaardkop afgeleid van metingen op zeven koppen.
Nadat Bledsoe PRI in 1966 verliet, werd dit werk voortgezet aan het Stanford Research Institute, voornamelijk door Peter Hart. In experimenten uitgevoerd op een database met meer dan 2000 foto’s presteerde de computer consistent beter dan mensen wanneer hij dezelfde herkenningstaken kreeg (Bledsoe 1968). Peter Hart (1996) herinnerde zich enthousiast het project met de uitroep: “Het werkte echt!”
Rond 1997 presteerde het systeem, ontwikkeld door Christoph von der Malsburg en afgestudeerde studenten van de Universiteit van Bochum in Duitsland en de Universiteit van Zuid-Californië in de Verenigde Staten, beter dan de meeste systemen met die van het Massachusetts Institute of Technology en de Universiteit van Maryland als volgende. Het Bochum-systeem is ontwikkeld door middel van financiering door het United States Army Research Laboratory. De software werd verkocht als ZN-Face en gebruikt door klanten zoals Deutsche Bank en exploitanten van luchthavens en andere drukke locaties. De software was “robuust genoeg om identificaties te maken van minder dan perfecte gezichtsgezichten. Het kan ook vaak zulke belemmeringen voor identificatie doorzien als snorren, baarden, veranderde kapsels en brillen – zelfs zonnebrillen”.
Technieken voor gezichtsverwerving
In wezen wordt het proces van gezichtsherkenning in twee stappen uitgevoerd. De eerste betreft extractie en selectie van kenmerken en de tweede is de classificatie van objecten. Latere ontwikkelingen introduceerden verschillende technologieën in de procedure. Enkele van de meest opvallende zijn de volgende technieken:
Traditioneel
Sommige algoritmen voor gezichtsherkenning identificeren gezichtskenmerken door oriëntatiepunten of kenmerken te extraheren uit een afbeelding van het gezicht van het onderwerp. Een algoritme kan bijvoorbeeld de relatieve positie, grootte en / of vorm van de ogen, neus, jukbeenderen en kaak analyseren. Deze functies worden vervolgens gebruikt om naar andere afbeeldingen met overeenkomende functies te zoeken.
Andere algoritmen normaliseren een galerij met gezichtsafbeeldingen en comprimeren vervolgens de gezichtsgegevens, waarbij alleen de gegevens in de afbeelding worden opgeslagen die nuttig zijn voor gezichtsherkenning. Een sondebeeld wordt vervolgens vergeleken met de gezichtsgegevens. Een van de eerste succesvolle systemen is gebaseerd op technieken voor het matchen van sjablonen die worden toegepast op een reeks opvallende gezichtskenmerken, waardoor een soort gecomprimeerde gezichtsweergave wordt verkregen.
Erkenningsalgoritmen kunnen worden onderverdeeld in twee hoofdbenaderingen: geometrisch, waarbij naar onderscheidende kenmerken wordt gekeken, of fotometrisch, een statistische benadering die een afbeelding distilleert in waarden en de waarden vergelijkt met sjablonen om verschillen te elimineren. Sommigen classificeren deze algoritmen in twee brede categorieën: holistische en op kenmerken gebaseerde modellen. De eerste probeert het gezicht in zijn geheel te herkennen, terwijl het op kenmerken gebaseerde onderverdelen in componenten zoals volgens kenmerken en elk analyseren, evenals de ruimtelijke locatie ten opzichte van andere kenmerken.
Populaire herkenningsalgoritmen zijn onder meer de analyse van hoofdcomponenten met eigenvlakken, lineaire discriminantanalyse, elastische bosgrafiekaanpassing met behulp van het Fisherface-algoritme, het verborgen Markov-model, het multilineaire leren van de subruimte met behulp van tensorrepresentatie en de neuronaal gemotiveerde dynamische link-matching.
3-dimensionale herkenning
De driedimensionale techniek voor gezichtsherkenning maakt gebruik van 3D-sensoren om informatie over de vorm van een gezicht vast te leggen. Deze informatie wordt vervolgens gebruikt om onderscheidende kenmerken op het oppervlak van een gezicht te identificeren, zoals de contouren van de oogkassen, neus en kin.
Een voordeel van 3D-gezichtsherkenning is dat het niet wordt beïnvloed door veranderingen in verlichting zoals andere technieken. Het kan ook een gezicht identificeren vanuit verschillende kijkhoeken, inclusief een profielweergave. Driedimensionale gegevenspunten van een gezicht verbeteren de precisie van gezichtsherkenning enorm. 3D-onderzoek wordt verbeterd door de ontwikkeling van geavanceerde sensoren die 3D-gezichtsbeelden beter kunnen vastleggen. De sensoren werken door gestructureerd licht op het gezicht te projecteren. Er kunnen maximaal een dozijn of meer van deze beeldsensoren op dezelfde CMOS-chip worden geplaatst – elke sensor vangt een ander deel van het spectrum op …
Zelfs een perfecte 3D-matchingtechniek kan gevoelig zijn voor uitdrukkingen. Voor dat doel heeft een groep bij de Technion tools uit de metrische geometrie toegepast om uitdrukkingen als isometrie te behandelen.
Een nieuwe methode is om een manier te introduceren om een 3D-afbeelding vast te leggen met behulp van drie volgcamera’s die onder verschillende hoeken wijzen; de ene camera wijst naar de voorkant van het onderwerp, de tweede naar de zijkant en de derde schuin. Al deze camera’s werken samen, zodat het gezicht van een onderwerp in realtime kan worden gevolgd en het gezicht kan worden gedetecteerd en herkend.
Huidtextuuranalyse
Een andere opkomende trend maakt gebruik van de visuele details van de huid, zoals vastgelegd in standaard digitale of gescande afbeeldingen. Deze techniek, genaamd Skin Texture Analysis, verandert de unieke lijnen, patronen en vlekken die zichtbaar zijn in de huid van een persoon in een wiskundige ruimte.
Surface Texture Analysis werkt vrijwel hetzelfde als gezichtsherkenning. Er wordt een foto gemaakt van een patch oasda onderscheiden lijnen, poriën en de werkelijke huidtextuur. Het kan het contrast identificeren tussen identieke paren, die nog niet mogelijk zijn met alleen gezichtsherkenningssoftware.
Tests hebben aangetoond dat met de toevoeging van huidtextuuranalyse de prestaties bij het herkennen van gezichten met 20 tot 25 procent kunnen toenemen.
Gezichtsherkenning door verschillende technieken te combineren
Aangezien elke methode zijn voor- en nadelen heeft, hebben technologiebedrijven de traditionele 3D-herkenning en Skin Textual Analysis samengevoegd om herkenningssystemen te creëren die een hoger succespercentage hebben.
Gecombineerde technieken hebben een voordeel ten opzichte van andere systemen. Het is relatief ongevoelig voor veranderingen in expressie, zoals knipperen, fronsen of glimlachen en kan de groei van snor of baard en het uiterlijk van een bril compenseren. Het systeem is ook uniform met betrekking tot ras en geslacht.
Thermische camera’s
Een andere vorm van het nemen van invoergegevens voor gezichtsherkenning is door gebruik te maken van thermische camera’s, door deze procedure zullen de camera’s alleen de vorm van het hoofd detecteren en zullen ze de accessoires van het onderwerp, zoals brillen, hoeden of make-up, negeren. In tegenstelling tot conventionele camera’s, kunnen thermische camera’s gezichtsopnames maken, zelfs bij weinig licht en ’s nachts, zonder een flitser te gebruiken en de positie van de camera bloot te leggen. Een probleem bij het gebruik van warmtebeelden voor gezichtsherkenning is echter dat de databases voor gezichtsherkenning beperkt zijn. Diego Socolinsky en Andrea Selinger (2004) onderzoeken het gebruik van thermische gezichtsherkenning in het echte leven en operatiescènes, en bouwen tegelijkertijd een nieuwe database van thermische gezichtsbeelden op. Het onderzoek maakt gebruik van laaggevoelige ferro-elektrische elektrische sensoren met lage resolutie die in staat zijn om langegolf thermisch infrarood (LWIR) te verwerven. De resultaten laten zien dat een samensmelting van LWIR en gewone visuele camera’s grotere resultaten heeft in buitensondes. Binnenresultaten tonen aan dat visueel een nauwkeurigheid van 97,05% heeft, terwijl LWIR 93,93% heeft en de fusie 98,40%, maar buiten blijkt dat visueel 67,06%, LWIR 83,03% en fusie 89,02% heeft. De studie gebruikte 240 proefpersonen gedurende 10 weken om een nieuwe database te creëren. De gegevens zijn verzameld op zonnige, regenachtige en bewolkte dagen.
In 2018 ontwikkelden onderzoekers van het US Army Research Laboratory (ARL) een techniek waarmee ze gezichtsbeelden verkregen met een thermische camera konden matchen met die in databases die werden vastgelegd met een conventionele camera. Deze benadering maakte gebruik van kunstmatige intelligentie en machine learning om onderzoekers in staat te stellen conventionele en thermische gezichtsbeelden zichtbaar te vergelijken. Bekend als een cross-spectrum synthesemethode vanwege de manier waarop het gezichtsherkenning van twee verschillende beeldvormingsmodaliteiten overbrugt, synthetiseert deze methode een enkel beeld door meerdere gezichtsregio’s en details te analyseren. Het bestaat uit een niet-lineair regressiemodel dat een specifiek warmtebeeld in kaart brengt in een corresponderend zichtbaar gezichtsbeeld en een optimalisatieprobleem dat de latente projectie terug projecteert in de beeldruimte.
ARL-wetenschappers hebben opgemerkt dat de aanpak werkt door wereldwijde informatie (d.w.z. kenmerken over het hele gezicht) te combineren met lokale informatie (d.w.z. kenmerken met betrekking tot de ogen, neus en mond). Naast het vergroten van de onderscheidbaarheid van het gesynthetiseerde beeld, kan het gezichtsherkenningssysteem worden gebruikt om een thermische gezichtshandtekening om te zetten in een verfijnd zichtbaar beeld van een gezicht. Volgens prestatietests uitgevoerd bij ARL, ontdekten onderzoekers dat het multiregionale cross-spectrumsynthesemodel een prestatieverbetering toonde van ongeveer 30% ten opzichte van baseline-methoden en ongeveer 5% ten opzichte van de allernieuwste methoden. Het is ook getest voor herkenning van oriëntatiepunten voor warmtebeelden.
Zie ook: Wikipedia