Analiza vsebine digitalnih slik in videa

Analiza vsebine digitalnih slik in videa

Digitalna slika prinaša različne tipe informacije - od umetniškega učinka, barvne in prostorske kompozicije preko vsebovane informacije do vloge v komunikacijskem sistemu. Lahko je abstraktna ali s tehnično vsebino, barvna ali črno bela, jasna ali zamegljena itd. V okviru obdelave signalov nas zanima analiza vsebine digitalne slike, ki jo želimo razpoznati in razumeti z vsaj delno avtomatiziranim postopkom. Kaj sestavlja vsebino slike? Sestavljena je iz zaporedja objektov, ki se nahajajo na danem ozadju. Objekt je regija na sliki, ki jo določa skupna lastnost in ima sama zase smiseln pomen. Namen analize vsebine digitalne slike je razpoznati objekte, določite njihove toploške in geometrijske lastnosti in odnose med njimi ter v kombinaciji z že znanimi podatki odgovoriti na zastavljena vprašanja o sliki.

Dostopnost in analiza informacije je temelj sodobnih komunikacijskih sistemov, v katere vstopa tudi slikovna komunikacija med človekom in strojem. Gre za podporo personaliziranim uporabniškim vmesnikom, komunikacijo stroja in njegovega okolja in podobno. Analizo slike lahko vidimo kot postopek določanja pomembne in izločanja nepomembne informacije o sliki. Količina informacije ene same slike Pregovor pravi "slika pove več kot sto besed", a ne pove katera slika pove katerih sto besed. Namen analize slik in videa je ugotoviti odgovore na vprašanja, ki nas o izbrani sliki zanimajo.

Uporabniški vmesnik s spletno kamero lahko z analizo slike ugotovi kateri uporabnik je prisedel k računalniku in privzame njegove nastavitve. Varnostni nadzorni sistem stavbe zazna domače prebivalce hiše in zazna nezaželene obiskovalce. Iskalnik po bazi večpredstavnih vsebin lahko izbira športne oddaje in filme z izbrano tematiko. Video nadzor prometa zazna zastoje in prometne nesreče in o tem obvesti informacijski center.

Kako to doseči?

Invariante objektov

Identiteta objekta na sliki se ne spremeni če ga vzporedno premaknemo, rotiramo, povečamo, zamenjamo točko pogleda itd. Torej je informacija o položaju, zamiku, velikosti itd. nepomembna za njegovo identiteto. Invariante preslikave so preslikave, katerih slika karakteristik objekta slike se v primeru naštetih transformacij ne spremeni. Matematične osnove invariantnih preslikav so stare več sto let, teoretične dosežke je mogoče uporabit v analizi digitalne slike in videa.

Oblika

Digitalna slika je sestavljena iz več milijonov slikovnih elementov, katere predstavimo z matriko njihovih intenzitet (svetilnosti). Analiza slike se začne pri postokih in izračunih, katerih vhod je ta matrika. Posamezen slikovni element seveda ne predstavlja identitete objekta in nujna je vpeljava povezanih področij slikovnih elementov. Imenujemo jih oblike. Tako sliko navadno v prvem delu analize razdelimo na področja, ki jih zajemajo psamezni objekti in na ozadje. Učinkovit zapis oblike, ki obdrži njene pomembne karakteristike, je ključen korak analize vsebine slike.

Formalni sistem z mehko logiko

Razpoznane homogene regije slike (oblike) so deli objektov, ki se nahajajo na sliki. Dejanska identiteta objekta je odvisna od barve teh regij, njihove oblike ter topološke (razporeditev) in geometrijske informacije (razmerja) regij. Poleg tega identiteta dejanskega objekta ni podana le z njegovo sliko, ampak tudi z preostalimi objekti in relacijami med njimi. Tako je za učinkovito razpoznavo objektov potrebno obvladovati kompleksno paleto različnih tipov informacij. Kako zajeti globalno informacijo na podlagi množice lokalnih? V ta namen smo vpeljali formalni sistem z mehko logiko, ki omogoča manipulacijo z deli objektov, sestavljanje kompleksnih objektov, analizo odnosov med objekti in končno formulacijo in odgovarjanje na specifična vprašanja. Formalni sistem temelji na teoretičnih izsledkih matematične logike in služi kot splošen kontekst obravnave vsebine digitalne slike ali videa.

Aplikacije

Preliminarne aplikacije in testiranja opravljamo na področju analize prometne scene in medicinske diagnostike. V pripravi so testiranja biometričnih podatkov za potrebe avtomatizacije uporabniških vmesnikov.V skupini LDOS smo razvili testni sistem v programskem jeziku C++, ki omogoča učinkovito testiranje metod analize digitalne slike.