Für unseren Anwendungsbereich benötigen wir eine Lösung zur Echtzeit-Gesichtserkennung im WebRTC-Stream. Einige moderne Gesichtserkennungsmodelle zeigen zwar in letzter Zeit sehr gute Leistungen, aber auch die Inferenzgeschwindigkeit spielt eine Rolle für die Echtzeitfähigkeit. Daher haben wir nach einer alternativen Lösung gesucht und eine sehr gute Modellarchitektur aus diesem Artikel gefunden: BlazeFace: Sub-Millisekunden-Gesichtserkennung auf mobilen GPUs (https://arxiv.org/pdf/1907.05047.pdf). Wir haben dieses vortrainierte Modell in unser System integriert und festgestellt, dass es die Echtzeit-Gesichtserkennung im Kamera-Stream mit hoher Leistung und schneller Inferenzgeschwindigkeit bewältigen kann.

Ähnlich wie bei der Gesichtserkennungsaufgabe müssen wir auch bei der Verarbeitung des Echtzeit-Kamera-Streams die Leistung und die Inferenzgeschwindigkeit im Auge behalten. Deshalb haben wir die gleiche Idee wie bei der Gesichtserkennungsaufgabe angewendet, jedoch mit BlazeFace für Hand-Datasets. Nachdem wir die Handposition auf dem Bild erhalten haben, verwenden wir ein Modell aus diesem Artikel: Attention Mesh: High-Fidelity Face Mesh Prediction in Real-time (https://arxiv.org/pdf/2006.10962.pdf), um die 3D-Schlüsselpunkte der Hand zu schätzen.
