簡要說明 :
此篇論文發表於2016年,摘要中簡要提出當前人臉偵測與矯正所遇到的困境,例如 : 複雜環境、人臉姿態、光照、遮擋(occlusions)。作者提出一個利用固有的相關關係來提升效能的深度學習框架(Deep Cascaded Multi-task framework),此框架採用一個三階段CNN的聯集架構用於預測人臉與五官在圖像中的位置,並且是一個從粗到細的方法。除此之外,作者還提出一項新的online hard sample mining策略,可以在不需手動採養選取的情況下自動提高效能。
補充與理解 :
針對人臉偵測的應用場景來說,我個人認為作者主要把重心放在場景相對複雜的實時動態人臉偵測。我目前的研究項目與應用場景(門禁系統)中其實是相對簡單,傳統人臉檢測方式(Haar, LBP, dlib)在CPU等級是可以符合大多數的應用,但由於我是用於一般家庭的門禁系統,因此對於在檢測方面魯棒性要求要高,才能滿足用戶體驗,傳統方法嚴重受限於場景。
從摘要中可以得知,作者提出幾個要點 :
- 利用人臉特徵與人臉關鍵點的關聯訊息得到效能與準確度提升。
- 採用三階段輕量的網路聯集架構,每個階段是從粗到細的過程。
- 提出新的online hard sample mining。