首頁人工智能技術(shù)資訊正文

ECCV2020論文《Dive Deeper Into Box for Object Detection》解讀

更新時間:2020年09月14日14時59分來源:傳智播客瀏覽次數(shù):

1 前言

該文章作者團(tuán)隊來自香港中文大學(xué)、騰訊優(yōu)圖、思謀科技等，收錄于ECCV2020.現(xiàn)階段，無錨框的目標(biāo)檢測方法稱為流行，該論文提出了深度分析box來提升檢測性能的方法。

在目標(biāo)檢測領(lǐng)域，雖然無錨框的取得成功，但仍存在一些問題。比如，檢測框框的中心點并不是目標(biāo)的中心點，如下圖所示：

ECCV2020-01

而且中心點會出現(xiàn)漂移。

ECCV2020-02

為了解決這些問題，文章提出了一種邊框重組的方法，通過對中心點box的回歸過程，考慮語義一致性得到檢測結(jié)果。

2 網(wǎng)絡(luò)架構(gòu)

在該論文中，基于FCOS構(gòu)建了DDBNet，如下圖所示：

ECCV2020-03

D&R模塊通過將預(yù)測的框劃分為邊界進(jìn)行訓(xùn)練來重組預(yù)測框，該邊界在回歸分支后面進(jìn)行連接。在訓(xùn)練階段，一旦邊界框預(yù)測在每個像素處回歸，D&R模塊會將每個邊界框分解為四個方向邊界。然后，根據(jù)它們與ground truth的實際邊界偏差對同類邊界進(jìn)行排序。因此，通過重新組合排位邊界，可以期望得到更準(zhǔn)確的box框預(yù)測，然后利用IoU loss對其進(jìn)行優(yōu)化。

D&R模塊由四個步驟組成，如下圖所示：

ECCV2020-04

2.1 分解

將一個預(yù)測的box劃分為四個邊界的置信度。然后將四種邊界分為四組，分別是：

left = {l0，l1，...，ln}，right = {r0，r1，...，rn}，bottom = {b0，b1，...， bn}，top = {t0，t1，...，tn}。

2.2 排序

考慮到IoU損失的約束，有利于具有較小并集和較大交集區(qū)域的預(yù)測框，最佳框預(yù)測的IoU損失預(yù)計最低。因此，在第二步中可以直接遍歷所有邊界后進(jìn)行重新排列以獲得最優(yōu)的框，然而，以這種方式，計算復(fù)雜度非常高。為了避免這種暴力方法帶來的繁重計算，本文采用了一種簡單有效的排序策略。對于目標(biāo)實例的每個邊界集，計算到目標(biāo)邊界集合的偏差。然后，將每個集合中的邊界按相應(yīng)的偏差排序，因此，靠近ground truth的邊界比遠(yuǎn)處的邊界具有更高的等級。作者發(fā)現(xiàn)這種排序策略效果很好，并且排序噪聲不會影響網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性

2.3 重組

將具有相同等級的四個集合的邊界重新組合為新框。然后，將分解后的邊界集合和目標(biāo)邊界集合之間的IoU看作為四個邊界的重組置信度。重組邊界的置信度表示為形狀為N×4的矩陣。

2.4 分配得分

現(xiàn)在得到了原始邊界和重組后的邊界兩組邊界得分。每個邊界的最終置信度是使用兩組邊界得分中的較高得分來分配的，而不是完全使用其中一組。如果重新組合后的低位框包含的邊界離ground truth很遠(yuǎn)，這會導(dǎo)致重組后四個邊界的置信度遠(yuǎn)低于其原始邊界，這些嚴(yán)重漂移的置信度分?jǐn)?shù)會導(dǎo)致訓(xùn)練階段的梯度反向傳播不穩(wěn)定，因此選擇得分較高的一組

3 模型訓(xùn)練

網(wǎng)絡(luò)整體的損失函數(shù)是：

ECCV2020-05

其中分類損失使用的是Focal Loss,另外兩部分分別是邊框回歸損失和語義一致性損失

3.1 邊框回歸損失

為了進(jìn)行可靠的網(wǎng)絡(luò)訓(xùn)練，在基于ground truth和最優(yōu)box以及相應(yīng)的更好邊界得分估算的IoU損失的監(jiān)督下來優(yōu)化每個邊界。邊框回歸損失包括兩個部分：

ECCV2020-06

分別是重組框和原始框與標(biāo)簽之間的交并比IOU分?jǐn)?shù)，選擇每個邊界的梯度以更新網(wǎng)絡(luò)。

3.2 語義一致性損失

在根據(jù)語義一致性自主確定像素的標(biāo)簽后，網(wǎng)絡(luò)在學(xué)習(xí)過程中考慮了每個正向像素的內(nèi)在重要性，類似于FCOS中的中心度得分。因此，DDBNet網(wǎng)絡(luò)能夠強(qiáng)調(diào)一個實例中更重要的部分，學(xué)習(xí)起來更加有效。具體地，將每個像素的內(nèi)在重要性定義為預(yù)測框與ground truth之間的IoU。然后，在內(nèi)在重要性的監(jiān)督下，將估計每個像素語義一致性的額外分支添加到網(wǎng)絡(luò)中。語義一致性的損失表示為：

ECCV2020-07