EfficientDet: Kuelekea Ugunduzi Wa Kitu Kinachofaa Na Ufanisi

Orodha ya maudhui:

EfficientDet: Kuelekea Ugunduzi Wa Kitu Kinachofaa Na Ufanisi
EfficientDet: Kuelekea Ugunduzi Wa Kitu Kinachofaa Na Ufanisi

Video: EfficientDet: Kuelekea Ugunduzi Wa Kitu Kinachofaa Na Ufanisi

Video: EfficientDet: Kuelekea Ugunduzi Wa Kitu Kinachofaa Na Ufanisi
Video: EfficientDet: Scalable and Efficient Object Detection 2024, Novemba
Anonim

Kama moja ya matumizi kuu katika maono ya kompyuta, kugundua kitu kunazidi kuwa muhimu katika hali ambazo zinahitaji usahihi wa hali ya juu lakini zina rasilimali ndogo za kompyuta, kama vile roboti na magari yasiyo na dereva. Kwa bahati mbaya, vitambuzi vingi vya kisasa vya usahihi wa hali ya juu havifikii mapungufu haya. Jambo muhimu zaidi, matumizi ya kugundua kitu halisi huendesha kwenye majukwaa tofauti, ambayo mara nyingi yanahitaji rasilimali tofauti.

Ugunduzi wa kitu kinachoweza kusonga na ufanisi
Ugunduzi wa kitu kinachoweza kusonga na ufanisi

Kwa hivyo swali la asili ni jinsi ya kubuni vigunduzi vya vitu sahihi na vyema ambavyo vinaweza pia kukabiliana na vikwazo vingi vya rasilimali?

EfficientDet: Ugunduzi wa kitu kinachoweza kubadilika na ufanisi, iliyopitishwa katika CVPR 2020, inaleta familia mpya ya vichungi vya vitu visivyoweza kutekelezeka na vyema. Kujenga juu ya kazi ya awali ya kuongeza mitandao ya neva (EfficientNet) na kuingiza mtandao mpya wa utendaji wa pande mbili (BiFPN) na sheria mpya za kuongeza kasi, EfficientDet inafikia usahihi wa kisasa wakati mara 9 ndogo na hutumia hesabu ndogo kuliko detectors za kisasa zinazojulikana. Takwimu ifuatayo inaonyesha usanifu wa jumla wa mitindo.

Picha
Picha

Kuongeza Usanifu wa Mfano

Wazo nyuma ya EfficientDet linatokana na juhudi za kutafuta suluhisho za kuboresha ufanisi wa kihesabu kwa kuchunguza kwa utaratibu mifano ya hali ya juu ya ugunduzi. Kwa ujumla, vitambuzi vya vitu vina vifaa kuu vitatu: uti wa mgongo ambao unatoa vitu kutoka kwa picha iliyopewa; mtandao wa vitu ambavyo huchukua viwango anuwai vya kazi kutoka kwa uti wa mgongo kama pembejeo na matokeo ya orodha ya kazi pamoja ambazo zinawakilisha sifa za picha; na darasa la mwisho / mtandao wa sanduku ambao hutumia kazi za pamoja kutabiri darasa na eneo la kila kitu.

Baada ya kukagua chaguzi za muundo wa vifaa hivi, tuligundua uboreshaji kadhaa muhimu ili kuboresha utendaji na ufanisi. Wachunguzi wa awali hutumia ResNets, ResNeXt au AmoebaNet kama uti wa mgongo, ambao hauna nguvu nyingi au wana ufanisi mdogo kuliko ufanisi wa Mtandao. Pamoja na utekelezaji wa mwanzo wa mkongo wa EfficientNet, ufanisi zaidi unaweza kupatikana. Kwa mfano, kwa kuanza na msingi wa RetinaNet ambao hutumia mkongo wa ResNet-50, utafiti wetu wa kukomesha unaonyesha kuwa kuchukua nafasi ya ResNet-50 tu na EfficientNet-B3 kunaweza kuboresha usahihi kwa 3% huku ikipunguza hesabu kwa 20%. Utaftaji mwingine ni kuboresha ufanisi wa mitandao inayofanya kazi. Wakati wachunguzi wengi wa hapo awali hutumia tu Mtandao wa Pyramid ya Downlink (FPN), tunaona kuwa mto wa chini wa mto FPN ni mdogo kwa mtiririko wa habari wa njia moja. FPNs mbadala kama PANet zinaongeza nyongeza ya juu kwa gharama ya hesabu ya ziada.

Jaribio la hivi karibuni la kutumia Utafutaji wa Usanifu wa Neural (NAS) umegundua usanifu ngumu zaidi wa NAS-FPN. Walakini, wakati muundo huu wa mtandao ni mzuri, pia sio kawaida na umeboreshwa sana kwa kazi maalum, na kuifanya iwe ngumu kuzoea kazi zingine. Ili kutatua shida hizi, tunapendekeza mtandao mpya wa kazi za pande mbili BiFPN, ambayo hutumia wazo la kuchanganya kazi za safu nyingi kutoka FPN / PANet / NAS-FPN, ambayo inaruhusu habari kupitishwa kutoka juu hadi chini na kutoka chini hadi juu. kutumia viunganisho vya kawaida na vyema.

Picha
Picha

Ili kuboresha zaidi ufanisi, tunapendekeza mbinu mpya ya usanikishaji mpya haraka. Njia za jadi kawaida hutibu pembejeo zote kwa FPN kwa njia ile ile, hata katika maazimio tofauti. Walakini, tunaona kuwa vipengee vya kuingiza na maazimio tofauti mara nyingi huchangia bila usawa kwa kazi za pato. Kwa hivyo, tunaongeza uzito wa ziada kwa kila kazi ya kuingiza na basi mtandao ujifunze umuhimu wa kila moja. Pia tutachukua nafasi ya kusanyiko zote za kawaida na kushawishi kidogo, na kutenganishwa sana. Pamoja na uboreshaji huu, BiFPN yetu inaboresha usahihi na 4% wakati inapunguza gharama za hesabu kwa 50%.

Uboreshaji wa tatu unajumuisha kufikia maelewano bora kati ya usahihi na ufanisi chini ya vizuizi vingi vya rasilimali. Kazi yetu ya awali imeonyesha kuwa kuongeza urefu wa kina, upana, na utatuzi wa mtandao unaweza kuboresha sana utendaji wa utambuzi wa picha. Kwa kuongozwa na wazo hili, tunapendekeza njia mpya ya kuongeza hesabu kwa vichunguzi vya vitu ambavyo kwa pamoja huongeza azimio / kina / upana. Kila sehemu ya mtandao, yaani uti wa mgongo, kitu na mtandao wa utabiri wa darasa / darasa, itakuwa na sababu moja ngumu ya kuongeza ambayo inadhibiti vipimo vyote vya kupimia kwa kutumia sheria za kitamaduni. Njia hii inafanya iwe rahisi kuamua jinsi ya kupima mfano kwa kuhesabu sababu ya kiwango cha kizuizi cha rasilimali inayolengwa.

Kwa kuchanganya mkongo mpya na BiFPN, kwanza tunabuni msingi wa chini wa ufanisi wa Duff-D0 na kisha tumia upeo wa kiwanja kupata EfficientDet-D1 hadi D7. Kila mtindo wa serial una gharama kubwa zaidi ya hesabu, inayojumuisha vikwazo anuwai vya rasilimali kutoka kwa FLOPs bilioni 3 hadi FLOPS bilioni 300, na hutoa usahihi wa hali ya juu.

Mfano wa utendaji

Tathmini ya ufanisiDet kwenye hifadhidata ya COCO, hifadhidata ya kumbukumbu inayotumiwa sana kwa kugundua kitu. EfficientDet-D7 inafanikiwa wastani wa wastani (mAP) ya 52.2, ambayo ni 1.5 kwa juu kuliko mfano wa kisasa wa kisasa, ikitumia vigezo vichache mara 4 na hesabu chache mara 9.4

Picha
Picha

Tulilinganisha pia saizi ya parameter na latency ya CPU / GPU kati ya EfficientDet na mifano ya hapo awali. Pamoja na vizuizi sawa vya usahihi, mifano ya EfficientDet hukimbia mara 2-4 kwa kasi kwenye GPU na mara 5-11 haraka kwenye processor kuliko vichunguzi vingine. Wakati modeli za EfficientDet zimekusudiwa kugundua kitu, tunajaribu ufanisi wao katika kazi zingine kama vile kugawanywa kwa semantic. Ili kufanya kazi za kugawanya, tunabadilisha kidogo ufanisi wa Deti-D4 kwa kuchukua nafasi ya kichwa cha kugundua na upotezaji wa kichwa na upotezaji wakati tunadumisha uti wa mgongo sawa na BiFPN. Tunalinganisha mfano huu na mifano ya zamani ya segmentation ya Pascal VOC 2012, seta ya upimaji wa segmentation inayotumika sana.

Picha
Picha

Kwa kuzingatia utendaji wao wa kipekee, EfficientDet inatarajiwa kutumika kama msingi mpya wa utafiti wa kugundua kitu cha baadaye na uwezekano wa kutengeneza mifano sahihi ya kugundua vitu kuwa muhimu katika programu nyingi za ulimwengu. Kwa hivyo ilifungua vituo vyote vya nambari na mfano wa mapema kwenye Github.com.

Ilipendekeza: