Í þessu blaði er lögð til fjölflæðisspólutúr tauganetsarkitektúr, sem inniheldur mismunandi netuppbyggingu: kynningu á athyglisvélum<br>tvívítt spóluð tauganet og þrívítt leifar tauganeta sem byggjast á leifar mannvirkja, netarkitektúr eins og sést á mynd 4-2<br>Sýnt. Þegar núverandi 3D endurramma-stigs net gerir spólun í tíma, þrívíddarspólukjarnann er notaður til að hjóla í rúmblokk samfellda rammamyndarinnar í formi renniglugga. Hins vegar, vegna breytinga á viðhorfi gangandi vegfarenda, aðgerð og stöðu, er ekki við hæfi að endurramma í sömu stöðu, og þegar 3D cournt kjarninn gerir co vöruna á tímasetningu, er aðeins hægt að draga út tímaeiginleika samfelldrar þriggja ramma myndar í einu og ekki er hægt að fá upplýsingar um hreyfingu mjög vel. Þess vegna, í því skyni að auka upplýsingar um hreyfingu, auðga hreyfieiginleika og auka öflugni einn lögun, hegðun viðurkenningu aðferð byggt á samruna 3D converged tauganet einkenni er lagt til, þ.m.t. á grundvelli VGG16 netlíkansins<br>, fæða fyrirfram keypt sjónflæði mynd til að læra, þá eignast tíma lén lögun, og að lokum tíma lén lögun með 3D bindi<br>Einkennin sem safnað er af uppsöfnuðu tauganeti eru samsett og hegðunarflokkunin er framkvæmd af SVM flokkunartæki<br> Fjölflæðisspólutauganetum er skipt í 5 netgreinar, þar af eru 3 net tvívítt covon tauganet.<br>Tvívítt spólunet taugakerfisins, sem kynnir athyglisbúnaðinn, byggir á Inception-V3, sem fellir athyglisuppbygginguna í netuppbyggingunni til þess að leyfa netinu að læra helstu svæðisbundin einkenni sjálfstætt og draga úr truflun á hávaða. Á sama tíma inniheldur netið þrjár stillingar gagnainntaks, þ.e. einramma RGB gögn, einramma blöndunargögn og staflað þétt ljósflæðiskort, til að hámarka mannlega hegðun viðurkenningu á upplýsingum um geimtíma. Hinar tvær greinar fjölflæðisflæðis tauganetsins eru þrívítt afturflæði tauganetsins, sem byggir á afgangsuppbyggingunni, þar sem netið dýpkar netið með því að bæta við afgangsuppbyggingu til að forðast vandann við afköst hnignunar og blöndunar hvarfs, og notar alþjóðlegt meðaltalssöfnun í stað fulls tengilags, dregur úr fjölda líkana Gagnainntak tauganetsins þrívíddarspólu er RGB og gögn um blöndun fyrir samfellda fjölramma
正在翻译中..