wake-up-neo.net

Warum werden rotationsinvariante neuronale Netze bei Gewinnern der beliebten Wettbewerbe nicht verwendet?

Bekanntlich sind modernstes populärstes CNN (Convolutional Neural Network): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - nicht rotationsinvariant: Sind moderne CNN (Convolutional Neural Network) wie DetectNet Invariante drehen?

Bekannt ist auch, dass es mehrere neuronale Netze mit Rotation-Invarianz-Objekterkennung gibt:

  1. Rotationsinvariantes Neoperceptron 2006 ( PDF ): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. Lernen von rotationsinvarianten Faltungsfiltern für die Texturklassifizierung 2016 ( PDF ): https://arxiv.org/abs/1604.0672

  3. RIFD-CNN: Rotationsinvariante und Fisher Diskriminative Convolutional Neuronale Netze zur Objekterkennung 2016 ( PDF ): http: //www.cv- foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. Kodierte Invarianz in Faltungs-Neuronalen Netzen 2014 ( PDF )

  5. Rotationsinvariante Faltungsnetzwerke für die Vorhersage der Galaxienmorphologie ( PDF ): https://arxiv.org/abs/1503.07077

  6. Lernen von rotationsinvarianten Faltungs-Neuronalen Netzen zur Objekterkennung in Bildern mit optischer Fernerkundung (VHR) 2016: http://ieeexplore.ieee.org/document/7560644/

Wir wissen, dass bei solchen Bilderkennungswettbewerben wie: IMAGE-NET, MSCOCO, Pascal VOC - verwendete Netzwerkensembles (gleichzeitig einige neuronale Netzwerke). Oder Netzwerkensembles in einem einzelnen Netzwerk wie z. B. ResNet ( Restnetzwerke verhalten sich wie Ensembles relativ flacher Netzwerke )

Werden rotationsinvariante Netzwerkensembles in Gewinnern wie MSRA verwendet, und wenn nicht, warum? Warum im Ensemble erhöht das zusätzliche rotationsinvariante Netzwerk nicht die Genauigkeit, um bestimmte Objekte wie z. B. Flugzeugobjekte zu erkennen - welche Bilder werden unter verschiedenen Drehwinkeln aufgenommen?

Es kann sein:

  • flugzeugobjekte, die vom Boden aus fotografiert werden enter image description here

  • oder Bodenobjekte, die aus der Luft fotografiert werden enter image description here

Warum werden rotationsinvariante neuronale Netze bei den Gewinnern der beliebten Objekterkennungswettbewerbe nicht verwendet?

26
Alex

Die jüngsten Fortschritte in der Bilderkennung, die hauptsächlich durch die Änderung des Ansatzes von einem klassischen Merkmalsauswahl-Algorithmus für flaches Lernen zu einem Algorithmus für tiefes Lernen ohne Merkmalsauswahl erzielt wurden wurde nicht nur durch mathematische Eigenschaften von Faltungsnetzwerken verursacht. Ja - natürlich wurde ihre Fähigkeit, die gleichen Informationen mit einer geringeren Anzahl von Parametern zu erfassen, teilweise durch ihre Verschiebungsinvarianzeigenschaft verursacht, aber die jüngste Forschung hat gezeigt, dass dies kein Schlüssel zum Verständnis ihres Erfolgs ist.

Meiner Meinung nach war der Hauptgrund für diesen Erfolg die Entwicklung schnellerer Lernalgorithmen als mathematisch genauerer Algorithmen, weshalb weniger Aufmerksamkeit geschenkt wird beim Entwickeln eines anderen eigenschaftsinvarianten neuronalen Netzes.

Natürlich - Rotationsinvarianz wird überhaupt nicht übersprungen. Dies geschieht teilweise durch Datenerweiterung, bei der Sie das leicht geänderte (z. B. gedrehte oder neu skalierte) Bild mit derselben Bezeichnung in Ihr Dataset einfügen. Wie wir in diesem fantastischen Buch lesen können diesen beiden Ansätzen ( mehr Struktur vs weniger Struktur + Datenerweiterung ) sind mehr oder weniger gleichwertig. (Kapitel 5.5.3 mit dem Titel: Invarianzen)

7
Marcin Możejko

Ich frage mich auch, warum die Community oder der Wissenschaftler der rationierungsinvarianten CNN als @Alex nicht viel Aufmerksamkeit geschenkt haben.

Eine mögliche Ursache ist meiner Meinung nach, dass viele Szenarien diese Eigenschaft nicht benötigen, insbesondere für diese beliebten Wettbewerbe. Wie Rob bereits erwähnte, werden einige natürliche Bilder bereits auf eine einheitliche horizontale (oder vertikale) Weise aufgenommen. Beispielsweise werden bei der Gesichtserkennung viele Arbeiten das Bild ausrichten, um sicherzustellen, dass die Menschen auf der Erde stehen, bevor sie CNN-Modelle versorgen. Um ehrlich zu sein, ist dies der billigste und effizienteste Weg für diese spezielle Aufgabe.

Es gibt jedoch einige Szenarien im wirklichen Leben, die eine rotationsinvariante Eigenschaft erfordern. Ich komme also zu einer anderen Vermutung: Dieses Problem ist aus Sicht dieser Experten (oder Forscher) nicht schwierig. Zumindest können wir die Datenerweiterung verwenden, um eine Rotationsinvariante zu erhalten.

Zum Schluss vielen Dank für Ihre Zusammenfassung der Beiträge. Ich habe ein weiteres Paper hinzugefügt Group Equivariant Convolutional Networks_icml2016_GCNN und sein Implementierung auf Github von anderen Leuten.

3
Tan Cniao

Die Objekterkennung beruht hauptsächlich auf den Erfolgen von Erkennungsalgorithmen bei den weltbekannten Objekterkennungsbenchmarks wie Pascal-VOC und MS-COCO, bei denen es sich um objektzentrierte Datensätze handelt, bei denen die meisten Objekte vertikal sind (Topfpflanzen, Menschen, Pferde usw.) Eine Datenerweiterung mit Links-Rechts-Spiegeln ist häufig ausreichend (nach unserem Kenntnisstand kann eine Datenerweiterung mit gedrehten Bildern wie verkehrten Spiegeln sogar die Erkennungsleistung beeinträchtigen).
Jedes Jahr nimmt die gesamte Community die algorithmische Grundstruktur der Gewinnerlösung an und baut darauf auf (ich übertreibe ein bisschen, um einen Punkt zu beweisen, aber nicht so sehr).

Interessanterweise benötigen andere weniger bekannte Themen wie die Erkennung von orientiertem Text und die Erkennung von orientierten Fahrzeugen in Luftbildern sowohl rotationsinvariante Funktionen als auch rotationsäquivariante Erkennungs-Pipelines (wie in beiden von Ihnen erwähnten Artikeln aus Cheng).

Wenn Sie Literatur und Code in diesem Bereich finden möchten, müssen Sie in diesen beiden Bereichen tauchen. Ich kann Ihnen bereits einige Hinweise geben, wie die DOTA Herausforderung für Luftbilder oder die ICDAR-Herausforderungen für orientierte Texterkennung.

Wie @Marcin Mozejko sagte, sind CNN von Natur aus nicht rotationsinvariant, sondern translatorisch invariant. Es ist ein offenes Problem, wie man die perfekte Rotationsinvarianz einbezieht. Die wenigen Artikel, die sich damit befassen, müssen erst noch zum Standard werden, obwohl einigevon ihnen vielversprechend erscheinen. Mein persönlicher Favorit für die Erkennung ist die kürzlich von Ma vorgeschlagene Modifikation von Faster R-CNN.

Ich hoffe, dass diese Richtung der Forschung mehr und mehr untersucht wird, sobald die Leute die Nase voll von MS-COCO und VOC haben.

Sie könnten versuchen, einen auf MS-COCO geschulten Detektor wie Schnelleres R-CNN mit NASNet von der TF-Erkennungs-API zu nehmen und zu sehen, wie das Drehen des Testbilds abläuft Meiner Meinung nach wäre es alles andere als eine Rotationsinvariante.

3
jean