Taste of Tech Topics

Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

ICCVでGoogle Landmark Retrieval 2021の解法を発表しました

皆さんこんにちは
@tereka114です。急に寒くなってきました。

先週は一週間、自宅からICCVに参加しており、今年は自分もWorkshopで発表しました。
そこで、発表したWorkshopの説明と簡単にICCVの傾向を紹介したいと思います。

ICCV2021とは

ICCVはコンピュータビジョンの国際学会で、正式名称は「International Conference on Computer Vision」です。
今年も1600本ほどのポスターが公開される大きな学会で、10月11日から10月17日まで開催されていました。
Workshop/Turtorialは11,16,17、本会議が12-15です。

公式サイトのリンクです。
iccv2021.thecvf.com

今年はWorkshopで発表させてもらうことになりましたので、その話を主に書いておきます。

Instance-Level Recognition Workshop(ILR)

Kaggleで毎年開催されているGoogle Landmark Retrieval 2021のコンペティションにて
5位に入賞したため、を「ILR2021」にて紹介してきました。

www.kaggle.com

このWorkshopでは、インスタンスレベル(富士山など)での識別や検索を議論しており、特に製品や目標物、芸術に関するものが対象となっています。
Google LandmarkのコンテンツはこのWorkshopの中で毎年発表されており、今年で4回目となりました。
そのGoogle Landmarkの一部門にRetrieval Trackがあります。

Retrieval Trackは世界中の地図からの目印(例:自由の女神)となる画像のクエリデータが与えられ、
同じ目印となる画像を別のデータセット群から検索する問題です。

f:id:tereka:20211020221059p:plain:w700
Landmark Retrievalの解法発表

私達のチームの解法はEfficientNetV2と距離学習で用いられるArcFaceを利用しました。
そのArcFaceを学習し、中間のベクトル表現を獲得したものを用いて近傍を計算しました。
最後にノイズとなる画像を削る「Bridged Confidence」と呼ばれる後処理を提案し、スコアを伸ばしました。

解法の詳細は次のYoutubeの14分あたりから御覧ください。(英語です)

www.youtube.com

ICCV2021の傾向

セッションも時間の許す限りチェックしました。
今年、特筆するものとして、Transformerを利用した提案手法が増えていました。
もともとTransformerはNLPで利用されていたアーキテクチャですが、Visual Transformerの発表以降、画像でもTransformerの熱が上がっていることが伺えます。

今年ICCVのベストペーパーもTransformerベースのアーキテクチャSwin Transformer: Hierarchical Vision Transformer Using Shifted Windows」でした。

大きなポイントはVisual Transformerと比較して、固定となるパッチサイズではなく、スケーリングや平行移動への対応のために、
徐々にパッチサイズを小さくする(CNNのPooling処理に近い)ようなこと行ってます。

このSwin TransformerはPyTorchのtimmライブラリから簡単に扱うことができ、先述のGoogle Landmarkのコンペティションでもトップチームが利用していました。

github.com

最後に

Transformerを利用したものが整理されて公開される時期が来たと感じました。
従来の画像のDeepLearningといえばCNN一強の時代が続いていましたが、Transformerが少しずつ取って代わっているような流れになってきています。
Transformer+CNNも組み合わせたり、Transformerをより画像向けにしたりするなど、改善できるところもまだまだある感じました。
これからのアーキテクチャの進化がどのようになるか非常に楽しみです!

Acroquest Technologyでは、キャリア採用を行っています。


  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

Kaggle Grandmasterと話したいエンジニアWanted! - Acroquest Technology株式会社のデータサイエンティストの求人 - Wantedlywww.wantedly.com