Taste of Tech Topics

Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

CVPR2018 4日目:本会議も遂に終了! #cvpr2018

こんにちは。@です。
CVPRも4日目となり、遂に後半戦になりました。本日は本会議の3日目です。

※CVPR3日目のレポートは次の通りです。
acro-engineer.hatenablog.com

本日は次のセッションに参加しました。

  1. Oral Scene Understanding Ⅳ
  2. Oral Scene Understanding Ⅴ
  3. Oral Machine Learning for Computer Vision

Oral Scene Understanding Ⅳ

Long Talkで普段Kaggleでお世話になっているニューラルネットワークSENetの原論文の紹介がありました。
従来までのローカルな特徴のみならず、大域的な特徴を反映したかったのが、Squeeze処理とExcitation処理に反映されています。
Squeezeで大域的な特徴を反映し、Excitation処理で重みをつけ、各チャネルごとに大域的な特徴を反映しています。

f:id:acro-engineer:20180622115429j:plain:h250

その次の発表に有った「EncNet」のアイデアもSENetにインスパイアされており、Semantic Segmentationで成果を上げていました。
Semantic Segmentationを実行する機会があれば、試してみたいと思います。

f:id:acro-engineer:20180622115547j:plain:h250

Oral Scene Understanding Ⅴ

今回はOralで、Person Re-Identificationの論文が紹介されていました。
Person Re-Identificationの論文、今回非常に多くのポスターで見かけています。

従来までのpair-wise loss, triplet lossで得られた結果では、実際には近い位置関係に存在しないケース(=大域的には遠い)データがりました。
そのため、local similarityとgroup similarity(CRF)を定義し、計算し、SoTAを実現しています。
朝方のポスターで少し見てきたPerson Re-Identification論文も大域的特徴と局所特徴を組み合わせていました。
これからは大域的特徴と局所特徴を組み合わせつつ、精度が改善されていく提案が多いのではと思います。

f:id:acro-engineer:20180622115346j:plain:h250

Oral Machine Learning for Computer Vision

Adversarial ExampleやFeature Data Augmentationなどの論文の発表がありました。
そのうち、「Detail-Preserving Pooling in Deep Networks」では新しいPoolingの手法が提案されています。
通常のPooling(Down Sampling)では詳細情報がかけますが、この手法を使えば詳細な情報を残しつつPoolingができるとのこと。
既存手法(ResNetなど)に適用した場合に本提案手法のほうが精度が高いです。詳しいところは論文も読みつつ復習してみようと思います。

f:id:acro-engineer:20180622115259j:plain:h250

最後に

本日で本会議は最後になります。
明日は最後日でWorkshop、並びに、Tutorialがあります!
最後の最後まで楽しんできます!

Acroquest Technologyでは、キャリア採用を行っています。

  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

www.wantedly.com