こんにちは。@tereka114です。
CVPRも4日目となり、遂に後半戦になりました。本日は本会議の3日目です。
※CVPR3日目のレポートは次の通りです。
acro-engineer.hatenablog.com
本日は次のセッションに参加しました。
- Oral Scene Understanding Ⅳ
- Oral Scene Understanding Ⅴ
- Oral Machine Learning for Computer Vision Ⅵ
Oral Scene Understanding Ⅳ
Long Talkで普段Kaggleでお世話になっているニューラルネットワークSENetの原論文の紹介がありました。
従来までのローカルな特徴のみならず、大域的な特徴を反映したかったのが、Squeeze処理とExcitation処理に反映されています。
Squeezeで大域的な特徴を反映し、Excitation処理で重みをつけ、各チャネルごとに大域的な特徴を反映しています。
その次の発表に有った「EncNet」のアイデアもSENetにインスパイアされており、Semantic Segmentationで成果を上げていました。
Semantic Segmentationを実行する機会があれば、試してみたいと思います。
Oral Scene Understanding Ⅴ
今回はOralで、Person Re-Identificationの論文が紹介されていました。
Person Re-Identificationの論文、今回非常に多くのポスターで見かけています。
従来までのpair-wise loss, triplet lossで得られた結果では、実際には近い位置関係に存在しないケース(=大域的には遠い)データがりました。
そのため、local similarityとgroup similarity(CRF)を定義し、計算し、SoTAを実現しています。
朝方のポスターで少し見てきたPerson Re-Identification論文も大域的特徴と局所特徴を組み合わせていました。
これからは大域的特徴と局所特徴を組み合わせつつ、精度が改善されていく提案が多いのではと思います。
Oral Machine Learning for Computer Vision Ⅵ
Adversarial ExampleやFeature Data Augmentationなどの論文の発表がありました。
そのうち、「Detail-Preserving Pooling in Deep Networks」では新しいPoolingの手法が提案されています。
通常のPooling(Down Sampling)では詳細情報がかけますが、この手法を使えば詳細な情報を残しつつPoolingができるとのこと。
既存手法(ResNetなど)に適用した場合に本提案手法のほうが精度が高いです。詳しいところは論文も読みつつ復習してみようと思います。
最後に
本日で本会議は最後になります。
明日は最後日でWorkshop、並びに、Tutorialがあります!
最後の最後まで楽しんできます!
Acroquest Technologyでは、キャリア採用を行っています。
- ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
- Elasticsearch等を使ったデータ収集/分析/可視化
- マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
- 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。