Taste of Tech Topics

Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

コンピュータビジョンのトップカンファレンスICCV2019参加記(前編)

皆さんこんにちは
@tereka114です。

10/26~11/02まで韓国で開催された、コンピュータビジョンのトップカンファレンスの一つであるICCV(International Conference on Computer Vision)に参加しました。本記事では、前半部分(〜10/30)までを記載します。

ちなみに、私はKaggle Masterとしての日頃の貢献が評価され、参加費+渡航費は会社から出してもらいました。
ありがとうございます!

iccv2019.thecvf.com

1日目

渡航

直前まで予定が入っていたので朝から韓国へ渡りました。
韓国は初めてですが、時差もないため、非常に楽です。
ただ、唯一のネックは韓国語しか書いていない箇所が多く、時々、何を示しているのかが?になるところです。
渡航し、そのままCOEX Convention Centerに向かいICCVのWorkshopに参加しました。

Open Images Challenge

本会議前のWorkshopに参加しました。
参加したのはOpen Images Challengeです。

このOpen Image Datasetを用いたコンペティションは今年もKaggleと呼ばれるデータサイエンスプラットフォームで開催されています。
物体を検出するObject Detection、物体の関係性を推定するObject Relation、そして、物体を個別に識別し、ピクセルごとに識別するInstance Segmentationの3つのTrackがあり、上位者がそのソリューションを発表していました。

このデータセットは画像の枚数、バウンディングボックスの数共に多く、現在の利用できる最大規模のデータセットとも言えます。
本Workshopは各Trackごとに主催者による解説と各コンペティションのソリューションの説明の順に進みました。
ソリューションから新しく学べるものが多く、今後も活かせそうなものが多かったです。

2日目

The 3rd YouTube-8M Large-Scale Video Understanding Workshop

Workshopの2日目です。私は「The 3rd YouTube-8M Large-Scale Video Understanding Workshop」に参加しました。

動画解析は2Dとはまた異なったテクニックが必要となるため、最新の研究動向の調査を兼ねて参加しました。
画像解析とは異なり、動画は時間の長さが動画ごとに異なり、時系列の依存もあるため、画像と比較して難しいと思っている分野の一つです。
これもまた、Kaggleでコンペティションを開催していたので、そのソリューションの説明もありました。

途中で紹介されたSlowFast Networkやライブラリ、関連研究の紹介も含め、非常に良いWorkshopでだったと感じています。

f:id:acro-engineer:20191031221118j:plain:w500

3日目

Opening

本会議1日目にICCVの統計情報の公開されました。
参加者が7501人で、1075論文の発表がある非常に大きな学会です。

f:id:acro-engineer:20191031215341j:plain:w500

参加者の人数ですが、2年前の前回と比較しても2.41倍に増えています。
このまま増えると次は15000人超えのすごい学会になってしまいますね。。。

f:id:acro-engineer:20191029085103j:plain:w500

今回の参加者は開催国である韓国が最も多く、2964人も参加しています。
日本からも200人程度参加しています。

f:id:acro-engineer:20191031215725j:plain:w500

Oral1

タイトル(BestPaperなど)を獲得した論文の発表です。
ICCVのBest Paperは「SinGAN: Learning a Generative Model from a Single Natural Image」です。
SinGANは、1枚の画像のみを入力し、パッチ学習と呼ばれる学習を用いて学習させた画像と類似した画像を生成できます。
これを用いて類似画像の生成、画像の復元、超解像などの様々なタスクの実験を行い、目覚ましい結果をあげました。

Oral 1.2

私はホールD1側の「Architectures, Multi-Task Learning, Domain Adaptation」に参加していました。
特に面白いと思ったのはS4L: Self-Supervised Semi-Supervised Learningです。
Self-Supervised Learning と Semi Supervised Learningを組み合わせ、従来よりも高い精度の推論を可能としました。
最近だとWebに無数の画像があるため、Self-Supervised Learning(画像の回転方向を当てるタスクなどと解く)を行いやすく、ここをどのように使っていくとデータの少ない中でも精度を出していけるのか、非常に興味深いところです。

Reception

本会議一日目のパーティです。COEXのホール前の通路で開催されています。
食事をしつつ、ここで他の参加者とも交流し、親睦を深めました。
私自身、海外から参加しているKagglerと少し話をしていました。

f:id:acro-engineer:20191029180003j:plain:w500

4日目

Oral 2.1.A

Oral 2.1.Aのテーマは「Feature Representations, Similarity Learning」
最近はSemantic Segmentationに取り組む事が多かったので「CARAFE: Content-Aware ReAssembly of FEatures」が個人的には興味ありました。
これは、UNetなどで利用されるUpsampleモジュールを改良する提案になります。
得られた画像のコンテキストを用いて、広い範囲の情報を用い、かつ、高速にUpsamplingします。
これにより従来のUpsample手法より精度を向上させました。

Banquet

会場内の広い場所での開催でした。
かなりの人が集まっており、非常に混雑していました。
会中では主催者がイベントを段どっており、テコンドー、ヒップホップや歴史のビデオなどの放送がありました。
個人的にはテコンドーの演技が素晴らしく、参加者の多くが注目していました。

f:id:acro-engineer:20191030180215j:plain:w500

最後に

コンピュータビジョン系の学会には1年と数ヶ月ぶりに参加しました。
分野の進みは早くより3D、動画など研究者が取り組む分野もシフトしていると感じています。
今回参加したことで研究の動向が得られていることが一つ大きなメリットであることを現地で痛感しています。
また、後半もお届けします!

Acroquest Technologyでは、キャリア採用を行っています。

  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

Kaggle Masterと働きたい尖ったエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com