こんにちは
@tereka114です。
韓国で開催されたコンピュータビジョンのトップカンファレンス ICCVへ参加していました。
今回はその後半(5~7日目)の参加記です。
前半については、こちらをご覧ください。
※ICCVの公式サイト
iccv2019.thecvf.com
5日目
午前中は「Vision, Language, & Text」、午後は「Recognition, Detection, & Re-Identification」のOralに参加しました。
前半はテキストと画像の組み合わせにより何ができるのかが非常に面白いところ。
後半は特に物体検出に注目して見ていました。
Detectionもいくつかのニューラルネットワークのアーキテクチャの提案があり、Trident NetworkやGANを利用したDetectionの改善がありました。
6日目
本会議の最終日です。
午前は「Single-View 3D Modeling, Pose Estimation」、午後は「Segmentation, Detection, 3D Scene Understanding」に参加しました。
特に注目すべきは、「YOLACT: Real-Time Instance Segmentation」でしょうか。
今までMask RCNNのように物体を検出してから分類とSegmentationするのではなく、一度に検出、分類、そして、Segmentationを行うアルゴリズムです。
これにより従来よりも大幅な高速化を実現しました。
7日目
Accelerating Computer Vision with Mixed Precision
NVIDIAが公開しているamp(Automatic Mixed Precision)の仕組みの紹介とその事例の紹介のチュートリアルです。
Mixed Precisionはfloat32とfloat16の計算を組み合わせて、計算速度を高速に、かつ、メモリ消費量を抑えられます。
また、精度も変更なしと比較してほぼ同等になります。
この仕組みを利用することによりバッチサイズを増やせる利点もあります。
実行にはGPUにTensorCoreが必要になりますが、メモリ消費量を抑えつつ、高速化できるのは魅力的です。
PyTorchだと、apexライブラリを利用すればごく僅かなコードの修正で利用可能です。
3D Deep Learning and Applications in Autonomous Driving
タイトル通り、3DのDeep Learningと自動運転のチュートリアルです。
個人的には今回、3次元系の話が多かったので、その知識を得るために参加しました。
前半は3DのDeep Learningで、3D系の知識を得て聞くと入力から出力に至るまで創意工夫が入っており、とても面白いと感じました。
後半は自動運転で利用されるDeepLearningの紹介です。
LiDARと呼ばれるセンサーと得られる画像を組み合わせて物体検出などを進めていくのは非常に面白いと感じています。
おそらく、これからも3Dの技術と画像などの複数のデータを扱う技術が発展していきそうです。
ここは勉強を続けて追っていきたいと思っています。
フィードバック会
11/12に会社内でICCVのフィードバックを実施しました。
韓国での様子や学会の傾向や今後の研究で進みそうな分野、そして論文について話しました。
プロジェクトに活かせそうなことも多くあったため、質疑応答も活発に行われていました。
最後に
ICCVに参加して良かったと感じました。
最近のトレンドが変わってきてるなぁと思っているので、新しいことをどんどん吸収していきたいと感じています。
特に動画や3Dが増えつつあるのに加え、NASなどを用いた基礎研究の発表もあり、非常に幅広い分野について学べたと思っています。
仕事やKaggleに役立ちそうな知見を論文から得られたので、使っていきたいと考えています。
Acroquest Technologyでは、キャリア採用を行っています。
- ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
- Elasticsearch等を使ったデータ収集/分析/可視化
- マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
- 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。Kaggle Masterと働きたい尖ったエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com