Taste of Tech Topics

Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

CVPR2018 2日目:遂に本会議開始、面白い論文がたくさん #cvpr2018

皆さんこんにちは。@です。
引き続きCVPRのレポートです。本日はCVPRの2日目で本会議の1日目になります。

※CVPR1日目の記事はこちら
acro-engineer.hatenablog.com

本日参加したセッションは次の通りです。

  1. Opening
  2. Oral Analyzing and Humans Image Ⅰ
  3. Poster/Exhibision
  4. Machine Learning for Computer Vision
  5. Social

Opening

本会議1日目ともあり、Openingが開始です。
事前のメールから6300人超えといった参加者数の数値が出ていましたが、実数が発表され6512人でした。

f:id:acro-engineer:20180620030959j:plain:h250

今回のアワード(他にもありますが、特に注目すべき賞)は次の通りです。
Best Paper Award
f:id:acro-engineer:20180620031034j:plain:h250

Best Student Paper Award
f:id:acro-engineer:20180620031639j:plain:h250

Honorable Mention
f:id:acro-engineer:20180620031712j:plain:h250

ほとんど目を通せていない論文なので、どんな発表なのかが非常に楽しみです。

Oral Analyzing and Human Image

基本的には10分程度の発表に加えて、Spotlight(短い)セッションがOralのセッションになっています。
このSessionは人物画像の解析で、画像から小さい顔写真を獲得する、顔写真のエイジング、そして、新しいスタイルの顔写真作成と様々な論文がありました。

スタイルの顔写真作成のアイデア、アプリケーションとGANを複数用いた工夫が個人的には面白かったポイントです。
後々、ポスター回ったらGANの工夫が取り入れられた論文が多く、非常に驚きです。

Poster/Exhibision

Exhibisionは毎日開催されているスポンサー企業のブースです。
コンピュータビジョンに関係する発表や各企業の製品デモがあります。
後ほど話を聞いてみたいと思います。

f:id:acro-engineer:20180619111051j:plain:h250

ポスターは各日付、カテゴリごとに交代で実施しています。
毎日貼り出しているポスターが変更されるかは不明ですが、かなり混んでいます。
空いているタイミングを見計らって行くと著者の方とお話ができてこれはこれで面白いです。

Oral Machine Learning for Computer Vision

ニューラルネットワークの構成についての論文が多くありました。
ResNet→Dense Netときて次はどのような構成になるのかといった内容が多くありました。
各レイヤーの結果の集約する方式やマルチスケールなニューラルネットワークアーキテクチャの提案がありました。

特に印象に残ったのは、「Practical Block-Wise Neural Network Architecture Generation」です。
この論文を一言でいえば、NASNet構築のようなニューラルネットワーク自動生成手法です。
既存の自動生成手法では、学習に大幅なリソースと時間が必要であるところをブロックベースで探索し、全体のニューラルネットワークの構成を生成しています。
まだ、私にとって、実用性が皆無なほどリソースが必要です。
今後この研究が進むと人間は前処理を実施するのみになってしまうのでしょうか。

Social

最後にSocialと呼ばれるイベントがありました。平たく言ってしまえばパーティーです。
日本からも様々な立場の方が多く参加されていました。
このパーティーですが、ライブやパフォーマンスがあり、特に最後の方はライブの近くで参加者が踊るなど盛り上がっていました。

f:id:acro-engineer:20180620133632j:plain:h250

最後に

明日は3日目、引き継き多くのポスター発表があり、注目している論文も多いので頑張ってきます!

Acroquest Technologyでは、キャリア採用を行っています。

  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

www.wantedly.com

CVPR1日目:弱教師あり学習とLandmark Challengeに参加!

皆さんこんにちは。@です。
先週はICMRに参加していましたが、今週からはソルトレイクシティに移動し、CVPRに参加しています。
CVPRはコンピュータビジョンのトップカンファレンスの一つです。

事前メールに記載があり、参加者が6300人をオーバーしているとのことです。
6300人が世界各国から集まるほど、非常に盛り上がっているカンファレンスです。
1日目はWorkshop & Tutorialでした。

昼食から迷子になるほど、広い会場です。

f:id:acro-engineer:20180618073943j:plain:h250

さて、本日は次の2つのセッションに参加しました。

  1. Tutorial: Weakly Supervised Learning for Computer Vision
  2. Workshop: Large-Scale Landmark Recognition: A Challenge

Tutorial: Weakly Supervised Learning for Computer Vision

「Weakly Supervised Learning for Computer Vision」に参加しました。
教師あり(=Supervised Learning)DNNの方法は人間の精度を超えてきています。
しかし、この多くのアノテーション済のデータセットが必要です。
複雑なタスク(Classification < Detection < Segmentation)であるほど、1枚に必要なアノテーションの時間は多く必要です。

そのためデータセットアノテーション方法を変えたり、既存のデータを用いてデータセットが少ない状態で学習ができるよう工夫しています。
業務上、様々な局面で利用できそうなので、調べて勉強しておこうと思います。

Workshop: Large-Scale Landmark Recognition: A Challenge

このセッションは、以前Kaggleで開催されていたコンペティションで上位になった人たちの発表で、Kaggleでは私はRecognition Trackに参加していました。
そのため、このコンペから学びたいことは多くあり、参加しました。

Recognition Track

1, 2, 8位の方が発表しました。局所特徴と大域特徴を組み合わせた方式です。
局所特徴の獲得にDEep Local Features(DeLF)、大域特徴の獲得でGeneralized-Mean(GeM)が使われておりそれらを組み合わせて良い結果を獲得しています。GeMは存在すら知らなかった。

このコンペティションに通常のいわゆる画像認識の分類問題を解いていましたが、どうやらその方式から良くなかったようです。
このコンペティション自体は来年もあるかもしれないので、次回は反省を生かして頑張りたいところ。

Retrieval Track

Retrieval(=検索)は画像を使い、同じカテゴリの画像を検索するコンペティションです。
1,2,3位の方が発表しています。特に面白いのは1位のREMAPです。
CNNの各レイヤーから出力された特徴を利用し、Entropy Weightingが使われていました。
詳しいところの説明はなかったので、実際にEntropy Weightingをどう計算するのかは気になるところです。

1位のソリューションで驚きだったのが、局所特徴を使わず、大域特徴量を抽出する提案手法のREMAPと既存手法のR-MACを使って行っているところです。
局所特徴(DeLF)を使わなかった点について、質疑応答でScaleの変化により、獲得できる特徴が減るからだといった見解があり面白かったです。

f:id:acro-engineer:20180619115650j:plain:h250

Invited Talk

2点ほど、Invited Talk(招待講演)がありました。
一つは画像の対応関係の紹介、もう一つは検索の紹介です。
実は分類、検出は今まで聞いたことありますが、画像の対応関係をどうマッチングするか、検索における課題をきちんと聞いたことがなかったので、この点は非常に興味深いものです。

最後に

CVPRも初日から勉強することが多くありました。
明日からようやく本会議です!しっかり学んできます。

Acroquest Technologyでは、キャリア採用を行っています。

  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com

Elastic Stack 6.3がリリースされました

こんにちは。
@です😊

昨日Elastic Stackの6.3がリリースされました。
前回のElastic{ON}から3ヶ月経ち、その中で紹介された機能が徐々に盛り込まれて来た形です。
6.3での変更点をざっくりまとめます。

X-Packの追加インストールが不要に

これまでのElastic Stackは、OSS部分のコードをインストールし、有償部分のX-Packを追加インストールする形でした。
当然X-Packのコードを読むことはできませんでした。

しかし、6.3からX-Packの部分も含めてコードが公開されるということで、最初からX-Packもインストールされた状態になります。
※X-Packの全ての機能を無償で使えるようになったわけではありません。

X-Packのトライアル期間は従来通り30日間で、有効化するにはKibanaのlicense managementで設定します。
(直接APIを叩くことももちろん可能です)

f:id:acro-engineer:20180614091154p:plain:w500


Monitoringもデフォルトでオフになったので、利用したい場合はKibanaから有効にしましょう。
f:id:acro-engineer:20180614091610p:plain:w500

SQLサポート

実は2017年のElastic{ON}で既に発表されていた内容なのですが、
ElasticsearchでSQLライクな検索が可能になりました。

Elasticsearchのquery文法は独特なので、学習コストを下げる意味でも有用だと思いますし、外部アプリケーションとの連携もしやすくなるのではないでしょうか?
CLIが提供されるほか、下記のようにAPIも提供されています。
(Kibana上でSQLを書く日がくるとは....)

f:id:acro-engineer:20180614092049p:plain:w500

詳細については、もう少し使い倒してからにしたいと思います。

Rollup API

センサーから上がってくる数値情報などを扱う際によくこんな要望が出てきます。
「直近1週間は1秒ごとのデータが欲しいけど、古いデータは1日ごとの集計値だけ欲しい」

今までは外部でcronを設定したり、Watcherで実現するなどだったと思いますが、ついにX-Packの機能として提供されます。
それがRollup APIです。

次のようなrollup jobを登録しておくだけで、内部でうまく集約してくれます。
これは便利ですね😊

PUT _xpack/rollup/job/sensor
{
    "index_pattern": "sensor-*",
    "rollup_index": "sensor_rollup",
    "cron": "*/30 * * * * ?",
    "page_size" :1000,
    "groups" : {
      "date_histogram": {
        "field": "timestamp",
        "interval": "1h",
        "delay": "7d"
      },
      "terms": {
        "fields": ["hostname", "datacenter"]
      },
      "histogram": {
        "fields": ["load", "net_in", "net_out"],
        "interval": 5
      }
    },
    "metrics": [
        {
            "field": "temperature",
            "metrics": ["min", "max", "sum"]
        },
        {
            "field": "voltage",
            "metrics": ["avg"]
        }
    ]
}

Index management

Kibanaの画面上からIndexの設定の確認や操作ができるようになりました。
f:id:acro-engineer:20180615001944p:plain:w500


Indexに適用されているMappingを確認したり、
f:id:acro-engineer:20180615001948p:plain:w500

Indexの設定を変更することできます。
f:id:acro-engineer:20180615001951p:plain:w500

今まではDev ToolsからAPIを実行しないとできなかった事がGUI上でできるようになったのは助かりますね。

Auto-complete in the Query Bar

Kibana画面上部にある検索バーに、補完機能が入りました。
今までフィールド名やデータ型を思い出せず、歯がゆい思いをした方もいらっしゃるのではないでしょうか?


例えばDiscoverの画面で、
f:id:acro-engineer:20180615105039p:plain:w500

このように補完してくれます
f:id:acro-engineer:20180615105331p:plain

最高です。

まとめ

ここでは紹介できなかった新機能もあります。みなさんも是非触ってみてください。
各機能の詳細などについては別途記事にするかもしれません。お楽しみに。

Acroquest Technologyでは、キャリア採用を行っています。

  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。


少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析基盤Elasticsearchを使い倒したいエンジニア募集! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com

ICMR4日目:最後の最後まで面白いセッションが盛りだくさん!

こんにちは。@です。
これまでレポートし続けてきましたが、ついにICMR2018も最終日を迎えました。

※3日目の記事はこちら
acro-engineer.hatenablog.com

本日参加したセッションは次の通りです。

  1. Panel
  2. Industrial Talks
  3. ACM MM TPC Workshops

Panel

テーマはマルチモーダルの5つの最大の問題とは何かといったパネルセッションでした。
それぞれのパネラーが5つの課題を発表していました。
個人的に人それぞれといった感じの主張で面白かったです。

視聴者にもアンケートを取っており、その場で発表されています。1位は「Content and context understanding」です。
画像処理界でもこれは非常に難問だと感じています。ある種、どんな分野でもこの難しさは言えそうなのでマルチモーダル特有ではなさそうです。

f:id:acro-engineer:20180614213146j:plain:h250

パネラーの皆さんの写真です。皆さんお若いときの写真ですね。

f:id:acro-engineer:20180614213256j:plain:h250

Industrial talks

NEC,CyberAgent, 日立製作所,LIFULL、それぞれから業務で活用しているマルチメディア技術、及びその実例の紹介がありました。
犯罪の抑止やWebサービスのフィルタなどの課題にマルチモーダルな領域でどう解消しているのかは企業で働いているエンジニアにとって興味津々な領域です。サービスで利用しているUIももちろん綺麗です。このUIは作るときのイメージの参考にもなります。

ACM MM TPC Workshops

マルチモーダルの研究内容のワークショップです。
このワークショップが非常に面白かったです。各々の先生方の研究内容の発表がありました。
音楽、ヘルスケア、スポーツ、映画、医療、検索など様々な研究対象があり、非常に面白かったです。
まさにマルチモーダルな分野が勢揃い。発表内容ももちろん最先端な発表でした。

今後、アルゴリズム構築に参考にしたいと思われる内容も多くあり、どこかでアイデアは使いたいと思っています。

最後に

ICMR2018お疲れ様でした。動画や音響等普段、触れる機会が少ないこともあり、刺激的な毎日を送れました。
様々なメディアの解析の基本や最先端の情報、そして、考え方にふれることができ、今後の活動にも活かせそうです。
また、来週からCVPRへ参加しにソルトレークへ行くので、そのための勉強にもなりました。

来週はソルトレイクシティからCVPRのレポートをお送りします。

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com

ICMR3日目:ポスターセッションが面白かった&BanquetでAwardの発表

こんにちは。@です。
ICMR3日目に参加しました。この日はメインカンファレンスの2日目で最後にBanquetがありました。

2日目の記事は次の通りです。
acro-engineer.hatenablog.com

参加セッションは次の通りです。

  1. Oral 2 Multimedia Content Analysis
  2. Oral 3 Multimedia Applications
  3. Poster Spotlight Session
  4. Poster/Demo
  5. Keynote 2
  6. Oral 4 Video Analysis
  7. Banquet

Oral 2 Multimedia Content Analysis

このセッションでは、Hypergraphを使ったコンテンツの関係性抽出や音楽のデータセット構築など様々な研究がありました。

このセッションで面白かったのは、建物の建築年数を推定する論文です。
論文中で背景のパッチ除去や特徴のある領域を切り出すような方法をとり、最後に機械学習を用いて世代を推定する分類を行っていました。

問題設定や手法が独特で面白いと感じました。

Oral 3 Multimedia Applications

3論文中、2論文が動画からテキスト領域を検出する論文です。

テキスト領域の検出は小さい領域が多くて難しかったり、領域の区分を識別したりと様々なタスクがあるようです。

テキスト領域を動画から検出するにあたり、動画の性質(時間方向)を用いた手法が利用されていました。
時系列があるといった点が画像と異なり非常に特徴的でした(時間の前後方向)。

Poster Spotlight Session

Poster Spotlight Sessionは一人80秒の時間でプレゼンを行っていました。
そのため、スピーディに発表者がアピールをしていました。

この内容に関する質問・議論はポスターのタイミングで受け付けるとのことです。
かなり、テンポよく進みました。面白いと感じたスライドはもちろん、後で聞きに行きました。

Poster/Demo

2日目に聞けなかったポスターを含め、ポスターを回りました。
Spotlight Sessionで聞いてわからなかったところや触れられていない詳細に関する質問をできます。
質問をすることで、論文に対する理解が深められて面白いです。

f:id:acro-engineer:20180613140540j:plain:h250

そして3日目もドーナッツ!、正直、太らないかが心配です。

Keynote

東大の山中教授より、Keynoteで話がありました。
内容は、研究されているデザインやロボットです。
かつての研究の発表や展示内容の紹介がありつつ、デザインやロボットの方向性の説明がありました。
発表時に再生された実際の展示内容のビデオやデモ動画の動きにインパクトがありました。

学会の内容とは分野が異なり面白い内容だと感じました。

Oral 4 Video Analysis

このセッションは動画解析に関する内容です。
動画のシーケンスから類似シーケンスを自動的に分割する手法など非常に面白いです。
アルゴリズム動的計画法特異値分解を用いた力技とそれに対する工夫が用いられており、個人的には好感が持てる手法でありました。
IBM所属の方発表で、この手法はWatsonに組み込む予定があるようです。

Banquet

3日目でメインカンファレンスは終了です。最後にBanquetがありました。
会場付近にあるホテル ニュー グランド 横浜で開催され、非常にきれいな内装でした。

f:id:acro-engineer:20180613221359j:plain:h250

アワードの紹介と来年のICMRの開催場所の案内です。
Best PaperとBest Multimodal Awardの方にはNVIDIA社提供、TITANVが贈呈されていました。

f:id:acro-engineer:20180614005533j:plain:h250

来年はカナダで6月10日〜13日に開催される予定です。

f:id:acro-engineer:20180613221423j:plain:h250

最後に

次はICMR2018の最終日です。企業からの発表とACM MMのWorkshopがあります。
これまでと発表の特色が異なりそうなので、楽しみです。

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析案件で時系列データの異常検知に挑戦したいエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com

ICMR2日目:本会議開始!情報検索の応用が盛りだくさん

皆さんこんにちは。@です。
1日目に引き続き、ICMRに参加しています。2日目は本会議(メインカンファレンス)初日でした。

※昨日の記事はこちら
acro-engineer.hatenablog.com

参加したセッションは次の通りです。

  1. Opening
  2. Keynote
  3. Best Paper Session
  4. Special Session1 Predicting User Perceptions of Multimedia Content
  5. Oral Session 1 Multimedia Retrieval

Opening

Openingでは、ICMRのカンファレンスの自身の紹介がありました。
採択論文数や出席数(今年は215人)、そしてスポンサーの紹介がありました。
驚きなのは中国の論文数が多いこと。全体の43%の提出率です。(採択率も40%強あります)

f:id:acro-engineer:20180612205754j:plain:h250

一番盛り上がっていたのはBest Paper, Best Multimodal賞の方に
NVIDIA社からTITAN-Vが提供される発表です。
候補の中からプレゼンで決まるので、プレゼンの内容を踏まえ、最後に決定される模様です。

Keynote 1

NHK日本放送協会)で利用されるブロードキャスト技術の今後の展望とその技術についての紹介です。
放送技術、メディアとの融合、そしてAIの活用をメインに研究しているとのこと。

4K, 8Kの話やAR,VRの活用や他のメディアとの融合、AIで効率化する技術に注力しています。
それぞれを使って、放送技術を進化させ続けるところが面白いところです。
Keynote中のAR,VRのデモは非常に興味深いものがありました。

AIの活用では、Twitterのソーシャルから取得すること、ポーズの推定など多くの技術が話されていました。
画像やメディアの研究開発している身からは応用範囲が広く、おおっ、こんなところで活かせるのかと感じながら聞いていました。

Best Paper Session

Best Paper候補となるペーパーの紹介がありました。
それぞれタスクや注目している点に特色があり、多くの発見がありました。

個人的には「Class-aware Self-Attention for Audio Event Recognition」のGlobalではなく、Class-AwareなAttentionの提案が面白いポイントでした。
面白かったので、実際の論文を読み、内容を復習せねばと思っています。

Special Session1 Predicting User Perceptions of Multimedia Content

ポスターで話されるセッションが紹介されていました。
個人的に面白かったのはアルバムの中で良い写真を探すタスク。
複数画像の中から良い写真を探すタスクですが、クラウドサービスを用いて
クラウド上でデータをラベリングしています。

実際に使えるかどうかはわかりませんが、機械学習のラベリングの一つの方法としてありかと思っています。

Poster/Demo

Special Sessionに出ていたので並行して開催されていたPoster/Demoの時間が取れず、少しだけ回りました。
明日も引き続き、Posterがあるので改めて、回ってみようと思います。

f:id:acro-engineer:20180612153751j:plain:h250

この学会ですが、午後の休憩になるとドーナツ(ミスド)が出てきます。(実は昨日もありました)
そのため、ドーナツとほぼ常備されている紅茶・コーヒーを飲食しながらポスターに参加できます。

Oral Session 1 Multimedia Retrieval

Cross-Modalな検索タスクに関する論文の発表です。
画像やテキストを同じ空間に射影する論文の発表がありました。
面白かったのはHashing技術、画像検索は膨大な計算量がかかるので、
ハッシュ化して圧縮し、情報検索で用いることがあります。

面白い内容も多いので、論文も合わせて読んでみようと思います。

最後に

本会議初日、様々な論文から普段得られない刺激を得られました。
明日も引き続きセッションが続くので楽しみです!

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析案件で時系列データの異常検知に挑戦したいエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com

ICMR1日目:推薦システムと画像のコンテキスト理解が面白い!

皆さんこんにちは。@です。
今年はカメラ推定コンペでKaggle Masterを獲得しました。次のGrand Masterに向けて日々、精進しています。

本日からICMR2018に来ています。ICMRはInternational Conference on Multimedia Retrievalの略です。
これは、マルチメディア情報検索の学会で横浜文化情報センターで開催されています。
1日目はTutorialとWorkshopに参加してきました。

www.icmr2018.org

本日の参加セッションは次の通りです。

  1. Tutorial 1: Objects, Relationships, and Context in Visual Data
  2. Tutorial 2: Recommendation Technologies for Multimedia Content
  3. Reception

Tutorial 1: Objects, Relationships, and Context in Visual Data

f:id:acro-engineer:20180611094757j:plain:h300

画像を用いたコンテキスト理解に関するチュートリアルです。
はじめに物体検出などを用いた画像のコンテキストの獲得の説明がありました。
その後、Image Relations、Image Reasoning、そして、Image Captioningの説明がありました。
複数検出されたオブジェクトや位置を考慮するなど、画像内のオブジェクトの関係性を理解する難しさを感じました。

後半はGenerative Adversarial Network(通称:GAN)の紹介です。
ただし、通常のGANではなく、コンテキストを外部から与える手法についての紹介がありました。
例えば、現状の衣服を来た人の画像に加え、ポーズといった条件を与えることにより、現在の服装の別の服装を生成するなどを可能にしています。
以前から、GANは注目して、いくつか論文を読みましたが、やはり、GANは様々な箇所で応用できそうで面白い分野です。

画像自体をどう理解・解釈するかといった観点で非常に面白いTurtorialでした。

Tutorial 2: Recommendation Technologies for Multimedia Content

推薦システムに関するチュートリアルです。
従来手法である特異値分解(SVD)やDeep Learningを使った推薦システムの方式、画像や動画の特徴量の獲得法とそれを推薦に応用した方法など様々な方式の紹介がありました。

Feature Interactionを獲得するためのBilinear Interaction PoolingやConvolutionを用いた方法など
推薦システムの構築経験が少ない私としては非常に面白い内容でした。
また、画像を使った推薦への応用も非常に興味深いものがあり、
改めて資料を確認して復習したいと思っています。

資料は次のURLで公開されています。
https://www.comp.nus.edu.sg/~xiangnan/icmr18-recsys.pdf

Reception

初日の最後にReceptionに参加しました。
Receptionは横浜にあるFISHERMAN'S MARKETで開催されました。
当日、知り合った人と会話して、非常にエキサイティングなディスカッションをしました。

f:id:acro-engineer:20180611190036j:plain:h300

夜のReception会場の横浜の景色は美しいです。

f:id:acro-engineer:20180611205027j:plain:h300

最後に

次はメインカンファレンスです。既に得る内容も多くて刺激的な1日でした。
まだまだ得られるものは多いので、しっかり参加してきます!

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析案件で時系列データの異常検知に挑戦したいエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com