Taste of Tech Topics

Acroquest Technology株式会社のエンジニアが書く技術ブログ

CVPR2018 3日目:Visual Dialogなど新しい発見がありました! #cvpr2018

こんにちは。@です。
CVPR3日目に参加してきました。本日は本会議の2日目です。

※CVPR2日目のレポートは次の通りです。
acro-engineer.hatenablog.com

本日は次のセッションに参加しました。

  1. Oral Object Recognition & Scene Understanding Ⅱ
  2. Poster/Exhibision
  3. Oral Object Recognition & Scene Understanding Ⅲ
  4. Poster/Exhibision

Oral Object Recognition & Scene Understanding Ⅱ

このセッションでは、物体検出に関する論文の発表が多くありました。

その1つ「An Analysis of Scale Invariance in Object Detection-SNIP」ではスケール耐性のある物体検出の手法が紹介されています。
この論文では、小さい物体の検出の精度が向上しています。
いずれ使ってみようと少々思いましたが、どうやらこの手法は低速であることが問題らしいです。
そのため、著者が改良版の「SNIPER」を開発したようです。こちらも公開されているようなので使ってみたいところです。

f:id:acro-engineer:20180621113829j:plain:h250

Oral Object Recognition & Scene Understanding Ⅲ

タイトルが今朝の内容と同じですが、Visual Question Answering(VQA)に関する論文が多かったように思えます。

特にVisual Dialogを使った対話応答・Dialog生成のタスクについて、私自身が初見で、興味を惹かれました。
論文中のアイデアも良いと思いましたが、Dialogのシーケンスを畳み込みで処理できると説明されておっとなりました。
畳み込みで複数の文章を扱う方法は様々なタスクで応用できると感じたところです。

f:id:acro-engineer:20180621110632j:plain:h250

Poster/Exhibision

連日多くのポスターがあり、毎日見るのが楽しみでもあり、大変です。
本日は、RANSACの改良やOccursionを考慮したSegmentationもあり、個人的には面白いと思ったところです。

特に面白かったのは、「Future Frame Prediction for Anomaly Detection- A New Baseline」です。
画像からの行動異常検知の論文です。後日、CVPR論文読みのイベントで心の中で発表予定の論文でもあったので、本日、ポスターにあったので詳細を直接、聞いてみました。
実際に聞くとパラメータの差異や書いていない実験などの内容も聞けたので著者と直接話せるのはその点が良いところです。
ポスター中に聞いた話は発表時に入れようと思っています。

f:id:acro-engineer:20180620132407j:plain:h250

最後に

本日で本会議の2日目が終わりました。たくさんの論文があって、毎日が面白いです。
明日は本会議の3日目になり、盛り上がりそうなので楽しみです!

Acroquest Technologyでは、キャリア採用を行っています。

  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

www.wantedly.com

CVPR2018 2日目:遂に本会議開始、面白い論文がたくさん #cvpr2018

皆さんこんにちは。@です。
引き続きCVPRのレポートです。本日はCVPRの2日目で本会議の1日目になります。

※CVPR1日目の記事はこちら
acro-engineer.hatenablog.com

本日参加したセッションは次の通りです。

  1. Opening
  2. Oral Analyzing and Humans Image Ⅰ
  3. Poster/Exhibision
  4. Machine Learning for Computer Vision
  5. Social

Opening

本会議1日目ともあり、Openingが開始です。
事前のメールから6300人超えといった参加者数の数値が出ていましたが、実数が発表され6512人でした。

f:id:acro-engineer:20180620030959j:plain:h250

今回のアワード(他にもありますが、特に注目すべき賞)は次の通りです。
Best Paper Award
f:id:acro-engineer:20180620031034j:plain:h250

Best Student Paper Award
f:id:acro-engineer:20180620031639j:plain:h250

Honorable Mention
f:id:acro-engineer:20180620031712j:plain:h250

ほとんど目を通せていない論文なので、どんな発表なのかが非常に楽しみです。

Oral Analyzing and Human Image

基本的には10分程度の発表に加えて、Spotlight(短い)セッションがOralのセッションになっています。
このSessionは人物画像の解析で、画像から小さい顔写真を獲得する、顔写真のエイジング、そして、新しいスタイルの顔写真作成と様々な論文がありました。

スタイルの顔写真作成のアイデア、アプリケーションとGANを複数用いた工夫が個人的には面白かったポイントです。
後々、ポスター回ったらGANの工夫が取り入れられた論文が多く、非常に驚きです。

Poster/Exhibision

Exhibisionは毎日開催されているスポンサー企業のブースです。
コンピュータビジョンに関係する発表や各企業の製品デモがあります。
後ほど話を聞いてみたいと思います。

f:id:acro-engineer:20180619111051j:plain:h250

ポスターは各日付、カテゴリごとに交代で実施しています。
毎日貼り出しているポスターが変更されるかは不明ですが、かなり混んでいます。
空いているタイミングを見計らって行くと著者の方とお話ができてこれはこれで面白いです。

Oral Machine Learning for Computer Vision

ニューラルネットワークの構成についての論文が多くありました。
ResNet→Dense Netときて次はどのような構成になるのかといった内容が多くありました。
各レイヤーの結果の集約する方式やマルチスケールなニューラルネットワークアーキテクチャの提案がありました。

特に印象に残ったのは、「Practical Block-Wise Neural Network Architecture Generation」です。
この論文を一言でいえば、NASNet構築のようなニューラルネットワーク自動生成手法です。
既存の自動生成手法では、学習に大幅なリソースと時間が必要であるところをブロックベースで探索し、全体のニューラルネットワークの構成を生成しています。
まだ、私にとって、実用性が皆無なほどリソースが必要です。
今後この研究が進むと人間は前処理を実施するのみになってしまうのでしょうか。

Social

最後にSocialと呼ばれるイベントがありました。平たく言ってしまえばパーティーです。
日本からも様々な立場の方が多く参加されていました。
このパーティーですが、ライブやパフォーマンスがあり、特に最後の方はライブの近くで参加者が踊るなど盛り上がっていました。

f:id:acro-engineer:20180620133632j:plain:h250

最後に

明日は3日目、引き継き多くのポスター発表があり、注目している論文も多いので頑張ってきます!

Acroquest Technologyでは、キャリア採用を行っています。

  • ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
  • Elasticsearch等を使ったデータ収集/分析/可視化
  • マイクロサービス、DevOps、最新のOSSを利用する開発プロジェクト
  • 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長

少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。

www.wantedly.com

CVPR1日目:弱教師あり学習とLandmark Challengeに参加!

皆さんこんにちは。@です。
先週はICMRに参加していましたが、今週からはソルトレイクシティに移動し、CVPRに参加しています。
CVPRはコンピュータビジョンのトップカンファレンスの一つです。

事前メールに記載があり、参加者が6300人をオーバーしているとのことです。
6300人が世界各国から集まるほど、非常に盛り上がっているカンファレンスです。
1日目はWorkshop & Tutorialでした。

昼食から迷子になるほど、広い会場です。

f:id:acro-engineer:20180618073943j:plain:h250

さて、本日は次の2つのセッションに参加しました。

  1. Tutorial: Weakly Supervised Learning for Computer Vision
  2. Workshop: Large-Scale Landmark Recognition: A Challenge

Tutorial: Weakly Supervised Learning for Computer Vision

「Weakly Supervised Learning for Computer Vision」に参加しました。
教師あり(=Supervised Learning)DNNの方法は人間の精度を超えてきています。
しかし、この多くのアノテーション済のデータセットが必要です。
複雑なタスク(Classification < Detection < Segmentation)であるほど、1枚に必要なアノテーションの時間は多く必要です。

そのためデータセットアノテーション方法を変えたり、既存のデータを用いてデータセットが少ない状態で学習ができるよう工夫しています。
業務上、様々な局面で利用できそうなので、調べて勉強しておこうと思います。

Workshop: Large-Scale Landmark Recognition: A Challenge

このセッションは、以前Kaggleで開催されていたコンペティションで上位になった人たちの発表で、Kaggleでは私はRecognition Trackに参加していました。
そのため、このコンペから学びたいことは多くあり、参加しました。

Recognition Track

1, 2, 8位の方が発表しました。局所特徴と大域特徴を組み合わせた方式です。
局所特徴の獲得にDEep Local Features(DeLF)、大域特徴の獲得でGeneralized-Mean(GeM)が使われておりそれらを組み合わせて良い結果を獲得しています。GeMは存在すら知らなかった。

このコンペティションに通常のいわゆる画像認識の分類問題を解いていましたが、どうやらその方式から良くなかったようです。
このコンペティション自体は来年もあるかもしれないので、次回は反省を生かして頑張りたいところ。

Retrieval Track

Retrieval(=検索)は画像を使い、同じカテゴリの画像を検索するコンペティションです。
1,2,3位の方が発表しています。特に面白いのは1位のREMAPです。
CNNの各レイヤーから出力された特徴を利用し、Entropy Weightingが使われていました。
詳しいところの説明はなかったので、実際にEntropy Weightingをどう計算するのかは気になるところです。

1位のソリューションで驚きだったのが、局所特徴を使わず、大域特徴量を抽出する提案手法のREMAPと既存手法のR-MACを使って行っているところです。
局所特徴(DeLF)を使わなかった点について、質疑応答でScaleの変化により、獲得できる特徴が減るからだといった見解があり面白かったです。

f:id:acro-engineer:20180619115650j:plain:h250

Invited Talk

2点ほど、Invited Talk(招待講演)がありました。
一つは画像の対応関係の紹介、もう一つは検索の紹介です。
実は分類、検出は今まで聞いたことありますが、画像の対応関係をどうマッチングするか、検索における課題をきちんと聞いたことがなかったので、この点は非常に興味深いものです。

最後に

CVPRも初日から勉強することが多くありました。
明日からようやく本会議です!しっかり学んできます。

Acroquest Technologyでは、キャリア採用を行っています。

  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com

Elastic Stack 6.3がリリースされました

こんにちは。
@です😊

昨日Elastic Stackの6.3がリリースされました。
前回のElastic{ON}から3ヶ月経ち、その中で紹介された機能が徐々に盛り込まれて来た形です。
6.3での変更点をざっくりまとめます。

X-Packの追加インストールが不要に

これまでのElastic Stackは、OSS部分のコードをインストールし、有償部分のX-Packを追加インストールする形でした。
当然X-Packのコードを読むことはできませんでした。

しかし、6.3からX-Packの部分も含めてコードが公開されるということで、最初からX-Packもインストールされた状態になります。
※X-Packの全ての機能を無償で使えるようになったわけではありません。

X-Packのトライアル期間は従来通り30日間で、有効化するにはKibanaのlicense managementで設定します。
(直接APIを叩くことももちろん可能です)

f:id:acro-engineer:20180614091154p:plain:w500


Monitoringもデフォルトでオフになったので、利用したい場合はKibanaから有効にしましょう。
f:id:acro-engineer:20180614091610p:plain:w500

SQLサポート

実は2017年のElastic{ON}で既に発表されていた内容なのですが、
ElasticsearchでSQLライクな検索が可能になりました。

Elasticsearchのquery文法は独特なので、学習コストを下げる意味でも有用だと思いますし、外部アプリケーションとの連携もしやすくなるのではないでしょうか?
CLIが提供されるほか、下記のようにAPIも提供されています。
(Kibana上でSQLを書く日がくるとは....)

f:id:acro-engineer:20180614092049p:plain:w500

詳細については、もう少し使い倒してからにしたいと思います。

Rollup API

センサーから上がってくる数値情報などを扱う際によくこんな要望が出てきます。
「直近1週間は1秒ごとのデータが欲しいけど、古いデータは1日ごとの集計値だけ欲しい」

今までは外部でcronを設定したり、Watcherで実現するなどだったと思いますが、ついにX-Packの機能として提供されます。
それがRollup APIです。

次のようなrollup jobを登録しておくだけで、内部でうまく集約してくれます。
これは便利ですね😊

PUT _xpack/rollup/job/sensor
{
    "index_pattern": "sensor-*",
    "rollup_index": "sensor_rollup",
    "cron": "*/30 * * * * ?",
    "page_size" :1000,
    "groups" : {
      "date_histogram": {
        "field": "timestamp",
        "interval": "1h",
        "delay": "7d"
      },
      "terms": {
        "fields": ["hostname", "datacenter"]
      },
      "histogram": {
        "fields": ["load", "net_in", "net_out"],
        "interval": 5
      }
    },
    "metrics": [
        {
            "field": "temperature",
            "metrics": ["min", "max", "sum"]
        },
        {
            "field": "voltage",
            "metrics": ["avg"]
        }
    ]
}

Index management

Kibanaの画面上からIndexの設定の確認や操作ができるようになりました。
f:id:acro-engineer:20180615001944p:plain:w500


Indexに適用されているMappingを確認したり、
f:id:acro-engineer:20180615001948p:plain:w500

Indexの設定を変更することできます。
f:id:acro-engineer:20180615001951p:plain:w500

今まではDev ToolsからAPIを実行しないとできなかった事がGUI上でできるようになったのは助かりますね。

Auto-complete in the Query Bar

Kibana画面上部にある検索バーに、補完機能が入りました。
今までフィールド名やデータ型を思い出せず、歯がゆい思いをした方もいらっしゃるのではないでしょうか?


例えばDiscoverの画面で、
f:id:acro-engineer:20180615105039p:plain:w500

このように補完してくれます
f:id:acro-engineer:20180615105331p:plain

最高です。

まとめ

ここでは紹介できなかった新機能もあります。みなさんも是非触ってみてください。
各機能の詳細などについては別途記事にするかもしれません。お楽しみに。

Acroquest Technologyでは、キャリア採用を行っています。

  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。


少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析基盤Elasticsearchを使い倒したいエンジニア募集! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com

ICMR4日目:最後の最後まで面白いセッションが盛りだくさん!

こんにちは。@です。
これまでレポートし続けてきましたが、ついにICMR2018も最終日を迎えました。

※3日目の記事はこちら
acro-engineer.hatenablog.com

本日参加したセッションは次の通りです。

  1. Panel
  2. Industrial Talks
  3. ACM MM TPC Workshops

Panel

テーマはマルチモーダルの5つの最大の問題とは何かといったパネルセッションでした。
それぞれのパネラーが5つの課題を発表していました。
個人的に人それぞれといった感じの主張で面白かったです。

視聴者にもアンケートを取っており、その場で発表されています。1位は「Content and context understanding」です。
画像処理界でもこれは非常に難問だと感じています。ある種、どんな分野でもこの難しさは言えそうなのでマルチモーダル特有ではなさそうです。

f:id:acro-engineer:20180614213146j:plain:h250

パネラーの皆さんの写真です。皆さんお若いときの写真ですね。

f:id:acro-engineer:20180614213256j:plain:h250

Industrial talks

NEC,CyberAgent, 日立製作所,LIFULL、それぞれから業務で活用しているマルチメディア技術、及びその実例の紹介がありました。
犯罪の抑止やWebサービスのフィルタなどの課題にマルチモーダルな領域でどう解消しているのかは企業で働いているエンジニアにとって興味津々な領域です。サービスで利用しているUIももちろん綺麗です。このUIは作るときのイメージの参考にもなります。

ACM MM TPC Workshops

マルチモーダルの研究内容のワークショップです。
このワークショップが非常に面白かったです。各々の先生方の研究内容の発表がありました。
音楽、ヘルスケア、スポーツ、映画、医療、検索など様々な研究対象があり、非常に面白かったです。
まさにマルチモーダルな分野が勢揃い。発表内容ももちろん最先端な発表でした。

今後、アルゴリズム構築に参考にしたいと思われる内容も多くあり、どこかでアイデアは使いたいと思っています。

最後に

ICMR2018お疲れ様でした。動画や音響等普段、触れる機会が少ないこともあり、刺激的な毎日を送れました。
様々なメディアの解析の基本や最先端の情報、そして、考え方にふれることができ、今後の活動にも活かせそうです。
また、来週からCVPRへ参加しにソルトレークへ行くので、そのための勉強にもなりました。

来週はソルトレイクシティからCVPRのレポートをお送りします。

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
www.wantedly.com

ICMR3日目:ポスターセッションが面白かった&BanquetでAwardの発表

こんにちは。@です。
ICMR3日目に参加しました。この日はメインカンファレンスの2日目で最後にBanquetがありました。

2日目の記事は次の通りです。
acro-engineer.hatenablog.com

参加セッションは次の通りです。

  1. Oral 2 Multimedia Content Analysis
  2. Oral 3 Multimedia Applications
  3. Poster Spotlight Session
  4. Poster/Demo
  5. Keynote 2
  6. Oral 4 Video Analysis
  7. Banquet

Oral 2 Multimedia Content Analysis

このセッションでは、Hypergraphを使ったコンテンツの関係性抽出や音楽のデータセット構築など様々な研究がありました。

このセッションで面白かったのは、建物の建築年数を推定する論文です。
論文中で背景のパッチ除去や特徴のある領域を切り出すような方法をとり、最後に機械学習を用いて世代を推定する分類を行っていました。

問題設定や手法が独特で面白いと感じました。

Oral 3 Multimedia Applications

3論文中、2論文が動画からテキスト領域を検出する論文です。

テキスト領域の検出は小さい領域が多くて難しかったり、領域の区分を識別したりと様々なタスクがあるようです。

テキスト領域を動画から検出するにあたり、動画の性質(時間方向)を用いた手法が利用されていました。
時系列があるといった点が画像と異なり非常に特徴的でした(時間の前後方向)。

Poster Spotlight Session

Poster Spotlight Sessionは一人80秒の時間でプレゼンを行っていました。
そのため、スピーディに発表者がアピールをしていました。

この内容に関する質問・議論はポスターのタイミングで受け付けるとのことです。
かなり、テンポよく進みました。面白いと感じたスライドはもちろん、後で聞きに行きました。

Poster/Demo

2日目に聞けなかったポスターを含め、ポスターを回りました。
Spotlight Sessionで聞いてわからなかったところや触れられていない詳細に関する質問をできます。
質問をすることで、論文に対する理解が深められて面白いです。

f:id:acro-engineer:20180613140540j:plain:h250

そして3日目もドーナッツ!、正直、太らないかが心配です。

Keynote

東大の山中教授より、Keynoteで話がありました。
内容は、研究されているデザインやロボットです。
かつての研究の発表や展示内容の紹介がありつつ、デザインやロボットの方向性の説明がありました。
発表時に再生された実際の展示内容のビデオやデモ動画の動きにインパクトがありました。

学会の内容とは分野が異なり面白い内容だと感じました。

Oral 4 Video Analysis

このセッションは動画解析に関する内容です。
動画のシーケンスから類似シーケンスを自動的に分割する手法など非常に面白いです。
アルゴリズム動的計画法特異値分解を用いた力技とそれに対する工夫が用いられており、個人的には好感が持てる手法でありました。
IBM所属の方発表で、この手法はWatsonに組み込む予定があるようです。

Banquet

3日目でメインカンファレンスは終了です。最後にBanquetがありました。
会場付近にあるホテル ニュー グランド 横浜で開催され、非常にきれいな内装でした。

f:id:acro-engineer:20180613221359j:plain:h250

アワードの紹介と来年のICMRの開催場所の案内です。
Best PaperとBest Multimodal Awardの方にはNVIDIA社提供、TITANVが贈呈されていました。

f:id:acro-engineer:20180614005533j:plain:h250

来年はカナダで6月10日〜13日に開催される予定です。

f:id:acro-engineer:20180613221423j:plain:h250

最後に

次はICMR2018の最終日です。企業からの発表とACM MMのWorkshopがあります。
これまでと発表の特色が異なりそうなので、楽しみです。

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析案件で時系列データの異常検知に挑戦したいエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com

ICMR2日目:本会議開始!情報検索の応用が盛りだくさん

皆さんこんにちは。@です。
1日目に引き続き、ICMRに参加しています。2日目は本会議(メインカンファレンス)初日でした。

※昨日の記事はこちら
acro-engineer.hatenablog.com

参加したセッションは次の通りです。

  1. Opening
  2. Keynote
  3. Best Paper Session
  4. Special Session1 Predicting User Perceptions of Multimedia Content
  5. Oral Session 1 Multimedia Retrieval

Opening

Openingでは、ICMRのカンファレンスの自身の紹介がありました。
採択論文数や出席数(今年は215人)、そしてスポンサーの紹介がありました。
驚きなのは中国の論文数が多いこと。全体の43%の提出率です。(採択率も40%強あります)

f:id:acro-engineer:20180612205754j:plain:h250

一番盛り上がっていたのはBest Paper, Best Multimodal賞の方に
NVIDIA社からTITAN-Vが提供される発表です。
候補の中からプレゼンで決まるので、プレゼンの内容を踏まえ、最後に決定される模様です。

Keynote 1

NHK日本放送協会)で利用されるブロードキャスト技術の今後の展望とその技術についての紹介です。
放送技術、メディアとの融合、そしてAIの活用をメインに研究しているとのこと。

4K, 8Kの話やAR,VRの活用や他のメディアとの融合、AIで効率化する技術に注力しています。
それぞれを使って、放送技術を進化させ続けるところが面白いところです。
Keynote中のAR,VRのデモは非常に興味深いものがありました。

AIの活用では、Twitterのソーシャルから取得すること、ポーズの推定など多くの技術が話されていました。
画像やメディアの研究開発している身からは応用範囲が広く、おおっ、こんなところで活かせるのかと感じながら聞いていました。

Best Paper Session

Best Paper候補となるペーパーの紹介がありました。
それぞれタスクや注目している点に特色があり、多くの発見がありました。

個人的には「Class-aware Self-Attention for Audio Event Recognition」のGlobalではなく、Class-AwareなAttentionの提案が面白いポイントでした。
面白かったので、実際の論文を読み、内容を復習せねばと思っています。

Special Session1 Predicting User Perceptions of Multimedia Content

ポスターで話されるセッションが紹介されていました。
個人的に面白かったのはアルバムの中で良い写真を探すタスク。
複数画像の中から良い写真を探すタスクですが、クラウドサービスを用いて
クラウド上でデータをラベリングしています。

実際に使えるかどうかはわかりませんが、機械学習のラベリングの一つの方法としてありかと思っています。

Poster/Demo

Special Sessionに出ていたので並行して開催されていたPoster/Demoの時間が取れず、少しだけ回りました。
明日も引き続き、Posterがあるので改めて、回ってみようと思います。

f:id:acro-engineer:20180612153751j:plain:h250

この学会ですが、午後の休憩になるとドーナツ(ミスド)が出てきます。(実は昨日もありました)
そのため、ドーナツとほぼ常備されている紅茶・コーヒーを飲食しながらポスターに参加できます。

Oral Session 1 Multimedia Retrieval

Cross-Modalな検索タスクに関する論文の発表です。
画像やテキストを同じ空間に射影する論文の発表がありました。
面白かったのはHashing技術、画像検索は膨大な計算量がかかるので、
ハッシュ化して圧縮し、情報検索で用いることがあります。

面白い内容も多いので、論文も合わせて読んでみようと思います。

最後に

本会議初日、様々な論文から普段得られない刺激を得られました。
明日も引き続きセッションが続くので楽しみです!

Acroquest Technologyでは、キャリア採用を行っています。


  • ビッグデータHadoop/Spark、NoSQL)、データ分析(Elasticsearch、Python関連)、Web開発(SpringCloud/SpringBoot、AngularJS)といった最新のOSSを利用する開発プロジェクトに関わりたい。
  • マイクロサービスDevOpsなどの技術を使ったり、データ分析機械学習などのスキルを活かしたい。
  • 社会貢献性の高いプロジェクトや、顧客の価値を創造するようなプロジェクトで、提案からリリースまで携わりたい。
  • 書籍・雑誌等の執筆や、対外的な勉強会の開催・参加を通した技術の発信、社内勉強会での技術情報共有により、エンジニアとして成長したい。

 
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。
データ分析案件で時系列データの異常検知に挑戦したいエンジニアWanted! - Acroquest Technology株式会社のエンジニア中途・インターンシップ・契約・委託の求人 - Wantedlywww.wantedly.com