Video Indexerの個人的考察

投稿者: | 2018年12月17日

本記事はMicroSoft Azure Advent Calendar 2018の17日目の記事になります。

 

Microsoft Azure に関するカレンダーです。以下は中の人によるカレンダーです。こちらもご覧ください。https://qiita.com/advent-calendar/2018/microsoft-azure-tech20...

 

Video IndexerがPreviewになって1年半、GAしてから3カ月ほどが経ち色々と機能拡張されて使い勝手や分析レベルが高くなってきてますます興味深いサービスになってきたと思います。

Video Indexerは非常に面白く興味深いサービスだと思うのですが、どういった事に応用が利くのかがいまだにピンと来ていません。例えば議事録を起こすのに使えるのではないか、例えばセミナーを動画撮影して自動でドキュメントに起こすのに使えるのではないかと色々と思案できるのですが、実際にやってみるとどれもこれもイマイチな結果になりがちなアイデアばかりです。そこで今回はVideo Indxerの機能のおさらいをしつつ世界の事例を見ながら、どういった事でビジネス価値を出せるのかについて自論を書いていこうと思います。

※本記事は2018年12月17日時点の情報になります。

※本記事は個人の意見であり所属する団体等は関係ありません。

 

Video Indexerの機能

現時点でのVideo Indexerの機能ついておさらいしたいと思います。今年の8月にAPIバージョンがV1からV2に推奨が変わりましたが基本的な機能に変更はありません。大きく変わったのはAuthorizationAPIでアクセストークンを取得して各種APIにアクセスする方式になったことくらいです。それでは基本機能を「音声」・「動画」・「音声動画」別に見ていきたいと思います。

 

音声ベースの機能


Cognitive Serviceの「Translate Text」や「Text Analitices」、「Speech To Text」等の言語・音声系の機能を利用した機能群を提供しています。個人的に気に入っているのは「Speech  To Text」と「Translate Text」の合わせ技による自動翻訳機能です。未来を感じる素敵な機能なのですが音源の質によって取得できる言葉の品質が決まるので周囲のガヤガヤ音やホワイトノイズによって影響を受けやすいのが玉に瑕です。

自動言語検出  音声から自動的に言語を検出します。主要言語10か国語以上をサポートしてます。
音声の文字起こし  会話の内容を文字におこします。
字幕  文字に起こした会話の内容を字幕ファイル形式(VTT、TTML、SRT)として作成します。
翻訳 文字に起こした会話の内容を「Translate Text」で54か国語に翻訳します。
キーワードの抽出 会話の内容をおこした文字から特定のキーワードを抽出します。定かではないですがここら辺はLuisを利用しているのかなと思います。
トピックの推論  会話の内容からトピックを抽出して何について話しているか推論します
感情の検出  音声を元に「喜び」・「悲しみ」・「怒り」・「恐怖」4種類の感情を取得します。
話者の列挙  どの話者がどの言葉をいつ話したかをタイムラインベースで抽出します。
コンテンツ モデレーション  音声情報から性表現や特定の放送禁止用語等を抽出します。

 

動画ベースの機能


Cognitive Serviceの「Computer Vision」や「Face」、「ContentModelator」等の視覚系の機能を利用した機能群を提供しています。個人的に気に入っているのは動画の画像内から文字を取得するOCR機能と顔認識によるサムネイル作成機能です。サムネイルを作成する機能自体はAzure Media Serviceに以前からあるのですが特定の話者が映っている個所のみでサムネイル作成できるので便利です。

あと、著名人の識別ですがプレビューのころは1万に程度だったのが今では100万に以上となっていてここ2年くらいのトレーニング成果が伺えます。ちなみに日本の著名人も認識してくれるので例えば映画監督の「北野武」さんが移っている動画を上げれば顔検出とサムネイルで指定したソース情報に合わせて情報が表示されます。英語だと「Takeshi Kitano」で日本語では「ビートたけし」と指定したソースの言語に合わせて表示が変わるのは面白いです。

ビジュアルテキスト  ビデオ内に視覚的に表示されるテキストを抽出します。
ビジュアルコンテンツモデレート  成人向けやわいせつヴィジュアルを検出します。相撲動画も引っかかってしまうおきまりのやつです。
ラベルの識別  動画内の小物や動作を識別してラベル化します。
顔検出  動画内に登場する人物の顔を認識して抽出しグルーピングします。
顔サムネイルの抽出  グループ化した顔の抽出情報を自動的に識別し、それをイメージ アセットとして抽出します。
著名人の識別  動画内に登場する世界に名だたる100 万人以上の著名人を自動的に識別します。
アカウントベースの顔識別  特定のアカウントのモデルをトレーニングしてモデルに基づいてビデオ内の顔を認識します。
スピーカーインデックス  どの話者がいつ映っているのかをタイムラインベースに抽出します。

 

音声・動画ベースの機能


Cognitive Serviceの機能を複合的に利用して情報を抽出する機能がメインです。個人的には動画によるセンチメント分析が気に入っているのですが取得できる感情がPositive・Nuetral・Negativeの3種類になってしまうので、もう少し細分化してとれるようになるといいなぁと思います。この機能を利用して動画のレコメンドを動画の内容から自動的に作成できれば面白いと思うんですよね。

ブランドの抽出  音声と視覚情報からブランドを抽出します。
センチメント分析  音声と視覚情報から、ポジティブ、ネガティブ、ニュートラルの感情情報を識別し抽出ます。

 

その他の機能


以下の機能はMedia Analiticsという2年くらい前にAzure Media Serviceに追加された分析機能です。Video Indexerの前身みたいな機能でそのままVideo Indexerに統合されていました。

ショット検出  ビデオ内でシーンが変化するタイミングを判定します。
ブラック フレームの検出  ビデオに表示されたブラック フレームを識別します。
キーフレームの抽出  ビデオ内の安定したキーフレームを検出します。

 

Video Indexer Developer PortalというサイトでissueやAPI、機能の確認を行うことができます。特にSwaggerでAPI定義を提供しているので開発するときには便利になります。

 

世界の事例

機能についておさらいしたので次に今年の9月にアムステルダムで行われたIBC2018(ヨーロッパ最大の放送機器展)でVideo Indxerを利用したサービスを展開している企業の事例が公開されていたので、それをベースに世界の事例を見ていきたいと思います。。

 

Prime Focus Technologies


 

Media&EnterTaiment(M&E)業界向けのコンテンツERPシステムを提供する企業です。放送事業者・スタジオ・ブランド及びサービスプロバイダー向けにコンテンツビジネスのプロセス自動化・管理・運用コスト削減のソリューションを提供しています。

 

 

この会社のERPシステムは年間150万時間のコンテンツを処理しているそうでその基盤としてAzureをふんだんに利用しているそうです。150万時間というと62500日分になるので大容量のストレージやスケーラビリティが必要となりクラウドとの相性がいいんでしょうね。Video IndexerのAI機能を利用してコンテンツ管理機能を充実させているそうです。

 

Dalet


Leading Media Asset Management (MAM) & Orchestration platform powers end-to-end workflow solutions for news, sports, program preparation & multiplatf...

 

メディアワークフローのサービス・ソリューション・ソフトウェアを提供する企業です。AIと機械学習を導入したエンタープライズオーケストレーションソリューションを得意としメディアワークフローの生産性向上を実現しています。

 

 

Dalet社は自社が持っている「Dalet Media Contex」という製品にVideo Indexerを統合しコンテンツのメタデータを自動的に抽出・付加してコンテンツの情報量を増やすような機能を提供しているそうです。コンテンツの情報が増えると分析やレコメンドに応用が利くのでコンテンツの洞察に役立ちます。

 

Empress Media Asset Management


 

共同編集やコンテンツ共有機能を含めた大規模組織向けのメディアワークフロー・ソリューション提供する企業です。M&E業界以外でも教育や政府向けソリューションを提供しています。

こちらも自社が持っている「eMAM」という市営品にVideo Indexerを統合してコンテンツのメタデータを充実させるために利用しているそうです。

 

Zoom Media


Zoommedia is specialized in developing cutting-edge speech recognition software. Our speech to text software transcribes audio in real-time or in batch mode

 

オランダにある自動音声認識技術(ASR)を開発・提供するスタートアップの企業です。マイクロソフト社とパートナーシップを結んでVideo Indexerの言語検出機能を拡張してオランダ語・スウェーデン語・デンマーク語・ノルウェー語を追加したそうです。

 

How does a partnership work between a Speech Recognition Developer like Zoom Media and a techgiant such as Microsoft? Where do these two seemingly completely...

 

北欧の方のネイティブ言語はVideo Indxerでは対応していないため利用するためには拡張が必要なのですね。日本語はあらかじめ対応しているので日本は恵まれていると思いました。

 

Twitterアカウントもあったのでリンクを張っておきます。

Zoom Media (@zoommedia247)さんの最新ツイート Specialists in custom made Artificial Intelligence, providing automatic speech recognition and cognitive analyti...

 

まとめ

Video Indxerはコンテンツ管理系に対して効力を発揮する機能であり、Cognitive Serviceを利用して副次的にコンテンツマネジメントを行う機能なのはご存知の通り一般的な認識だと思います。世界の事例でもコンテンツ管理で効果を発揮しているケースが殆どでした。Video Indexerの機能自体は使い方によっては非常に生産性を高めるものになりますが、その品質についてはまだまだです。その点でビジネスの実利用に耐えられない状況ではあると思いますが、事例が増えてきているので部分的な機能は徐々にビジネスに耐えうる品質になってきているんだと思います。

個人的に残念なのはGAしたのにVideo Indexerのモバイルバージョンがいまだリリースされていないことです。タブレット・スマホでVideo Indexerにアクセスすると近日公開予定と表示されます。モバイルバージョンが公開されればスマホで撮影した動画をそのままアップロードできて便利だと思うし、便利になれば利用者が増えて利用頻度も増えて、学習モデルとなる動画がたくさん上がって分析精度もあがってWin-Winだと思うので早く公開してほしいものです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください