202011

“高音質”インターネット動画配信
システム「Live Extreme」

株式会社コルグ執行役員/技術開発部 部長大石 耕史

概要

従来の動画配信プラットフォームは、音声はAACなどで不可逆圧縮されている場合が多く、音質が課題とされてきました。当社は、最大4Kの高解像度映像とともに、ハイレゾ・オーディオをライブ配信できる音質重視の動画配信システム「Live Extreme」を開発いたしましたのでご紹介します。

ABSTRACT

Although many of the current available live streaming platforms offer high-resolution video, the audio is usually in lossy compressed formats such as AAC, resulting in a lower audio quality. In this paper, we introduce our brand new “Live Extreme” system which makes it possible to livestream high-resolution video up to 4K UHD, accompanied by high-resolution audio.

1. はじめに

新型コロナ・ウィルスの感染拡大防止の観点から、コンサート会場に観客を集めるのではなく、インターネットを利用したストリーミング配信を行うミュージシャンが増えつつあります。しかし、従来の動画配信プラットフォームは映像が高解像であっても、音声はAACなどで不可逆圧縮されている場合が多く、音質面で十分満足できるものではありませんでした。

コルグは、2006年以降15年にわたり、各種ハイレゾ・オーディオ・フォーマットに対応したマスター・レコーダーやDAコンバータ、ソフトウェアを数多く発売してきました。また、2015年4月には世界初となる「DSD 5.6MHzハイレゾ音源によるライブ・ストリーミング配信」(音声のみ)に対応したライブ・エンコーダーとストリーミング・プレイヤーを開発し、同年12月より、株式会社インターネットイニシアティブ(以下IIJ)の個人向けハイレゾ・ストリーミング・サービス「PrimeSeat」にも提供しております。[参考文献1]

そして、コルグがこれまで培ってきたオーディオ技術やインターネット・ストリーミング技術を活かし開発したのが、今回ご紹介する「Live Extreme」です。最大4Kの高解像度映像とともに、高音質なロスレス・オーディオをはじめ、さらに高品位なハイレゾ・オーディオ(最大PCM 384kHz/24bitおよびDSD 5.6MHz)をライブ配信できる世界初*の画期的なシステムとなっています。

* サンプリング周波数96kHzを超えるハイレゾ・オーディオに対応したインターネット動画配信システムとして(コルグ調べ)

2. 代表的な動画ライブストリーミング配信サービスの音質

4K対応、60fps対応、HDR対応、360度VR動画対応など映像面での進化が著しい動画配信プラットフォームにおいて、音声に割り当てられるビットレートはここ10年それほど変わっておらず、動画における音声のプレゼンスは相対的に低下していると言えます。

【図2-1】は代表的なライブ動画配信プラットフォームの音声ビットレートを比較したものです。LPCMとAACを単純比較することはできませんが、2011年に終了したBSアナログ放送のBモードと比較して、現在はいかに低いビットレートで音声が配信されているかお分かりいただけると思います。

journal2011_03_02
【図2-1】ライブ動画配信プラットフォームの音声ビットレート

その一方で、コロナ禍において、ライブ・ストリーミング配信における音質を向上させようという動きも見られるようになってきました。2020年7月30日に、MUSIC/SLASHが「Tatsuro Yamashita Super Streaming」をBSデジタル放送を超えるAAC 384kbpsで配信したのに続き、10月3日にはU-Nextが「40th Anniversary Seiko Matsuda 2020 “Romantic Studio Live”」をAAC 448kbpsで配信。にわかに高音質配信が注目を集めはじめています。

3. ハイレゾ音声による動画ライブストリーミング配信の前例

しかし、AACの高ビットレート化による音質向上には限界があり、さらに高音質化するにはロスレス・オーディオやハイレゾ・オーディオでの配信が理想的です。じつは動画ライブストリーミング配信の音声をハイレゾ化する試みは10年以上前から行われていますが、ここ数年で活発化してきました。ここでは、いくつかの前例をご紹介します。

3.1 117th AES Conventionでの公開実験

2004年10月31日に「117th AES Convention」で行われた公開実験では、マギル大学の「Ultra-Videoconferencing」というシステムを応用し、マギル大学(モントリオール)からカリフォルニア大学(サンフランシスコ)に2.8MHz×4chのDSD信号と270MbpsのSDI映像をライブ配信しています。[参考文献2] この実験では、CA*net4(カナダ)とInternet2(アメリカ)という、その時点での次世代インターネットのためのリサーチ用回線上でUDPによって1:1の伝送がなされていましたが、現在のストリーミング配信は商用インターネット回線上でマルチクライアントに対して1:Nでの放送をTCP/IPで行うのが基本であり、本手法はあくまでも研究レベルのものだったと言えます。

3.2 OTOTEN2017/2018におけるデモ

OTOTEN2017では、日本オーディオ協会によって、東京国際フォーラム5階ホール特設ステージから地下1階ロビーギャラリーへ、4K映像(H.265/HEVC)とハイレゾ音声(MPEG-4 ALS 96kHz/24bit)をライブ配信する実証実験が行われています。ただし、これは同一LAN内でのIP伝送による実験でした。[参考文献3]

翌年のOTOTEN2018では、ラディウスが開発した「LIVEWARP」というストリーミング配信システムで、神楽坂のライブホール「TheGLEE」から東京国際フォーラムに2K映像とハイレゾ音声(MPEG-4 ALS 96kHz/24bit)をリアルタイムに配信するデモが行われました。[参考文献4] これが映像付きの96kHz音声を遠隔配信した初めての例になると思われます。

3.3 4K映像とハイレゾ音声の遠隔地への配信

4K映像とハイレゾ音声の組み合わせについては、2018年8月1日に、NTTとNTTスマートコネクトが、PMFオーケストラ東京公演(サントリーホール/東京都)を4K映像(H.265/HEVC)とハイレゾ音声(MPEG-4 ALS 96 kHz/24 bit)で配信し、遠隔地のコンサート会場(六花亭札幌本店ふきのとうホール/札幌市)でライブビューイングを行った記録が残っています。[参考文献5]

さらに2019年2月28日には、IIJがベルリン・フィルハーモニー・ホールで行われたベルリン・フィルのリハーサル(通し稽古)の4K HDR映像(H.265/HEVC)とハイレゾ音声(MPEG-4 ALS 96kHz/24bit)を、遠く日本にインターネットでライブ・ストリーミング配信する試みに成功しています。[参考文献6]

このようにハイレゾ音声を含む動画のライブ配信の前例はいくつかありますが、いずれも1:1でのパブリックビューイング形式で行われたため、それを実際に体験できた人は限られていました。従来のシステムでは再生に専用のアプリケーションが必要であったことが、不特定多数へのハイレゾ配信が実現しなかった要因の一つであると考えられます。

4. Live Extremeの特長

コルグにおける“高音質”動画配信システムの研究開発は、PrimeSeatのDSD 11.2MHz対応やiOS再生アプリなどの開発がひと段落した2019年1月頃にスタートしました。PrimeSeatでの経験や、従来のハイレゾ対応動画配信システムの課題をふまえ、「ウェブ・ブラウザで再生可能なシステム」を第一の目標としました。

2019年12月の「1ビット研究会」において、当時まだ研究段階だったシステムをプレビュー的に披露していますが[参考文献7]、システムが完成し、プレス発表できたのは2020年9月。皮肉にもコロナ禍において、ライブ・ストリーミング技術に注目が集まっている最中でした。ここでは「Live Extreme」のシステムの特長についてご紹介します。

4.1 配信システムの概要

【図4-1】にLive Extremeのシステム概略図を示します。コルグが新たに開発した「Live Extreme Encoder」は、ライブ会場の映像と音声をUDP、RTMPなどの中間プロトコルなしに、ユーザーが直接視聴する形式(4K映像+ハイレゾ音声を含むMPEG-DASH)でHTTPサーバーにリアルタイムに配信することができます。

視聴者はPCやスマートホン、タブレット、STB(セットトップ・ボックス)に搭載されているウェブ・ブラウザを使い、インターネットを経由して、自宅にいながらコンサート会場で聴いているような臨場感のある高品質な音声と映像を楽しむことが可能です。


【図4-1】Live Extremeシステム概略図

4.2 Live Extreme Encoderの仕様

【図4-2】の中央にある3Uの機材が本システムの要となるLive Extreme Encoderです。これ1台で、映像と音声のキャプチャ、映像と音声の同期、動画フレーム変換、エンコード、配信用データの生成、配信サーバーへのアップロードまで完結させることができます。

実はLive Extreme Encoderは完全にソフトウェア・ベースで開発されており、写真のエンコーダーも既存の動画キャプチャ・カードを搭載したWindows 10 PCに過ぎません。Live Extreme Encoderを実行する上で、唯一のハードウェア上の制限は「QuickSync Videoに対応したIntel Coreプロセッサ(Haswell以降)が必要」ということだけです。

ソフトウェア・ベースであることには、

  1. システム構築の際の導入コストを低く抑えることができる
  2. 最新の技術を取り入れたり、導入先の都合に応じてカスタマイズすることが容易
  3. 万が一、デバイスが故障しても、市場からすぐに代替品を調達することができる

といったメリットがあるほか、将来的には配信事業者(企業)ではなく一個人による配信も視野に入れることができます。


【図4-2】Live Extreme Encoder

【表4-1】に、Live Extreme Encoderの主な仕様をまとめています。動画コーデックにはH.265ではなくH.264を、音声コーデックにはALSではなくFLACとALACを採用している点が、従来のシステムと異なっています。これはLive Extremeが広くウェブ・ブラウザでの再生を目指したシステムであるためで、【表4-2】の各ウェブ・ブラウザのコーデック対応状況をご覧いただければ、この選択の理由がお分かりいただけると思います。

ところで、Live ExtremeはFLACとALACの2種類の音声ストリームを同時に配信することができるようになっています。これは、主要ブラウザの1つであるApple SafariのFLAC再生にバグが発見されたためで[参考文献8]、後述するストリーミング・プレイヤーはSafariではALACを、それ以外ではFLACを再生するように設計されています。

【表4-1】Live Extreme Encoderの仕様
配信方式 MPEG-DASH
ライブ配信&オンデマンド配信に対応
動画仕様 入力インターフェイス 12G-SDI
HDMI 2.0b
解像度 フルHD (1920×1080, 最大60fps)
4K UHD (3840×2160, 最大30fps)
フォーマット H.264 High Profile
音声仕様 入力インターフェイス 12G-SDI (embedded audio)
HDMI 2.0b (embedded audio)
任意のASIOデバイスを接続して、XLR, RCA, AES/EBU, SPDIF等から入力することも可能
PCMフォーマット 44.1kHz/16bit~384kHz/24bit, ステレオ
FLACおよびALAC (Apple Lossless)
DSDフォーマット 2.8224MHzまたは5.6448MHz, ステレオ
(DSD over PCM Frames v1.1準拠)
【表4-2】各ウェブ・ブラウザの主な動画・音声コーデックの対応状況
Container Codec Chrome Firefox Opera Edge Safari
video/mp4 H.264
H.265 × × ×
video/webm VP8 ×
VP9 ×
AV1 × ×
audio/mp4 AAC
ALS × × × × ×
FLAC
ALAC × × × ×
audio/webm Vorbis ×
Opus ×

(2020年11月現在/コルグ調べ)

4.3 高音質を実現するための3つのポイント

Live Extremeを“高音質”動画配信システムと呼んでいるのは、ロスレスやハイレゾ・オーディオに対応しているからだけではありません。動画配信の音質を向上させるには、入り口から出口までの各ステップで音を適切に扱う必要があり、前段で劣化してしまった音を後からハイレゾ化してもあまり意味がありません。私は、各種オーディオの扱いについては、ビデオ・メーカーや通信業者が作ったシステムよりも、オーディオ・メーカーが作ったシステムの方に一日の長があると思っています。

以下にLive Extremeにおいて高音質を実現するために実施している3つのポイントを挙げます。

(1) 外部オーディオ・インターフェイスへの対応

ビデオ機器に搭載されているオーディオ入力端子よりも、オーディオ専用機器の方が、S/Nや周波数特性、クロック精度に優れたものが数多く存在しています。Live ExtremeはSDIやHDMIのビデオ信号に重畳されたオーディオ信号(embedded audio)以外に、USBオーディオ・インターフェイスなど外部オーディオ機器からオーディオ信号を取り込むことができます。DS-DAC-10RやNu Iなどコルグ製品はもちろんのこと、ASIOにさえ対応していれば、他社の製品もLive Extreme Encoderのオーディオ入力装置として使用することができます。

(2) オーディオ・クロックを軸としたソフトウェア設計

ハイエンド・オーディオ製品に求められるクロックの精度は、ビデオ・クロックの精度に比べ、遥かに高いものとなっています。それほどオーディオはジッターに対して繊細であるにも関わらず、ビデオにオーディオを重畳する装置(エンベデッダ)の内部で、オーディオ・クロックをビデオ・クロックからPLLで生成したり、ビデオと同期させるために、オーディオ信号にSRC(サンプルレート・コンバータ)が掛かってしまうことも決して珍しいことではありません。これは音質の犠牲を伴う重大な問題です。

Live Extreme Encoderは、この問題に対処するため、内部にコルグ独自の同期補正機能を有しています。この機能により、ビデオ・クロックとオーディオ・クロックが同期していなくても、時間経過とともに絵と音がずれることがありません。このため、Live Extremeによる配信では、外部クロックがオーディオ的に十分な品質のものでない限り、オーディオ機器をフリーランさせることを推奨しています。

Live Extremeはビデオにオーディオを合わせるのではなく、オーディオにビデオを合わせる「オーディオ・ファースト」の設計思想が貫かれています。これにより、ビデオ・クロックの存在がオーディオ信号を劣化させることはなく、動画配信システムとはいえ、PrimeSeatなどオーディオ専用のシステムと同等の音質を実現しています。

(3) ロスレス・オーディオやハイレゾ・オーディオへの対応

このように入り口から内部プロセスまで徹底的に音質に拘った上で、最終的に入力デバイスのサンプルレートを保持したままFLACやALACにロスレス圧縮されます。FLACやALACであれば、当然ながら圧縮による音質の劣化はありません。尚、DSDサンプリングの場合は、DoP(DSD over PCM Frames)形式でFLACコンテナに格納されます。

4.4 ストリーミング・プレイヤーの特長

Live Extremeのストリーミング・プレイヤーはJavaScriptで書かれているため、既存の多くの主要ウェブ・ブラウザ上で動作が可能です。この仕様は、ネイティブ・アプリケーションに比べ、以下のようなアドバンテージがあります。

  1. 再生環境のマルチプラットフォーム化が容易で、メンテナンス・コストも低く抑えることができる
  2. 既存のウェブサイトやSNSからのサービス導線に優れている(プレイヤーをウェブページ内に埋め込むことも可能)
  3. 課金システムやデータベース、DRMなど既存のWEBインフラを活用できる
  4. (JavaScriptコードは、オープンソースでの提供となるため)配信事業者自身がプレイヤーを自由にカスタマイズすることもできる

ただしiPhone搭載のブラウザ(Safariを含む全てのブラウザ)は、MSE(Media Source Extensions)というHTML5規格に非対応のため、Live Extreme のストリームを再生することができません。このため、コルグではiPhone専用の「Live Extreme再生アプリ」も開発中です(リリース時期未定)。

またChromecast用の再生アプリについても開発済みで、既にサーバーサイドで稼働中です。視聴者はPCやAndroidにインストールされたChromeブラウザから、Live Extremeのコンテンツを大型TVにキャストして楽しむことができます。

【表4-3】Live Extremeの再生対応環境

デバイス / OS アプリ 対応
Windows 10 Edge
Chrome
Firefox
Opera
macOS Safari
Chrome
Edge
Firefox
Opera
デバイス / OS アプリ 対応
iPhone (iOS) Safariほか ×
Live Extreme*
iPadOS Safari
Android Chrome
Edge
Firefox
Opera
Fire TV Silk
Firefox
Chromecast
Apple TV ×
Android TV Chromecast

2020年11月現在
 ◎: ハイレゾ再生に対応
 ○: ロスレス(48kHz)再生に対応
 ×: 非対応
*KORGカスタムアプリ(開発中)

5. Live Extremeを使った配信実績

2020年11月現在、Live Extremeを使った配信は実証実験を含め2回行っています。いずれもインターネットを経由した不特定多数への無料配信でした。

5.1 キング関口台スタジオからの実証実験配信

2020年10月25日に、IIJ、キングレコード、コルグの3社合同で、ハイレゾ・オーディオと4K映像を組み合わせてライブ配信する実証実験を行いました。これはLive Extremeを使った初の配信であると同時に、ハイレゾ音声つき動画をインターネットを通じて不特定多数にライブ配信する世界初の技術的チャレンジでした。[参考文献9] 収録会場は音楽専用レコーディング・スタジオ「キング関口台スタジオ」のStudio 1、出演者にはNHK交響楽団首席ホルン奏者の福川伸陽さんと、ピアニストの阪田知樹さんが選ばれました。

当日はスタジオに3台のLive Extreme Encoderと市販のHLS配信機材を持ち込み、以下の6種類のフォーマットで同時にライブ配信しました。

  1. 4K (H.264) + DSD 5.6MHz *メディア向けのデモ展示のみ
  2. 4K (H.264) + PCM 192kHz/24bit (FLAC, ALAC)
  3. 4K (H.264) + PCM 48kHz/24bit (FLAC, ALAC)
  4. Full HD (H.264) + PCM 96kHz/24bit (FLAC, ALAC)
  5. Full HD (H.264) + PCM 48kHz/24bit (FLAC, ALAC)
  6. Full HD (H.264) + AAC *iPhone向けHLS配信

マイクはNeumann製のものを6本使用。調整卓はスタジオ常設のSolid State Logic SL-0972Jで、HAは調整卓のものが使われました。コンプも使わない、ミニマルかつフル・アナログ構成での収録となり、まさにDSD向きの生々しい配信となりました。

配信はIIJのバックボーン、CDN(Content Delivery Network)を経由して行われ、ライブ配信終了後には約2週間のオンデマンド配信も実施しました。視聴者数はライブと合わせて約2,500人に上りました。

5.2「KORG Presents TENDRE x Live Extreme」

コルグ系列の音楽専用リハーサル・スタジオ「G-ROKS」には、既にLive Extremeの配信システムが導入されており、今後定期的にライブ配信することが計画されています。その記念すべき第1回目として、今注目の若手アーティストであるTENDREのスタジオ・ライブが、2020年11月14日にG-ROKSのStudio 1より配信されました。

映像制作・演出は、コロナ禍で話題となった配信ライブ「新生音楽(シンライブ)」の演出家としても知られる石原淳平さん(Graphers’ Group, Directions)が担当。サウンド・エンジニアとして葛西敏彦さんと米津裕次郎さんが参加するという非常に豪華な顔ぶれとなりました。

キング関口台スタジオからの配信と異なり、今回はデジタル・シンセを使ったポップス系の音楽ということで、どのように収録するかが議論の的となりました。DSDやハイレゾにこだわってアナログ・ミキサーを使うということも検討されましたが、最終的には、出演アーティストに合った音作りの自由度という観点から、スタジオ常設のデジタル・ミキサーYamaha CL5を使用することにしました。ただし、48kHz動作のデジタル・ミキサーの出力をそのまま配信するのではなく、ビンテージのアナログ機材(アウトボード)を使い、音を調整した上でDSDにAD変換するという、DSDマスタリングの手法をライブ配信の現場に持ち込んだ、非常に斬新な取り組みとなりました。

配信フォーマットはキング関口台スタジオでの実証実験の時と同じ6種類でしたが、前回はメディア向け展示のみだった4K+DSD配信についても、今回はコルグのショールームである「KORG Experience Lounge Shibuya」でライブ・ビューイングを行い、初めて一般公開されました。

6. まとめ

Live Extremeの登場により、高音質な動画配信は誰でも体験できるものとなりました。このシステムは今のところKORGブランドでの一般販売の予定はなく、まずはエンタプライズ向けの技術提供という形で広く普及を目指します。(システムの利用・導入に関するお問い合わせ先:live-extreme@korg.co.jp)

今回、オール・イン・ワンのライブエンコーダーをソフトウェアベースで実現できたことの技術的意味合いは大きく、ウェブ・プラットフォームさえ整備すれば、将来的に誰でも市販のオーディオ・インターフェイスとカメラで、ハイレゾ・ライブ・ストリーミングできるような未来が切り開けるかもしれません。

参考文献

執筆者プロフィール

大石 耕史(おおいし こうじ)
2002年、株式会社コルグ入社。シンセサイザーの開発を経て、2004年より1ビットオーディオの研究開発を行い、その成果物としてMRシリーズやAudioGate、PrimeSeat等をリリース。2017年より現職。同社の新規技術や新機軸商品の開発を手掛ける