SIGGRAPH2019 / Vol.03

最新鋭の映像機器、VR応用の最先端

2019.08.20

txt：安藤幸央　構成：編集部

新しい映像配給チャネル、Netflixが考えるCG/VFXと、ストリーミングの勘所

SIGGRAPHのプロダクションセッションと言えば、映画のメイキングが紹介されるのが一般的であった。近年Netflixをはじめとするオンデマンドネット配信サービスの存在感が増してきており、今年は「The VFX of Netflix Series」と銘打った、Netflix作品の中でVFX活用に関するセッションの企画が用意されていた。

Netflixのセッションは「レモニー・スニケットの世にも不幸なできごと」、「アンブレラ・アカデミー」、「ストレンジャー・シングス未知の世界」の制作の背景を紹介するもので、映画並みの大規模な予算をかけたNetflix発のドラマ、Game of Thronesのセッションとともに注目を浴びていた。

■「レモニー・スニケットの世にも不幸なできごと」を担当したDigital DomainのVFX Breakdown（特殊効果の種明かし）

■「アンブレラ・アカデミー」を担当したWeta DigitalのVFX Breakdown（特殊効果の種明かし）

セッションで語られていた主な内容としては次のとおり。

Netflixでは潤沢な予算とともに、クリエイターたちの個性を重視した番組を数多く手がけている。ごく普通に見える背景やセット、キャラクターでも、相当数のショットはCG/VFXが活用されている。CG/VFXショットは通常のドラマよりもかなり多く、世界中のCGプロダクションで手分けして作業している。制作も世界中で行われ、レビュー（映像の出来具合の確認）も世界中で行われたため、SHOTGUNという進行管理のツールが欠かせなかった。

よく映画なみの予算とは言われているが、実際には予算に厳しい制限があること、4K解像度前提でエピソードを何話も作らなければいけないという制約があること。数ヶ月の間に何本分もの撮影と、ポスト処理を行わなければならず、映画制作に比べて極端にスケジュールが短いという制約からは逃れられないことが語られた。

それらの制約を少しでも緩和するために、制作のパイプラインを工夫し、前行程の作業が終わる前にできるだけ先の作業に着手できるように改善されているそうだ。ストリーミング配信であるということや家庭用テレビやモバイル端末で観られるということは特に意識せず、映画館の大画面で観るのと同じように洗練された映像作品を作ろうという気概で制作しているとのこと。

論文発表から、最新の映像技術を紹介

SIGGRAPHの本文は学会であり、毎年の論文発表は研究者のみならず、ツールメーカーや、アーティストの面々にとっても映像制作の傾向と将来を知るうえで重要な役割を占めている。SIGGRAPHはトップカンファレンスと呼ばれる最高峰の学会のひとつで、論文採択率が約2割という狭き門である。最近はアカデミックな研究者に加えてAdobe、Amazon、Google、Facebookといった企業からの論文が多くなっている。

■SIGGRAPH論文のダイジェスト動画：今年の主立った論文紹介を短時間で見ることができる（約3分）

■SIGGRAPHの全論文を1本につき30秒という短い時間で紹介するFast Forwardの収録動画（約1時間半の収録動画）

■SIGGRAPH論文集の要約（各論文の最初の1ページ）（約98MB：無料ダウンロード）

■SIGGRAPH論文への研究者、デモ動画、論文、サンプルプログラムのリンク集

今年の論文は世界30ヶ国から385本の投稿があり合計142本の論文が発表された。その中から、とくに映像系、画像処理系の技術をいくつか紹介する。

■Handheld Multi-Frame Super-Resolution

スマートフォン向けの撮影写真を高解像度に補正する技術。バーストモード（連写）で撮影した画像から、わずかな差異やわずかな手ブレを利用して、補正を可能にする。従来から、ビデオカメラで撮影した動画をもとに高精細な画像を再構成する手法は知られていたが、それをスマートフォンカメラ向けに最適化したのが本研究。グーグルのフラグシップスマートフォンPixel3のカメラ機能Super-Res ZoomやNight Sightモードで使われている技術。

■Synthetic Defocus and Look-Ahead Autofocus for Casual Videography

映画のような被写界深度の浅い、背景のボケた動画をスマートフォンカメラで撮影したような動画に、リアルタイムに合成する技術。まずはスマートフォンで撮影た被写界深度の深い、オートフォーカスされた動画をRefocusable Video Rendering（RVR）という技術を用いて、背景のボケた素材を用意する。その上で喋っている人や、動いている動物などの動きを予測し、そこにはフォーカスをあてたままで、そのほかの背景は先ほどのボケた素材を合成するのだ。HDR（ハイダイナミックレンジ）の要素も保たれるのが特徴。

■Distortion-Free Wide-Angle Portraits on Camera Phones

集合写真で端に写っている人の顔が歪んでみえる現象を緩和するための技術。最近のスマートフォンに搭載されているような広角のカメラで撮影した場合、画像周辺部分が歪んで撮影されてしまいます。これが風景などの場合それほど気になりませんが、人の顔の場合、とくに違和感を感じてしまいます。

この研究では、写真に映っている複数の顔に特化し、ほかの背景や撮影物には影響を及ぼさず、顔のみ正しく撮影されたかのように修正する技術です。動作も軽く、スマートフォン上でも動作するものです。70°から120°の視野角に対応。

■Text-based Editing of Talking-head Video

インタビューやドキュメンタリーの映像を編集する際、最近ではYouTuber映像などで、不要な間を削ったり、言いよどみや、言い間違いを削ったりといった映像編集が行われる。この研究では、あらかじめ喋った映像と文字起こしされたテキストを元に、削りたい言葉、修正したい言葉をテキストベースで修正・編集することで、その言葉を喋っている映像の方も自動的に修正・編集されるとても便利な技術。通常であれば、単にカットするかフェードイン・アウトで映像を繋いで修正するところを、あたかもスムーズに喋っているかのような映像・音声に修正することが可能。

あくまで差し替えられる音声や口の動きはもともと撮影された本人のものをデータとして使うため、ゼロから合成できるわけではなくある程度の収録動画と、その動画の機械学習が必要。修正しすぎによる倫理的な課題も生じるが、現場からすると、すぐにでも使いたい技術かもしれない。現状の課題としては、顔以外の撮影物、例えば手ぶり身振りなどは音声にあわせてうまく合成できない点だそう。

■Multi-view Relighting using a Geometry-Aware Network

野外のシーンで撮影した動画像を、日照条件の違う時に撮影したかのように、照明環境を修正・合成する技術。昼間に撮影した映像にフィルターをかけたり、色調調整して夜に見える映像として編集することは可能だが、本研究では、太陽光が照らしている方向や、影が伸びる方向や様子などまでが自由に変更できる。

この技術の応用例としてはフォトグラメトリで撮影されたモデルから自由な太陽の位置、影で映像を作成したり、ドローンで撮影した時間帯の異なる映像から、単一の時間帯のシーンを再合成するといったことが考えられる。素材としては最少1枚の写真から利用できる技術であり、さまざまな応用が期待される。

■Stylizing Video by Example

実写動画から絵画風、アニメ風の動画を平易に実現する技術。動画像の1シーンをもとにペイントツールを用いてアーティストが描いた絵画やアニメ画を用意すると、動画像の全編、その描いた素材画像風のテクスチャや筆使いのテイストに変換してくれる技術。ここで紹介されているような動画を制作する場合、従来であれば、1フレーム1フレームアーティストがペイント作業を行う必要があったが、本研究では圧倒的手軽さで実現されている。

■Interactive and Automatic Navigation for 360° Video Playback

▶Interactive and Automatic Navigation for 360° Video Playback（動画）

一般的な360°、実写VR動画を観る場合、その一部を切り取って2Dディスプレイに表示して見る。これはHMD（ヘッドマウントディスプレイ）を用いても状況は同じで、一度に360°全面を観ることはできず、視線方向、注目しているもの、頭の動きによって、ある一部分を切り取ってみることになる。YouTube等でも360°動画を観ることができ、左右に視点を動かしてみることができるが、その際も一部切り取られた正面の映像のみで、後ろ側になにか重要なものが映っていたとしても気がつかない。

本研究では、360°映像の中から観るべきもの、いわゆる演出によって決められたカメラパスのような軌跡を自動抽出し、360°映像を黙って見続けていたとしても、左右にパンされ、観るべき映像が画面の中央に配置されるという便利な仕組み。ユーザー調査の結果によると、従来型の自由に見て回れる360°動画よりも映像演出が効いて、観るべき場所が自然と画面内に収まる動画の方が満足度が高いようだ。

先端的な研究開発中のディスプレイ装置など、さらに盛りだくさんの話題は、続くレポートで紹介する。

txt：安藤幸央　構成：編集部

◀Vol.02 [SIGGRAPH2019] Vol.04▶