大日本印刷が開発する「感情表現字幕システム」
映像をAIで解析して臨場感を伝える

耳の不自由な人や音が出せない環境にいる人にとって、テレビ番組などを楽しむのに欠かせないのが「字幕」である。近年では、多くの人にわかりやすく情報を伝える「ユニバーサルメディア」へのニーズも高まっているそうで、テレビも聴覚に障がいのある人や高齢者などに向けて、より多くの番組への字幕付与が求められているという。

▲一般的な字幕

しかし、一般的な字幕はただ文字が並ぶだけで、番組の臨場感を伝えることは難しい。そこで大日本印刷NHKテクノロジーズと共同で開発したのが、映像と音声をAIで解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプだ。

▲顔の表情を解析して感情に適したフォントを自動表示(同じセリフでも感情の違いをフォントで表現)
上:「不安」の感情、下:「楽しい」の感情

この字幕システムでは、録画やライブ(生放送)の音声を解析して、リアルタイムで字幕を自動的に付与。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類の中から自動で選んで字幕に使用してくれる。

▲12種類の感情・イメージの分類と使用フォントの組み合わせ例

例えば、楽しい内容では丸みのあるフォントを使い、怒っている内容では角ばったフォントで表示するなど、視聴者により直感的に内容を伝えることができる。さらに、映像内の発話者を特定して、自動的にその口元の近くに字幕を表示することができる。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることが可能となる。

両社は「感情表現字幕システム」の開発を継続し、字幕放送(視聴者側でON/OFF操作ができないオープンキャプション)での実用化を目指すという。音声認識や感情認識のAIの精度を向上させるほか、多言語対応やリアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(ON/OFF操作ができるクローズドキャプション)への展開も目指すとしている。

また、大日本印刷は、動画配信サービスやデジタルサイネージなどの動画の字幕に応用するほか、デザインやフォントの知識がない人でも利用できる映像編集用ソフトウェアの提供計画も進めている。End