画像生成AIは｢手｣を描くのが苦手。では、動画生成AIが苦手なものは？

2024.05.10 21:00
13,618

Matt Novak - Gizmodo US
［原文］
（そうこ）

画像生成AIは｢手｣を描くのが苦手。では、動画生成AIが苦手なものは？ — Gif: Microsoft / Gizmodo US

Microsoft（マイクロソフト）のリサーチチームが、新たなAIツール｢VASA-1｣に関するレポートを公開。VASA-1は、1枚の画像から動画を生成することができます。その性能はなかなかのもの。…よーく見なければ、の話ですけどね。

VASA-1とは？

VASA-1は、1枚の写真（人の顔）から、その人が話している動画を生成します。元になる画像も実在する人物である必要はなく、AI生成された架空の人物の画像でもOK。生成された動き話す動画は、表情や瞬きなど非常にリアルです。

画像を生成するAIは、現時点では手・指の描写が不得意だと言われていますが、動画生成AIにも、どうやら苦手なことがあるようです。

VASA-1サンプル動画を見て、何か気づきますか？

歯がヘンテコ

動画全体を見ていると気づきません。話し手の目を見ていると気づきません。が、1つ1つ細かく見ているとヘンテコなところがあるんです。

それは、歯。

どうやら、VASA-1は歯の描写が不得意のようです。

8371baa1b1c93457ab08fe1a670eb2a2 — Gif: Microsoft / Gizmodo US

歯の大きさや並びが定まらず、口の開閉によって伸びたり縮んだりしているように見えます。

VASA-1による別のサンプル動画を見ると、顔全体はリアルなのに、歯だけやっぱりどこかヘンテコ。

また別のサンプルの男性の場合、歯問題が軽減されているようですが、これは口を大きく開けずに話している影響なのかも。

高性能AI生成のリスク

VASA-1が優れていることの1つに、そのスピードがあります。OpenAIの動画生成AI Soraと比較すると、Microsoftいわく、レイテンシーはわずか0.17秒（NVIDIA RTX 4090 GPU搭載のデスクトップを使用）。現段階では、そのスピード感で動画サイズ512×512を最大50fpsで生成可能。ほぼリアルタイムで精度の高い生成動画を作れるということです。

リサーチチームは、VASA-1の性能の高さによって起こり得るフェイク動画問題も念頭においており、だからこそデモツールやAPI含め、一般公開には慎重な姿勢をとっています。（現段階ではVASA-1の一般公開予定なし。）

一方で、コミュニケーションの方法に問題を抱える人々のアクセサビリティの向上、必要な場合はセラピー視点での提供、教育の平等性の強化など、社会にとってプラスとなる使用シーンもレポートでは指摘しています。

Source: CB

画像生成AIは｢手｣を描くのが苦手。では、動画生成AIが苦手なものは？

VASA-1とは？

歯がヘンテコ

高性能AI生成のリスク

Pixelを買ったら｢まずやっておきたい｣8つの設定

GWはホラー映画を見よう。Netflix作品でおすすめの4作がこちら

Google公式を偽装した巧妙なフィッシングメール。絶対開いちゃダメ

Xiaomiさん本気かよ...、型落ちハイエンドスマホ｢14 Ultra｣が5万円値引きだって!?

AIコーディングツール｢Cursor｣で記事を書くようにしたら、“考える余裕”ができた

ベーシックが1着あればいい。春から夏まで重宝する、無印良品 3選

フグで遊ぶイルカたち。毒でキマっているらしい

任天堂法務部、ついに動く。ポケモン関連大規模リークの犯人捜しを本格化

Pixelを買ったら｢まずやっておきたい｣8つの設定

Google公式を偽装した巧妙なフィッシングメール。絶対開いちゃダメ

ChatGPT画像生成が無料開放。誰でもジブリ風イラスト作成可能に

トランプ関税が上乗せされたら。アメリカのNintendo Switch 2価格はえぐいことになる

漕いで、止まって、発電。“ほぼ無限”に走れる電動アシスト自転車

Amazon Prime Videoの広告を追加課金なしでカットする方法

ダイソーの耳かきカメラ｢耳の中を見ない｣使い方で輝いた

ロジテックスマートトラッカー

エレコム電源タップ VESA規格

Anker Zolo Power Bank

エレコム外付けSSD 250GB

Nothing Phone (3a) 8+128G

LATEST NEWS

水星からダイヤモンドがざくざく採掘できるかもしれない説

がんばるキュリオシティ。火星が暖かく、水も流れていたかもしれない証拠を発見

Galaxy S26 Ultraが最後のSペン内蔵モデルになるかも

アウトドアや災害時にきっと持ってて良かったと思える“三角形”

GIZMODO REVIEWS

アウトドアや災害時にきっと持ってて良かったと思える“三角形”

時速100km以下になると爆発。ネトフリ『新幹線大爆破』が面白くない、わけない

真夜中にそっと寄り添う、音質を底上げしてくれる相棒——RMEが生んだ小さな名機

たった700円で高圧洗浄スプレーが手に入る。ペットボトルに装着するだけ

メガネにつけるマウス｢JINS ASSIST｣はアリなのか？実際に試してみました

画像生成AIは｢手｣を描くのが苦手。では、動画生成AIが苦手なものは？

VASA-1とは？

歯がヘンテコ

高性能AI生成のリスク

ロジテック スマートトラッカー

エレコム 電源タップ VESA規格

Anker Zolo Power Bank

エレコム 外付けSSD 250GB

Nothing Phone (3a) 8+128G

LATEST NEWS

水星からダイヤモンドがざくざく採掘できるかもしれない説

がんばるキュリオシティ。火星が暖かく、水も流れていたかもしれない証拠を発見

Galaxy S26 Ultraが最後のSペン内蔵モデルになるかも

アウトドアや災害時にきっと持ってて良かったと思える“三角形”

GIZMODO REVIEWS

アウトドアや災害時にきっと持ってて良かったと思える“三角形”

時速100km以下になると爆発。ネトフリ『新幹線大爆破』が面白くない、わけない

真夜中にそっと寄り添う、音質を底上げしてくれる相棒——RMEが生んだ小さな名機

たった700円で高圧洗浄スプレーが手に入る。ペットボトルに装着するだけ

メガネにつけるマウス｢JINS ASSIST｣はアリなのか？実際に試してみました

ロジテックスマートトラッカー

エレコム電源タップ VESA規格

エレコム外付けSSD 250GB