Detection Models(検出モデル)
原文に掲載されているモデル説明のうち、ここでは抜粋して日本語化します。
Audiovisual Model
DARL (v1.0)
- Type: Audiovisual
- Focus: Speech-Lips Synchronization
- Description: 発話音声と口唇運動の時間的整合を解析し、ズレを合成/改ざんの兆候として検出します。
Visual Models
DBaG-Net (v1.0)
- Type: Visual
- Focus: Facial Geometry
- Description: ランドマークや比率など、生成過程で混入しやすい幾何学的な不整合を検出します。
Atten-ViT (v1.0)
- Type: Visual
- Focus: Spatial Artifacts
- Description: Vision Transformer を用い、テクスチャの不自然さやブレンド痕などの微細な不整合を捉えます。