VoMP: Predicting Volumetric Mechanical Property Fields
핵심 포인트
- 1VoMP는 3D 객체 전반에 걸쳐 Young's modulus ($E$), Poisson's ratio ($\nu$), density ($\rho$)와 같은 fine-grained 기계적 특성을 예측하는 최초의 feed-forward 모델입니다.
- 2이 모델은 SDFs, Gaussian Splats, NeRFs 등 다양한 3D 표현을 입력받아 multi-view feature를 집계한 후, Geometry Transformer를 통해 MatVAE로 학습된 물리적으로 타당한 재료 잠재 공간에 있는 per-voxel material latent codes를 예측합니다.
- 3VoMP는 정확한 volumetric properties를 추정하여 3D 객체를 시뮬레이션 준비 asset으로 변환하고, 이를 통해 사실적인 deformable simulation을 가능하게 하며 기존 방법론들보다 훨씬 우수한 성능을 보여줍니다.
VoMP(Volumetric Mechanical Property fields)는 3D 오브젝트의 볼륨 전반에 걸쳐 미세한 기계적 특성, 즉 Young's modulus(), Poisson's ratio(), 밀도()를 예측하는 최초의 Feed-forward 모델입니다. 기존의 물리 시뮬레이션은 이러한 공간적으로 변화하는 기계적 특성을 수작업으로 정의해야 하는 laborious한 과정을 거쳤습니다. VoMP는 이 과정을 자동화하여 3D 오브젝트를 시뮬레이션 가능한 asset으로 변환하고 realistic한 변형 시뮬레이션을 가능하게 합니다.
VoMP는 Signed Distance Fields(SDFs), Gaussian Splats, Neural Radiance Fields(NeRFs) 등 렌더링 및 Voxelize가 가능한 모든 3D representation을 지원합니다. 이 모델은 다음의 core methodology를 따릅니다.
- MatVAE(Material Variational Autoencoder) 학습:
- 먼저 MatVAE라고 불리는 VAE를 학습시킵니다.
- 이 VAE는 100,000개의 physically-valid한 triplets 데이터셋을 사용하여, 이러한 물리적 특성들의 2D latent space를 학습합니다. 이 latent space는 물리적으로 타당한 재료 특성들로 구성된 manifold를 형성하여, 모델이 예측하는 특성들이 현실적이고 유효함을 보장합니다.
- Input Processing 및 Feature Aggregation:
- 입력으로 주어지는 3D representation(예: Gaussian Splats)은 다양한 viewpoints에서 렌더링됩니다.
- 렌더링된 이미지를 기반으로 3D 오브젝트는 Voxelize됩니다.
- 각 Voxel에 대해 multi-view image features가 aggregate되고 Voxel space로 reconstruction됩니다. 이는 2D image의 visual information을 3D Voxel 그리드에 mapping하는 과정으로, Voxel이 주변 환경 및 재료에 대한 rich한 contextual feature를 갖게 합니다.
- Geometry Transformer를 통한 Latent Code 예측:
- Image features가 부여된 이 Voxel들은 학습된 Geometry Transformer의 input으로 사용됩니다.
- Geometry Transformer는 각 Voxel에 대해 per-voxel material latent codes를 예측합니다.
- 이때 예측된 latent codes는 앞서 MatVAE가 학습한 2D latent space, 즉 physically plausible한 재료의 manifold 내에 존재하도록 constrains됩니다. 이는 예측의 physical validity를 강화합니다.
- Per-Voxel Material Properties Decoding:
- Geometry Transformer가 예측한 per-voxel material latent codes는 MatVAE의 decoder를 통해 최종적으로 Young's modulus(), Poisson's ratio(), 밀도()와 같은 per-voxel material properties로 decoding됩니다.
트레이닝 데이터는 segmented 3D datasets, material databases, 그리고 Vision-Language Model의 지식을 결합한 annotation pipeline을 통해 object-level로 구축됩니다. VoMP는 정량적 및 정성적 실험에서 baselines (NeRF2Physics, PUGS, Phys4DGen, PIXIE 등)보다 훨씬 우수한 volumetric property fields를 예측하며, 이를 통해 realistic한 물리 시뮬레이션을 구현할 수 있음을 입증합니다.