I think several point clouds of a single statue is not enough for training deep descriptors. I suggest to directly use pairwise registration models such as Geotrainsformer pre-trained on object-level datasets such as ModelNet40 to solve the pairwise registrations.
And adopt SGHR’s transformation synchronization section to solve the global consistent scan poses.

  • Human Radiance Fields
  • 3D Clothed Human Reconstruction | Digitization



  1. Depth&Normal Estimation(2K2K)
  2. Implicit Function(PIFu or NeRF)
  3. Generative approach Generative Models Reconstruction

Awesome Human Body Reconstruction

Method 泛化 数据集监督 提取 mesh 方式 获得纹理方式
2k2k 比较好 (mesh+texture:)depth、normal、mask、rgb 高质量深度图 —> 点云 —> mesh 图片 rgb 贴图
PIFu 比较好 点云(obj)、rgb(uv)、mask、camera 占用场 —> MC —> 点云,mesh 表面颜色场
NeRF rgb、camera 密度场 —> MC —> 点云,mesh 体积颜色场
NeuS rgb、camera SDF —> MC —> 点云,mesh 体积颜色场
ICON 非常好 rgb+mask、SMPL、法向量估计器 DR 占用场 —> MC —> 点云,mesh 图片 rgb 贴图
ECON 非常好 rgb+mask、SMPL、法向量估计器 DR d-BiNI + SC(shape completion) 图片 rgb 贴图
  • 经过分割的着衣人类的RGB图像
  • 从图像估计得到的SMPL身体
    • SMPL身体用于指导ICON的两个模块:一个推断着衣人类的详细表面法线(前视图和后视图),另一个推断一个具有可见性感知的隐式表面(占用场的等值表面)
    • 迭代反馈循环使用推断出的详细法线来优化SMPL


  • 宽松的衣服无法重建
  • 依赖HPS估计出的SMPL body


Encoder: stacked hourglass network

  • Coarse L:(257, 1024, 512, 256, 128, 1)
  • Fine H:(272, 512, 256, 128, 1),将Coarse MLP的第四层输出$\Omega \in \mathbb{R}^{256}$作为输入
  • $\mathcal{L}_{N}=\mathcal{L}_{VGG}+\lambda_{l1}\mathcal{L}_{l1},$ 其中$L_{VGG}$为Johnson等人[17]提出的感知损失,$L_{l1}$为预测与真值法向之间的l1距离
表面重建网络:stacked hourglass
纹理推断网络:由残差块组成的architecture of CycleGAN

  • 几何偏差损失:鼓励隐式SDF场和体渲染的亮度场之间的几何一致性
  • 多视图特征一致性损失:多个观察视图在表面点处的特征一致
