深度神经网络在表示能力上的显著提高推动了基于图像的三维人体形状估计的最新进展。虽然目前的方法已经在现实世界环境中展示了潜力,但它们仍然不能产生输入图像中经常出现的细节级别的重建。我们认为,这一限制主要源于两个相互冲突的要求:准确的预测需要较大的背景,但精确的预测需要高分辨率。由于当前硬件的内存限制,以前的方法往往将低分辨率图像作为输入来覆盖大范围的空间背景,从而产生精度(或低分辨率)较低的3D估计。我们通过制定端到端可培训的多层体系结构来解决这一限制。粗略的水平以较低的分辨率观察整个图像,并专注于整体推理。这提供了通过观察更高分辨率的图像来估计非常详细的几何图形的精细级别的上下文。我们通过充分利用1k分辨率的输入图像,证明了我们的方法在单幅图像人体形状重建上的性能明显优于现有的最先进技术。