
- ABSTRACT
단일 이미지 기반 3D Human Pose estimation은 비디오에서 시간적으로 일관되고, 부드러운 3D Human motion을 복구하는 것은 아직까지 Challenge
Static feature에 강한 의존성때문에 단일 이미지 기반 방법의 시간적 temporal inconsistency(불일치) 문제를 해결하지 못함
이에 일시적으로 일관된 TCMR 시스템을 제안함
현재 Static한 특성에 지배되지 않고 과거와 미래 프레임의 시간 정보에 효과적으로 초점을 맞춤
=> 프레임당 더 나은 3D Pose 및 Shape 정확도로 시간적 일관성 측면에서 이전방법보다 더 뛰어남
문제점
1. 단일 이미지 기반 방법은 정적 이미지에서 적절한 출력을 예측하지만, 프레임당 비디오에 적용하면 시간적으로 일관되지 않고 부드럽지 않은(temporally inconsistent, unsmooth) 3D 모션을 생성하는 경향이 있음
2. temporal instability(시간적 불안정성)은 연속 프레임에 대한 일관되지 않은 3D 포즈 오류로 인해 발생
=> 예를 들어 오류가 다른 3D 방향을 향하거나, 다음 프레임의 포즈 출력이 모션을 반영하지 않고 상대적으로 동일하게 유지될 수 있음
시간적 불일치로 인해 생기는 Static feature에 대한 강한 의존성에서 비롯된다고 주장하고 있음
의존성이 강한 이유는 현재 프레임의 Static feature와 시간적인 특성 사이의 Residual connection이다.
Residual connection은 학습과정을 용이하게 하기 위해 널리 검증되었으나, 이를 시간적 인코딩에 단순히 사용하면 유용한 시간적 정보를 학습하는데 방해가 될 수 있음
Static feature가 Pre-trained 네트워크에 의해 추출된다는 점을 고려하면 이는 현재 프레임의 강력한 evidence를 포함한다.
따라서 Static Feature에 대한 residual connection의 ID Mapping은 SMPL 매개변수 회귀자가 이에 크게 의존하게 만들고 시간적 특징을 활용할 수 있게 만든다.
두 번째 이유는 현재 정적 특징을 포함하는 모든 프레임에서 Static Feature를 취하는 시간적 인코딩이다.
현재 정적 특징은 SMPL 매개변수가 예측되는 현재 시간적 특징에 영향을 미칠 가능성이 가장 크다. 이러한 현상은 현재 프레임의 3D 인간 자세와 모양에 대한 가장 중요한 정보를 가지고 있는 현재 정적 특징으로 인해 발생한다. dominance는 3D 포즈 및 모양 추정의 프레임당 정확도를 높이지만 시간 인코더가 과거 및 미래 프레임의 시간 정보를 완전히 활용하지 못하게 할 수 있다.
종합해 보면, 기존 비디오 기반 방법은 현재의 정적 특성 특성을 선호하며 단일 이미지 기반 방법과 마찬가지로 시간적 불일치 문제가 발생한다.
=> 비디오에서 시간적으로 일관되고 부드러운 3D 인간 모션 출력을 위해 현재 정적 기능에 대한 강한 의존성을 해결하도록 설계됨
첫째, 현재 프레임의 시간적 특징을 인코딩하기 위해 이전 비디오 기반 작업 [13, 15, 20]을 따르지만 정적 특징과 시간적 특징 사이의 잔여 연결을 제거한다.
현재 프레임 없이 과거와 미래 프레임으로부터 현재 포즈를 예측하기 위해 두 개의 시간 인코더로 구성된 Pose- Forecast를 도입한다.
=> PoseForecast의 시간적 특징은 모든 입력 프레임에서 추출된 현재 시간적 특징과 통합되어 현재 SMPL 매개변수를 예측한다.
현재 정적 기능에 대한 강한 의존성을 제거함으로써 SMPL 매개변수 회귀자는 현재 프레임의 지배를 받지 않고 과거와 미래 프레임에 집중할 수 있는 더 많은 기회를 가질 수 있다.

- ABSTRACT
단일 이미지 기반 3D Human Pose estimation은 비디오에서 시간적으로 일관되고, 부드러운 3D Human motion을 복구하는 것은 아직까지 Challenge
Static feature에 강한 의존성때문에 단일 이미지 기반 방법의 시간적 temporal inconsistency(불일치) 문제를 해결하지 못함
이에 일시적으로 일관된 TCMR 시스템을 제안함
현재 Static한 특성에 지배되지 않고 과거와 미래 프레임의 시간 정보에 효과적으로 초점을 맞춤
=> 프레임당 더 나은 3D Pose 및 Shape 정확도로 시간적 일관성 측면에서 이전방법보다 더 뛰어남
문제점
1. 단일 이미지 기반 방법은 정적 이미지에서 적절한 출력을 예측하지만, 프레임당 비디오에 적용하면 시간적으로 일관되지 않고 부드럽지 않은(temporally inconsistent, unsmooth) 3D 모션을 생성하는 경향이 있음
2. temporal instability(시간적 불안정성)은 연속 프레임에 대한 일관되지 않은 3D 포즈 오류로 인해 발생
=> 예를 들어 오류가 다른 3D 방향을 향하거나, 다음 프레임의 포즈 출력이 모션을 반영하지 않고 상대적으로 동일하게 유지될 수 있음
시간적 불일치로 인해 생기는 Static feature에 대한 강한 의존성에서 비롯된다고 주장하고 있음
의존성이 강한 이유는 현재 프레임의 Static feature와 시간적인 특성 사이의 Residual connection이다.
Residual connection은 학습과정을 용이하게 하기 위해 널리 검증되었으나, 이를 시간적 인코딩에 단순히 사용하면 유용한 시간적 정보를 학습하는데 방해가 될 수 있음
Static feature가 Pre-trained 네트워크에 의해 추출된다는 점을 고려하면 이는 현재 프레임의 강력한 evidence를 포함한다.
따라서 Static Feature에 대한 residual connection의 ID Mapping은 SMPL 매개변수 회귀자가 이에 크게 의존하게 만들고 시간적 특징을 활용할 수 있게 만든다.
두 번째 이유는 현재 정적 특징을 포함하는 모든 프레임에서 Static Feature를 취하는 시간적 인코딩이다.
현재 정적 특징은 SMPL 매개변수가 예측되는 현재 시간적 특징에 영향을 미칠 가능성이 가장 크다. 이러한 현상은 현재 프레임의 3D 인간 자세와 모양에 대한 가장 중요한 정보를 가지고 있는 현재 정적 특징으로 인해 발생한다. dominance는 3D 포즈 및 모양 추정의 프레임당 정확도를 높이지만 시간 인코더가 과거 및 미래 프레임의 시간 정보를 완전히 활용하지 못하게 할 수 있다.
종합해 보면, 기존 비디오 기반 방법은 현재의 정적 특성 특성을 선호하며 단일 이미지 기반 방법과 마찬가지로 시간적 불일치 문제가 발생한다.
=> 비디오에서 시간적으로 일관되고 부드러운 3D 인간 모션 출력을 위해 현재 정적 기능에 대한 강한 의존성을 해결하도록 설계됨
첫째, 현재 프레임의 시간적 특징을 인코딩하기 위해 이전 비디오 기반 작업 [13, 15, 20]을 따르지만 정적 특징과 시간적 특징 사이의 잔여 연결을 제거한다.
현재 프레임 없이 과거와 미래 프레임으로부터 현재 포즈를 예측하기 위해 두 개의 시간 인코더로 구성된 Pose- Forecast를 도입한다.
=> PoseForecast의 시간적 특징은 모든 입력 프레임에서 추출된 현재 시간적 특징과 통합되어 현재 SMPL 매개변수를 예측한다.
현재 정적 기능에 대한 강한 의존성을 제거함으로써 SMPL 매개변수 회귀자는 현재 프레임의 지배를 받지 않고 과거와 미래 프레임에 집중할 수 있는 더 많은 기회를 가질 수 있다.