ความจริงคืออะไร NVIDIA เปิดโครงการ vid2vid แปลงวิดีโอเปลี่ยนป่าเป็นตึก, สร้างวิดีโอคนเต้นโคฟเวอร์เกาหลี

2018-08-29

NVIDIA เผยแพร่งานวิจัย Video-to-Video Synthesis หรือ vid2vid โครงการสังเคราะห์วิดีโอในรูปแบบต่างๆ โดยมีความเหนือกว่าโมเดลเดิมๆ คือสามารถสร้างวิดีโอความละเอียดสูงระดับ 2K (2018×1024)

นักวิจัยลองฝึกโมเดลด้วยชุดข้อมูลต่างๆ เช่น ชุดข้อมูล Cityscape มาจัดส่วนต่างๆ ของภาพ (segmentation) ด้วย Mask R-CNN แล้วฝึกให้โมเดลสร้างวิดีโอจากภาพ segmentation ผลที่ได้คือวิดีโอที่สามารถแปลงสภาพแวดล้อม จากพื้นถนนปูนให้เป็นพื้นอิฐ หรือแปลงสภาพแวดล้อมจากต้นไม้ให้เหลือแต่ตึก

อีกการทดลองหนึ่งอาศัยวิดีโอเต้นโคฟเวอร์จาก YouTube แล้วแปลงวิดีโอเป็นท่าทางของคนเต้น (pose) ด้วยโมเดล DensePose และ OpenPose จากนั้นฝึกกลับให้สร้างวิดีโอจากท่าเต้น นักวิจัยพบว่าโมเดลสามารถสร้างท่าเต้นได้สมจริง แม้จะพบท่าเต้นที่ไม่เคยเจอมาก่อนในชุดข้อมูลฝึก ตัวอย่างวิดีโอที่สร้างจากคนเต้นจริง (วิดีโอตัวอย่าง แสดงวิดีโอต้นฉบับอันซ้าย และวิดีโอที่สร้างขึ้นอีกสองอัน)

ทีมวิจัยฝึกโมเดลด้วยการ์ดกราฟิก 8 ใบโดยแต่ละใบมีแรม 24GB ซอฟต์แวร์ใช้ PyTorch 0.4

ที่มา – GitHub: NVIDIA/vid2vid, ArXiV

No Description

Topics: