• แบนเนอร์

OpenAI Point E: สร้างพอยต์คลาวด์ 3 มิติจากรูปคลื่นที่ซับซ้อนในเวลาไม่กี่นาทีบน GPU ตัวเดียว

ในบทความใหม่ Point-E: ระบบสำหรับสร้างพอยต์คลาวด์ 3 มิติจากสัญญาณที่ซับซ้อน ทีมวิจัย OpenAI ขอแนะนำ Point E ซึ่งเป็นระบบการสังเคราะห์ข้อความตามเงื่อนไขของพอยต์คลาวด์ 3 มิติที่ใช้โมเดลการแพร่กระจายเพื่อสร้างรูปร่าง 3 มิติที่หลากหลายและซับซ้อนซึ่งขับเคลื่อนด้วยข้อความที่ซับซ้อน สัญญาณในไม่กี่นาทีบน GPU ตัวเดียว
ประสิทธิภาพที่น่าทึ่งของโมเดลการสร้างภาพที่ล้ำสมัยในปัจจุบันได้กระตุ้นการวิจัยในการสร้างวัตถุข้อความ 3 มิติอย่างไรก็ตาม ไม่เหมือนกับโมเดล 2 มิติ ซึ่งสามารถสร้างเอาต์พุตได้ในเวลาไม่กี่นาทีหรือแม้แต่วินาที โดยทั่วไปแล้ว โมเดลสร้างอ็อบเจกต์ต้องใช้เวลาหลายชั่วโมงในการทำงานของ GPU เพื่อสร้างตัวอย่างเดียว
ในบทความใหม่ Point-E: ระบบสำหรับสร้างพอยต์คลาวด์ 3 มิติจากสัญญาณที่ซับซ้อน ทีมวิจัย OpenAI นำเสนอ Point·E ซึ่งเป็นระบบการสังเคราะห์เงื่อนไขแบบข้อความสำหรับพอยต์คลาวด์ 3 มิติวิธีการใหม่นี้ใช้โมเดลการแพร่กระจายเพื่อสร้างรูปร่าง 3 มิติที่หลากหลายและซับซ้อนจากสัญญาณข้อความที่ซับซ้อนในเวลาเพียงหนึ่งหรือสองนาทีบน GPU ตัวเดียว
ทีมงานมุ่งเน้นไปที่ความท้าทายในการแปลงข้อความเป็น 3 มิติ ซึ่งมีความสำคัญอย่างยิ่งต่อการทำให้การสร้างเนื้อหา 3 มิติเป็นประชาธิปไตยสำหรับแอปพลิเคชันในโลกแห่งความเป็นจริง ตั้งแต่ความเป็นจริงเสมือนและเกมไปจนถึงการออกแบบเชิงอุตสาหกรรมวิธีการที่มีอยู่สำหรับการแปลงข้อความเป็น 3 มิติแบ่งออกเป็นสองประเภท ซึ่งแต่ละวิธีมีข้อเสีย: 1) โมเดลเชิงกำเนิดสามารถใช้เพื่อสร้างตัวอย่างได้อย่างมีประสิทธิภาพ แต่ไม่สามารถปรับขนาดได้อย่างมีประสิทธิภาพสำหรับสัญญาณข้อความที่หลากหลายและซับซ้อน;2) โมเดลข้อความ-รูปภาพที่ผ่านการฝึกอบรมมาล่วงหน้าเพื่อจัดการกับตัวชี้นำข้อความที่ซับซ้อนและหลากหลาย แต่วิธีการนี้ต้องใช้การคำนวณสูง และโมเดลสามารถติดค้างในพื้นที่ขั้นต่ำที่ไม่สอดคล้องกับวัตถุ 3 มิติที่มีความหมายหรือเชื่อมโยงกันได้อย่างง่ายดาย
ดังนั้น ทีมงานจึงสำรวจแนวทางอื่นที่มีจุดมุ่งหมายเพื่อรวมจุดแข็งของสองแนวทางข้างต้น โดยใช้แบบจำลองการแพร่กระจายแบบข้อความเป็นรูปภาพที่ได้รับการฝึกฝนในคู่ข้อความและภาพชุดใหญ่ (ทำให้สามารถจัดการกับสัญญาณที่หลากหลายและซับซ้อนได้) และ แบบจำลองการแพร่กระจายภาพ 3 มิติได้รับการฝึกฝนในชุดข้อความและภาพคู่ที่เล็กกว่าชุดข้อมูลคู่ภาพ-3 มิติอันดับแรก โมเดลแปลงข้อความเป็นรูปภาพจะสุ่มตัวอย่างรูปภาพอินพุตเพื่อสร้างการแทนแบบสังเคราะห์เดียว และโมเดลแปลงข้อความเป็น 3 มิติจะสร้างพอยต์คลาวด์ 3 มิติตามรูปภาพที่เลือก
สแต็กกำเนิดของคำสั่งอิงตามกรอบการสร้างที่เสนอเมื่อเร็วๆ นี้สำหรับการสร้างรูปภาพแบบมีเงื่อนไขจากข้อความ (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020)พวกเขาใช้โมเดล GLIDE ที่มีพารามิเตอร์ GLIDE 3 พันล้านพารามิเตอร์ (Nichol et al., 2021) ปรับแต่งโมเดล 3 มิติที่เรนเดอร์อย่างละเอียด เป็นโมเดลการแปลงข้อความเป็นรูปภาพ และชุดของโมเดลการแพร่กระจายที่สร้างเมฆพอยต์ RGB เป็นโมเดล โมเดลการเปลี่ยนแปลงภาพต่อภาพโมเดล 3 มิติ
ในขณะที่งานก่อนหน้านี้ใช้สถาปัตยกรรม 3 มิติในการประมวลผลพอยต์คลาวด์ นักวิจัยได้ใช้แบบจำลองที่ใช้ทรานสดิวเซอร์อย่างง่าย (Vaswani et al., 2017) เพื่อปรับปรุงประสิทธิภาพในสถาปัตยกรรมโมเดลการแพร่กระจาย ภาพพอยต์คลาวด์จะถูกป้อนเข้าในโมเดล ViT-L/14 CLIP ที่ฝึกไว้ล่วงหน้าก่อน จากนั้นจึงป้อนเมชเอาต์พุตเข้าสู่ตัวแปลงเป็นเครื่องหมาย
ในการศึกษาเชิงประจักษ์ ทีมงานได้เปรียบเทียบวิธี Point·E ที่เสนอกับโมเดล 3 มิติเชิงกำเนิดอื่นๆ บนสัญญาณการให้คะแนนจากการตรวจจับวัตถุ COCO การแบ่งส่วน และชุดข้อมูลลายเซ็นผลลัพธ์ยืนยันว่า Point·E สามารถสร้างรูปร่าง 3 มิติที่หลากหลายและซับซ้อนจากสัญญาณข้อความที่ซับซ้อน และเพิ่มความเร็วในการอนุมานขึ้นหนึ่งถึงสองลำดับความสำคัญทีมงานหวังว่าผลงานของพวกเขาจะเป็นแรงบันดาลใจให้ค้นคว้าเพิ่มเติมเกี่ยวกับการสังเคราะห์ข้อความ 3 มิติ
โมเดลการกระจายพอยต์คลาวด์และรหัสการประเมินที่ฝึกไว้ล่วงหน้ามีอยู่ใน GitHub ของโครงการDocument Point-E: ระบบสำหรับสร้างพอยต์คลาวด์ 3 มิติจากเบาะแสที่ซับซ้อนอยู่บน arXiv
เราทราบดีว่าคุณไม่ต้องการพลาดข่าวสารหรือการค้นพบทางวิทยาศาสตร์สมัครรับจดหมายข่าว Synced Global AI Weekly ยอดนิยมของเราเพื่อรับการอัปเดต AI รายสัปดาห์


เวลาโพสต์: 28 ธ.ค.-2565