หมดเวลาการฝึกอบรม T2F
โปรแกรมเมอร์ Animesh Karnewar ต้องการทราบว่าตัวละครที่อธิบายไว้ในหนังสือจะปรากฏในความเป็นจริงอย่างไร เขาจึงหันมาใช้ปัญญาประดิษฐ์เพื่อดูว่าสามารถแสดงผลตัวละครเหล่านี้ได้อย่างเหมาะสมหรือไม่ โครงการวิจัยที่เรียกว่า T2F ใช้เครือข่ายปฏิปักษ์ทั่วไป (GAN) เพื่อเข้ารหัสข้อความและสังเคราะห์ภาพใบหน้า
พูดง่ายๆ ก็คือ GAN ประกอบด้วย โครงข่ายประสาทสองอันที่โต้เถียงกัน เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ตัวอย่างเช่น งานของเครือข่ายหมายเลข 1 คือการหลอกเครือข่ายหมายเลข 2 ให้เชื่อว่าภาพที่เรนเดอร์เป็นภาพถ่ายจริง ในขณะที่เครือข่ายหมายเลข 2 ตั้งใจที่จะพิสูจน์ว่าภาพถ่ายที่ถูกกล่าวหานั้นเป็นเพียงภาพที่เรนเดอร์ กระบวนการกลับไปกลับมานี้จะปรับแต่งกระบวนการเรนเดอร์อย่างละเอียดจนกว่าเครือข่ายหมายเลข 2 จะถูกหลอกในที่สุด
วิดีโอแนะนำ
Karnewar เริ่มโครงการโดยใช้ ชุดข้อมูลที่เรียกว่า Face2Text จัดทำโดยนักวิจัยจากมหาวิทยาลัยโคเปนเฮเกนซึ่งมีคำอธิบายภาษาธรรมชาติสำหรับรูปภาพสุ่ม 400 ภาพ
“คำอธิบายได้รับการทำความสะอาดเพื่อลบคำบรรยายที่ไม่เต็มใจและไม่เกี่ยวข้องที่บุคคลในภาพระบุไว้” เขาเขียน “คำอธิบายบางส่วนไม่เพียงแต่อธิบายลักษณะใบหน้าเท่านั้น แต่ยังให้ข้อมูลโดยนัยจากรูปภาพด้วย”
แม้ว่าผลลัพธ์ที่เกิดจากโครงการ T2F ของ Karnewar จะไม่สมจริงเหมือนจริงนัก แต่ก็เป็นจุดเริ่มต้น วิดีโอที่ฝังอยู่ด้านบนแสดงมุมมองแบบไทม์แลปส์ว่า GAN ได้รับการฝึกให้แสดงภาพประกอบอย่างไร จากข้อความ เริ่มต้นด้วยบล็อกสีทึบและลงท้ายด้วยภาพหยาบแต่ระบุได้ การเรนเดอร์
“ฉันพบว่าตัวอย่างที่สร้างด้วยความละเอียดสูงกว่า (32 x 32 และ 64 x 64) มีสัญญาณรบกวนพื้นหลังมากกว่าเมื่อเปรียบเทียบกับตัวอย่างที่สร้างด้วยความละเอียดต่ำกว่า” Karnewar อธิบาย “ฉันรับรู้ได้เนื่องจากมีข้อมูลไม่เพียงพอ (เพียง 400 ภาพ)”
เทคนิคที่ใช้ในการฝึกเครือข่ายฝ่ายตรงข้ามเรียกว่า “การเติบโตอย่างก้าวหน้าของ GAN” ซึ่งปรับปรุงคุณภาพและความเสถียรเมื่อเวลาผ่านไป ตามที่วิดีโอแสดง ตัวสร้างภาพจะเริ่มต้นจากความละเอียดที่ต่ำมาก เลเยอร์ใหม่จะถูกนำมาใช้อย่างช้าๆ ในโมเดล โดยจะเพิ่มรายละเอียดเมื่อการฝึกดำเนินไปตามเวลา
“การเติบโตแบบก้าวหน้าของ GAN เป็นเทคนิคที่ยอดเยี่ยมสำหรับการฝึก GAN ได้เร็วขึ้นและมีเสถียรภาพมากขึ้น” เขากล่าวเสริม “สิ่งนี้สามารถใช้ร่วมกับผลงานนวนิยายต่าง ๆ จากเอกสารอื่น ๆ ได้”
ในตัวอย่างที่ให้มา คำอธิบายข้อความแสดงให้เห็นผู้หญิงในวัย 20 ปลายๆ ที่มีผมสีน้ำตาลยาวปัดไปข้างหนึ่ง มีใบหน้าที่อ่อนโยน และไม่แต่งหน้า เธอเป็นคน “สบายๆ” และ “ผ่อนคลาย” คำอธิบายอีกประการหนึ่งแสดงให้เห็นชายคนหนึ่งในวัย 40 ที่มีใบหน้ายาว จมูกโด่ง ดวงตาสีน้ำตาล เส้นผมที่ร่วงหล่น และมีหนวดสั้น แม้ว่าผลลัพธ์สุดท้ายจะมีพิกเซลมาก แต่การเรนเดอร์สุดท้ายก็แสดงให้เห็นถึงความก้าวหน้าอย่างมากในวิธีที่ A.I. สามารถสร้างใบหน้าได้ตั้งแต่เริ่มต้น
Karnewar กล่าวว่าเขาวางแผนที่จะขยายขนาดโครงการเพื่อรวมชุดข้อมูลเพิ่มเติม เช่น Flicker8K และคำบรรยาย Coco ในที่สุด T2F ก็สามารถนำมาใช้ในด้านการบังคับใช้กฎหมายเพื่อระบุเหยื่อและ/หรืออาชญากรตามคำอธิบายข้อความ ท่ามกลางการใช้งานอื่นๆ เขาเปิดรับข้อเสนอแนะและการมีส่วนร่วมในโครงการ
เพื่อเข้าถึงรหัสและมีส่วนร่วม มุ่งหน้าไปที่พื้นที่เก็บข้อมูลของ Karnewar บน Github ที่นี่.
คำแนะนำของบรรณาธิการ
- นักวิทยาศาสตร์ใช้ A.I. เพื่อสร้างรหัสพันธุกรรมมนุษย์เทียม
- ทบทวนการเติบโตของ A.I.: ปัญญาประดิษฐ์มาไกลแค่ไหนแล้วนับตั้งแต่ปี 2010
- Intel และ Facebook ร่วมมือกันเพื่อเพิ่มประสิทธิภาพปัญญาประดิษฐ์ให้กับ Cooper Lake
อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร