โปรแกรมเมอร์ฝึกปัญญาประดิษฐ์เพื่อวาดใบหน้าจากข้อความ

หมดเวลาการฝึกอบรม T2F

โปรแกรมเมอร์ Animesh Karnewar ต้องการทราบว่าตัวละครที่อธิบายไว้ในหนังสือจะปรากฏในความเป็นจริงอย่างไร เขาจึงหันมาใช้ปัญญาประดิษฐ์เพื่อดูว่าสามารถแสดงผลตัวละครเหล่านี้ได้อย่างเหมาะสมหรือไม่ โครงการวิจัยที่เรียกว่า T2F ใช้เครือข่ายปฏิปักษ์ทั่วไป (GAN) เพื่อเข้ารหัสข้อความและสังเคราะห์ภาพใบหน้า

พูดง่ายๆ ก็คือ GAN ประกอบด้วย โครงข่ายประสาทสองอันที่โต้เถียงกัน เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด ตัวอย่างเช่น งานของเครือข่ายหมายเลข 1 คือการหลอกเครือข่ายหมายเลข 2 ให้เชื่อว่าภาพที่เรนเดอร์เป็นภาพถ่ายจริง ในขณะที่เครือข่ายหมายเลข 2 ตั้งใจที่จะพิสูจน์ว่าภาพถ่ายที่ถูกกล่าวหานั้นเป็นเพียงภาพที่เรนเดอร์ กระบวนการกลับไปกลับมานี้จะปรับแต่งกระบวนการเรนเดอร์อย่างละเอียดจนกว่าเครือข่ายหมายเลข 2 จะถูกหลอกในที่สุด

วิดีโอแนะนำ

Karnewar เริ่มโครงการโดยใช้ ชุดข้อมูลที่เรียกว่า Face2Text จัดทำโดยนักวิจัยจากมหาวิทยาลัยโคเปนเฮเกนซึ่งมีคำอธิบายภาษาธรรมชาติสำหรับรูปภาพสุ่ม 400 ภาพ

“คำอธิบายได้รับการทำความสะอาดเพื่อลบคำบรรยายที่ไม่เต็มใจและไม่เกี่ยวข้องที่บุคคลในภาพระบุไว้” เขาเขียน “คำอธิบายบางส่วนไม่เพียงแต่อธิบายลักษณะใบหน้าเท่านั้น แต่ยังให้ข้อมูลโดยนัยจากรูปภาพด้วย”

แม้ว่าผลลัพธ์ที่เกิดจากโครงการ T2F ของ Karnewar จะไม่สมจริงเหมือนจริงนัก แต่ก็เป็นจุดเริ่มต้น วิดีโอที่ฝังอยู่ด้านบนแสดงมุมมองแบบไทม์แลปส์ว่า GAN ได้รับการฝึกให้แสดงภาพประกอบอย่างไร จากข้อความ เริ่มต้นด้วยบล็อกสีทึบและลงท้ายด้วยภาพหยาบแต่ระบุได้ การเรนเดอร์

“ฉันพบว่าตัวอย่างที่สร้างด้วยความละเอียดสูงกว่า (32 x 32 และ 64 x 64) มีสัญญาณรบกวนพื้นหลังมากกว่าเมื่อเปรียบเทียบกับตัวอย่างที่สร้างด้วยความละเอียดต่ำกว่า” Karnewar อธิบาย “ฉันรับรู้ได้เนื่องจากมีข้อมูลไม่เพียงพอ (เพียง 400 ภาพ)”

เทคนิคที่ใช้ในการฝึกเครือข่ายฝ่ายตรงข้ามเรียกว่า “การเติบโตอย่างก้าวหน้าของ GAN” ซึ่งปรับปรุงคุณภาพและความเสถียรเมื่อเวลาผ่านไป ตามที่วิดีโอแสดง ตัวสร้างภาพจะเริ่มต้นจากความละเอียดที่ต่ำมาก เลเยอร์ใหม่จะถูกนำมาใช้อย่างช้าๆ ในโมเดล โดยจะเพิ่มรายละเอียดเมื่อการฝึกดำเนินไปตามเวลา

“การเติบโตแบบก้าวหน้าของ GAN เป็นเทคนิคที่ยอดเยี่ยมสำหรับการฝึก GAN ได้เร็วขึ้นและมีเสถียรภาพมากขึ้น” เขากล่าวเสริม “สิ่งนี้สามารถใช้ร่วมกับผลงานนวนิยายต่าง ๆ จากเอกสารอื่น ๆ ได้”

ในตัวอย่างที่ให้มา คำอธิบายข้อความแสดงให้เห็นผู้หญิงในวัย 20 ปลายๆ ที่มีผมสีน้ำตาลยาวปัดไปข้างหนึ่ง มีใบหน้าที่อ่อนโยน และไม่แต่งหน้า เธอเป็นคน “สบายๆ” และ “ผ่อนคลาย” คำอธิบายอีกประการหนึ่งแสดงให้เห็นชายคนหนึ่งในวัย 40 ที่มีใบหน้ายาว จมูกโด่ง ดวงตาสีน้ำตาล เส้นผมที่ร่วงหล่น และมีหนวดสั้น แม้ว่าผลลัพธ์สุดท้ายจะมีพิกเซลมาก แต่การเรนเดอร์สุดท้ายก็แสดงให้เห็นถึงความก้าวหน้าอย่างมากในวิธีที่ A.I. สามารถสร้างใบหน้าได้ตั้งแต่เริ่มต้น

Karnewar กล่าวว่าเขาวางแผนที่จะขยายขนาดโครงการเพื่อรวมชุดข้อมูลเพิ่มเติม เช่น Flicker8K และคำบรรยาย Coco ในที่สุด T2F ก็สามารถนำมาใช้ในด้านการบังคับใช้กฎหมายเพื่อระบุเหยื่อและ/หรืออาชญากรตามคำอธิบายข้อความ ท่ามกลางการใช้งานอื่นๆ เขาเปิดรับข้อเสนอแนะและการมีส่วนร่วมในโครงการ

เพื่อเข้าถึงรหัสและมีส่วนร่วม มุ่งหน้าไปที่พื้นที่เก็บข้อมูลของ Karnewar บน Github ที่นี่.

คำแนะนำของบรรณาธิการ

  • นักวิทยาศาสตร์ใช้ A.I. เพื่อสร้างรหัสพันธุกรรมมนุษย์เทียม
  • ทบทวนการเติบโตของ A.I.: ปัญญาประดิษฐ์มาไกลแค่ไหนแล้วนับตั้งแต่ปี 2010
  • Intel และ Facebook ร่วมมือกันเพื่อเพิ่มประสิทธิภาพปัญญาประดิษฐ์ให้กับ Cooper Lake

อัพเกรดไลฟ์สไตล์ของคุณDigital Trends ช่วยให้ผู้อ่านติดตามโลกแห่งเทคโนโลยีที่เปลี่ยนแปลงไปอย่างรวดเร็วด้วยข่าวสารล่าสุด รีวิวผลิตภัณฑ์สนุกๆ บทบรรณาธิการที่เจาะลึก และการแอบดูที่ไม่ซ้ำใคร

หมวดหมู่

ล่าสุด

ผู้ใช้ BlackBerry Z10 สามารถรับ Wi-Fi บนเครื่องบินฟรีกับ Delta

ผู้ใช้ BlackBerry Z10 สามารถรับ Wi-Fi บนเครื่องบินฟรีกับ Delta

บริษัทต่างๆ มักจะพยายามเสนอข้อเสนอที่น่าดึงดูดท...

T-Mobile เสนอข้อมูลฟรี 200MB สำหรับแท็บเล็ต

T-Mobile เสนอข้อมูลฟรี 200MB สำหรับแท็บเล็ต

Uncarrier มาถึงแล้วอีกครั้ง John Legere CEO ของ...

Adobe ซื้อกิจการ Mobile Photo Editor Aviary

Adobe ซื้อกิจการ Mobile Photo Editor Aviary

รักพวกเขาหรือเกลียดพวกเขา การใส่ลายน้ำให้กับรูป...