프로그래머는 인공 지능을 훈련하여 텍스트에서 얼굴을 그립니다.

T2F 훈련 시간 경과

프로그래머 Animesh Karnewar는 책에 묘사된 인물이 실제로 어떻게 나타나는지 알고 싶었기 때문에 인공 지능을 사용하여 이러한 가상의 인물을 적절하게 렌더링할 수 있는지 확인했습니다. T2F라고 불리는 이 연구 프로젝트는 생성적 적대 신경망(GAN)을 사용하여 텍스트를 인코딩하고 얼굴 이미지를 합성합니다.

간단히 말해서 GAN은 다음과 같이 구성됩니다. 서로 논쟁하는 두 개의 신경망 최고의 결과를 만들어내기 위해. 예를 들어, 네트워크 1번의 임무는 네트워크 2번을 속여 렌더링된 이미지가 실제 사진이라고 믿도록 하는 반면, 네트워크 2번은 주장된 사진이 렌더링된 이미지일 뿐이라는 것을 증명하기 시작합니다. 이 앞뒤 프로세스는 네트워크 2번이 결국 속일 때까지 렌더링 프로세스를 미세 조정합니다.

추천 동영상

Karnewar는 다음을 사용하여 프로젝트를 시작했습니다. 코펜하겐 대학교 연구진이 제공한 Face2Text라는 데이터세트, 400개의 무작위 이미지에 대한 자연어 설명이 포함되어 있습니다.

“이미지 속 사람들에게 제공된 꺼리고 관련 없는 캡션을 제거하기 위해 설명을 정리했습니다.”라고 그는 썼습니다. "일부 설명은 얼굴 특징을 설명할 뿐만 아니라 사진에서 암시된 정보도 제공합니다."

Karnewar의 T2F 프로젝트에서 나온 결과는 정확히 사실적이지는 않지만 시작에 불과합니다. 위에 포함된 비디오는 GAN이 일러스트레이션을 렌더링하도록 훈련된 방법에 대한 시간 경과 보기를 보여줍니다. 텍스트에서 단색 블록으로 시작하여 거칠지만 식별 가능한 픽셀로 끝납니다. 렌더링.

Karnewar는 “더 높은 해상도(32 x 32 및 64 x 64)에서 생성된 샘플이 낮은 해상도에서 생성된 샘플에 비해 배경 노이즈가 더 많다는 것을 발견했습니다.”라고 설명합니다. “데이터 양이 부족해서(400개 이미지만) 인식합니다.”

적대적 네트워크를 훈련하는 데 사용되는 기술은 "GAN의 점진적인 성장,”는 시간이 지남에 따라 품질과 안정성을 향상시킵니다. 비디오에서 볼 수 있듯이 이미지 생성기는 매우 낮은 해상도에서 시작됩니다. 새로운 레이어가 모델에 천천히 도입되어 시간이 지남에 따라 학습이 진행됨에 따라 세부 정보가 증가합니다.

“GAN의 점진적 성장은 GAN을 더 빠르고 안정적인 방식으로 훈련시키는 놀라운 기술입니다.”라고 그는 덧붙였습니다. "이것은 다른 논문의 다양한 참신한 기여와 결합될 수 있습니다."

제공된 예에서 텍스트 설명은 긴 갈색 머리를 한쪽으로 넘긴 20대 후반의 여성, 부드러운 얼굴 특징, 화장을 하지 않은 여성을 보여줍니다. 그녀는 "캐주얼"하고 "편안한" 사람입니다. 또 다른 설명에서는 길쭉한 얼굴, 튀어나온 코, 갈색 눈, 뒤로 물러난 머리선, 짧은 콧수염을 가진 40대 남성의 모습이 나와 있습니다. 최종 결과는 극도로 픽셀화되어 있지만 최종 렌더링에서는 A.I. 처음부터 얼굴을 생성할 수 있습니다.

Karnewar는 Flicker8K 및 Coco 캡션과 같은 추가 데이터 세트를 통합하기 위해 프로젝트를 확장할 계획이라고 말했습니다. 결국 T2F는 법 집행 분야에서 텍스트 설명을 기반으로 피해자 및/또는 범죄자를 식별하는 데 사용될 수 있습니다. 그는 프로젝트에 대한 제안과 기여에 열려있습니다.

코드에 액세스하고 기여하려면, Github의 Karnewar 저장소로 이동하세요..

편집자의 추천

  • 과학자들은 AI를 사용하고 있습니다. 인공적인 인간 유전자 코드를 만들기 위해
  • AI의 부상 재검토: 2010년 이후 인공지능은 어디까지 발전했나요?
  • Intel과 Facebook이 협력하여 Cooper Lake에 인공 지능 향상 제공

당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.