알라딘서재

사람책


중국 기업 SenseTime이 이미지 생성 AI 'SenseNova U1' 을 오픈 모델로 공개했습니다. SenseNova U1은 기존 고성능 오픈 모델보다 가볍고 성능이 뛰어난 것이 특징이며, 이미지 생성과 이미지 편집을 모두 지원합니다. 또한 인포그래픽이나 연속성 있는 이미지 생성도 가능합니다.


SenseTime 공식 발표 https://www.sensetime.com/en/news-detail/51170629


GitHub 저장소 https://github.com/OpenSenseNova/SenseNova-U1


기존 이미지 생성 AI는 '노이즈에서 이미지를 생성하는 확산 모델', '프롬프트 텍스트와 이미지를 연결하는 텍스트 인코더', '사람용 이미지와 AI용 이미지를 변환하는 VAE' 등 여러 AI 모델을 연동해 이미지를 생성합니다. 아래 이미지는 Z-Image-Turbo로 이미지를 생성하는 ComfyUI 워크플로우의 일부로, 확산 모델로 zimageturbobf16.safetensors, 텍스트 인코더로 qwen34b.safetensors, VAE로 ae.safetensors를 불러오는 것을 확인할 수 있습니다.



SenseTime에 따르면 여러 모델을 연동하는 생성 방식은 '모델 간 데이터를 주고받을 때 완전성이 손상된다'는 문제가 있습니다. 각종 이미지 생성 모델은 이 문제를 완화하기 위해 모델 규모를 키우고 있습니다. SenseNova U1은 VAE나 텍스트 인코더 없이 단일 모델로 생성 처리를 실행할 수 있도록 설계되어, 모델 규모를 기존 모델보다 작게 유지하면서 생성 이미지의 품질을 높이는 데 성공했습니다.



SenseNova U1의 GitHub 저장소에는 생성 이미지 샘플 모음 https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/showcases.md이 준비되어 있습니다. 생성 이미지 예시는 다음과 같습니다.



인포그래픽도 생성할 수 있습니다.



이미지 편집도 가능합니다.



또한 하나의 프롬프트로 연속성 있는 이미지를 생성할 수도 있습니다.



성능 및 벤치마크


SenseNova U1의 파라미터 수는 80억 개로, NVIDIA GeForce RTX 5090 같은 가정용 GPU에서도 실행할 수 있습니다. RTX 5090으로 2048×2048 픽셀 이미지를 생성할 경우, 생성 전 처리 시간은 0.415초, 생성 시간은 23.04초입니다.



Qwen-Image-2512나 Z-Image 같은 고성능 오픈 모델과 비교해 모델 규모가 작고 생성 시간도 짧습니다.



생성 이미지 품질을 측정하는 벤치마크 테스트에서 Qwen-Image-2512나 Z-Image보다 높은 점수를 기록했습니다.



텍스트가 포함된 이미지의 품질 테스트에서도 Qwen-Image-2512나 Z-Image보다 높은 점수를 기록했습니다.



아래 그래프는 가로축이 생성 시간, 세로축이 생성 이미지 품질 점수를 나타냅니다. SenseNova U1이 다른 오픈 모델보다 빠르면서도 고품질임을 알 수 있습니다.



모델 배포 및 라이선스


SenseNova U1은 베이스 모델인 'SenseNova-U1-8B-MoT' 와 강화학습 완료 모델인 'SenseNova-U1-8B-MoT-SFT' 가 Hugging Face에 공개되었습니다. 라이선스는 Apache License 2.0입니다.


sensenova/SenseNova-U1-8B-MoT · Hugging Face https://huggingface.co/sensenova/SenseNova-U1-8B-MoT


sensenova/SenseNova-U1-8B-MoT-SFT · Hugging Face https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-SFT


SenseTime은 SenseNova U1 시리즈의 대규모 버전 등을 향후 공개할 예정입니다.


  • 댓글쓰기
  • 좋아요
  • 공유하기
  • 찜하기
로그인 l PC버전 l 전체 메뉴 l 나의 서재