English | 로그인 ㅣ ID/비번 찾기 ㅣ 회원가입/이메일 재인증
Home

알리바바 클라우드, 엔드투엔드 멀티모달 AI 모델 Qwen2.5-Omni-7B 공개

2025/03/31 12:26:37

알리바바 그룹의 디지털 기술 및 인텔리전스 중추인 알리바바 클라우드가 자사 큐원(Qwen) 시리즈의 통합 엔드투엔드(end-to-end) 멀티모달 모델인 Qwen2.5-Omni-7B를 새롭게 공개했다.

 

이번 모델은 종합적인 멀티모달 인식을 위해 설계되어, 텍스트, 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리하고 실시간 텍스트 및 자연스러운 음성 응답을 지원함으로써 모바일 기기와 노트북과 같은 엣지 디바이스에 최적화된 멀티모달 AI 기술의 새로운 표준을 제시한다.

Qwen2.5-Omni-7B는 7B(70억) 파라미터의 컴팩트한 설계에도 불구하고 성능 저하 없이 강력한 멀티모달 처리 능력을 제공한다. 이러한 고유한 조합은 특히 지능형 음성 애플리케이션과 같이 실질적인 가치를 제공하는 민첩하고 비용 효율적인 AI 에이전트 개발에 적합하다. 예를 들어 이 모델은 시각 장애인이 실시간 음성 설명을 통해 주변 환경을 인식하고 탐색할 수 있도록 지원하거나, 동영상 속 재료를 분석해 단계별 요리 가이드를 제공하는 데 활용될 수 있다. 또한 고객의 니즈를 정확히 이해하는 지능형 고객 응대 시스템 구현에도 적용 가능하다.

Qwen2.5-Omni-7B는 현재 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈소스로 공개되었으며, 큐원 챗(Qwen Chat)과 알리바바 클라우드 오픈소스 커뮤니티인 모델스코프(ModelScope)를 통해서도 접근할 수 있다. 알리바바 클라우드는 지난 몇 년간 총 200개 이상의 생성형 AI 모델을 오픈소스로 공개한 바 있다.

Qwen2.5-Omni-7B는 모든 모달리티 중에서 뛰어난 성능을 발휘하며, 유사한 규모의 단일 모달리티(single-modality) 특화 모델과 비교해도 손색이 없다. 특히 실시간 음성 상호작용, 자연스럽고 안정적인 음성 생성, 엔드투엔드 음성 명령어 이행 등에서 업계 최고 수준의 벤치마크를 제시했다.

해당 모델의 효율성과 고성능은 혁신적인 아키텍처에서 비롯된다. 대표적으로 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리하여 서로 다른 모달 간의 간섭을 최소화하는 Thinker-Talker 아키텍처(Thinker-Talker Architecture); 일관된 콘텐츠 생성을 위해 비디오 입력과 오디오를 보다 잘 동기화하는 위치 임베딩(position imbedding) 기술 TMRoPE(Time-aligned Multimodal RoPE); 그리고 끊김없는 음성 상호작용을 위한 저지연(low latency)오디오 응답을 가능하게 하는 블록와이즈 스트리밍 처리(Block-wise Streaming Processing) 등이 적용되었다.

Qwen2.5-Omni-7B는 이미지-텍스트, 영상-텍스트, 영상-음성, 음성-텍스트, 텍스트 데이터를 포함한 방대하고 다양한 데이터셋을 기반으로 사전 학습되어 다양한 작업에서 강력한 성능을 보장한다.

혁신적인 아키텍처와 고품질 사전학습 데이터셋을 바탕으로 이 모델은 음성 명령을 정확히 이해하고 수행하는 데 뛰어난 성능을 보이며, 텍스트 입력만 사용하는 경우와 유사한 수준의 성능을 달성한다. 특히 시각, 청각(acoustic), 텍스트 정보를 통합적으로 인식, 해석, 추론하는 능력을 평가하는 OmniBench 벤치마크와 같이 다양한 모달리티를 통합적으로 처리해야 하는 작업에서도 Qwen2.5-Omni는 최고 수준의 성능을 기록했다.

Qwen2.5-Omni-7B는 인컨텍스트 러닝(in-context learning, ICL)을 통해 상황과맥락에 따른 음성 이해 및 생성 능력을 향상시켰다. 또, 강화학습 (Reinforcement Learning, RL) 기반 최적화를 통해 생성 안정성에서 상당한 향상을 보였으며, 음성 응답 시 주의력 분산, 발음 오류, 부자연스러운 정지 현상 등이 현저히 감소되었다.



한편, 알리바바 클라우드는 지난해 9월 Qwen2.5를 처음 공개한 데 이어, 올해 1월에는 Qwen2.5-Max를 출시해 Chatbot Arena에서 7위를 기록, 대등한 주요 상용 모델들 대비뛰어난 성능을 입증한 바 있다. 또한 시각 이해와 장문 입력 처리를 위한 모델인 Qwen2.5-VL과 Qwen2.5-1M 등을 오픈소스로 공개했다.

Tweet

#알리바바, #클라우드, #생성형 AI


케이벤치 많이 본 기사
  [뉴스] MS, 윈도우 11에서 마침내 FAT32 포맷 32GB 용량 제한 해제
  [뉴스] ‘갤럭시S22 울트라’ 공장 초기화 주의보.. 원격 공격에 '무한 부팅' 비상
  [뉴스] S25는 되는데 FE는 안 된다…갤럭시S25 FE '에어드롭' 미지원
  [뉴스] 비쎌, 소형 습식 청소기로 1인 반려동물 가구 공략
  [뉴스] 메타, VR 헤드셋 ‘메타 퀘스트 3/3S’ 가격 최대 100달러 인상
  [기획] 붉은사막 쾌적 플레이 조건은 GPU, 정답은 SAPPHIRE 라데온 RX 9070 XT NITRO+ OC D6 16G 이엠텍
  [뉴스] 애플 '아이폰18 프로' 핵심 카메라 부품 생산 돌입
  [기획] 배틀그라운드 9주년 페스티벌 'Still Here, All Day'… 9년의 생존, 이제는 문화가 되다
  [뉴스] iOS 27 ‘애플 인텔리전스’ 탑재 핵심 기능 4종 유출
  [뉴스] 구글 차기 ‘픽셀 11’ 삼성 M16 OLED 패널 최초 탑재 루머
  [뉴스] 둠스크롤링은 이제 그만.. 유튜브, 쇼츠 피드 완전 비활성화 지원
  [기획] 개방감과 소음 제어의 공존을 꾀하다, 샥즈 '오픈핏 프로' 신제품 발표회
Copyrightⓒ 넥스젠리서치(주) 케이벤치 미디어국. www.kbench.com 인쇄 목록 위로
케이벤치 기자 / pr@kbench.com

연관기사 보기
  알리바바, 영상 생성 모델 ‘Wan2.7-Video’ 공개… 크리에이터의 영상 연출 역량 확장
  가비아, ‘클라우드 약정 요금제’ 출시… 최대 30% 할인 제공
  알리바바 클라우드, 가트너 포레스터 옴디아 등 글로벌 조사기관서 AI 클라우드 리더십 입증
  HPE, IT 현대화와 AI 수요 지원 위한 그린레이크 클라우드 포트폴리오 확장
  베스핀글로벌, HPE 공동 개최 하이브리드 클라우드 전환 전략 세미나 성료
  알리바바 클라우드, 가트너 생성형 AI 4개 전 부문에서 ‘이머징 리더’ 연속 선정
  오케스트로, ‘K-클라우드 네이티브 서밋 2025’ 기조강연 AI 시대 클라우드 네이티브 DR 전략 발표
  알리바바 클라우드, 차세대 AI 혁신을 뒷받침할 글로벌 확장 계획 발표
  보쉬-알리바바 그룹, AI 기반 디지털 혁신 위한 전략적 파트너십 확대
  알리바바, 디지털 휴먼 영상 생성 오픈소스 모델 공개
  포티넷, 포티클라우드(Forticloud) 기능 전면 확장
  알리바바 클라우드, FLock.io와 국내 대학생 개발자 대상 AI 해커톤 개최
케이벤치 이벤트/공지사항
 
[일반공지]2025/04/03 사내 워크샵으로 인한 휴뮤 안내
[일반공지]케이벤치 컨텐츠 제작자/기자 채용 공고
[공지사항][이벤트 당첨 발표] 신년 3차 착한일 이벤트 당첨자 발표
[공지사항][이벤트 당첨 발표] 신년 2차 덕담 이벤트 당첨자 발표
[공지사항][이벤트 당첨 발표] 신년 1차 장비자랑 이벤트 당첨자 발표
[이벤트][이벤트] 케이벤치 베스트 어워드 및 2022년 신년 이벤트

케이벤치 많이 본 기사 TOP 10
뉴스
기사
MS, 윈도우 11에서 마침내 FAT32 포맷 32GB 용량 제한 해제
갤럭시S25 시리즈, One UI 8.5 베타 9차 업데이트 배포.. ‘에어드롭’ 지원 추가
‘갤럭시S22 울트라’ 공장 초기화 주의보.. 원격 공격에 '무한 부팅' 비상
갤럭시 워치, 최신 업데이트 이후 '배터리 광탈' 이슈.. 구글 플레이 서비스가 원인?
애플, 아이폰 폴드 출시 앞두고 폴더블 패널 주문량 20% 늘려
삼성 ‘갤럭시 A57·A37’ 미국 판매 시작.. 구매 시 무료 케이스 증정
갤럭시 -> 아이폰 보낸 사진, EXIF 데이터 손실 오류 발견
퀄컴, 중국 CXMT와 '독자 커스텀 DRAM' 공동 개발 루머
S25는 되는데 FE는 안 된다…갤럭시S25 FE '에어드롭' 미지원
구글 차기 ‘픽셀 11’ 삼성 M16 OLED 패널 최초 탑재 루머
뉴스
기사
붉은사막 쾌적 플레이 조건은 GPU, 정답은 SAPPHIRE 라데온 RX 9070 XT NITRO+ OC D6 16G 이엠텍
배틀그라운드 9주년 페스티벌 'Still Here, All Day'… 9년의 생존, 이제는 문화가 되다
2026 상반기 최고의 기대작 붉은사막, 플레이에 더 적합한 플랫폼은?
AM5 CPU 가성비 vs 고성능, 라이젠 5 7400F와 라이젠 7 9800X3D의 현실적인 선택은?
가성비로 경험하는 8K 게이밍 마우스, 앱코 A102 PRO 8K 무선과 A102 3모드 스탠다드 그립
마이크로닉스 2026 신제품 발표회 개최, AI 시대 전력·냉각 구조 반영한 신제품 라인업 발표
에이수스(ASUS), ROG 20주년 맞아 신제품 게이밍 기어 공개 및 DRX 파트너쉽 발표
개방감과 소음 제어의 공존을 꾀하다, 샥즈 '오픈핏 프로' 신제품 발표회
완전체로 진화한 엔비디아 DLSS 4.5, 동적 프레임 생성 괜찮나?
경쟁 게임을 위한 고주사율 모니터 선택, 제이씨현 BattleG 마하 420 BG25FS