2023 인공지능 관련 국내외 기술, 산업, 정책, R&D 동향

320x100

[KISTEP+브리프]+2023+인공지능.pdf

3.10MB

(좌)인공지능 연산속도 발전 추이, (우)인공지능 분야 하이퍼사이클/ 출처: 소프트웨어정책연구소(2023), Gartner(2023)

주요국 인공지능 국가전략(최초 수립 시점 기준) / 출처: 한국지능정보사회진흥원(2022)

컴퓨터 비전･이미지 분야

최근 산업･사회적으로 큰 파급력을 갖는 대화형 생성형 인공지능의 기원은 이미지 원본의 압축-복원하는 오토인코더(AutoEncorder)로부터 비롯

생성형 인공지능의 본격적인 시작을 알린 적대적 생성 신경망(’16~’20)과 변분 오토인코더(Variational Auto Encoder, VAE)의 등장 (’18.~’21.)

이미지 생성 분야에 가장 주목받는 기술인 확산모델(Diffusion model)은 생성된 이미지의 품질을 획기적으로 향상(’20년~)

자연어처리를 위한 대형언어모델

언어모델(Language Model)은 주어진 문장이나 단어 다음에 올 단어의 확률을 예측하는 것으로써 그간 자연어 처리 과업에 있어 가장 어려운 문제로 인식

트랜스포머(transformer)의 등장과 언어모델의 혁신(’17)

트랜스포머를 언어 모델에 적용하여 다양한 자연어 처리 과업에 활용할 수 있는 사전학습 언어모델의 등장(’18년~’20년)

사전학습 언어모델의 규모를 확장한 대형언어모델의 등장(’20년~)

대형언어모델 진화에 따른 대화 기반 생성형 인공지능의 본격적인 등장(’22년~)

멀티모달

멀티모달(Multi Modal)은 복합 지능 구현을 위해 텍스트, 이미지, 음성, 신호 등 두 가지 이상의 입력신호를 결합한 인공지능 기술

생성형 인공지능 기반 멀티모달을 일반화한 기반 모델(Foundation model)의 등장(’21.)

이미지 생성 기술과 대형언어모델을 접목한 텍스트-이미지(Text-to-Image) 생성 모델이 대표적이며, 대화형 인공지능의 입력 프롬프트의 다변화 본격화

해외 주요 기업 동향

OpenAI

l 가장 높은 일반지식, 문제해결력, 창의성을 갖춘 것으로 평가받는 GPT-4를 출시(’23.03.)하며 기술･산업을 선도 ※ 첫 개발자 컨퍼런스에서는 GPT-4 Turbo를 공개 (’23.11.)
- 기존 모델(ChatGPT, GPT-3.5) 대비 인식･추론기능의 향상, 이미지 입력을 인식하는 멀티모달, 대화 메모리 향상 등 기능을 탑재
※ GPT-4는 마이크로소프트社 Azure 클라우드의 슈퍼컴퓨터에서 학습되었으며, 이에 최적화된 AI인프라 서비스 제공 예정

구글

고성능 초거대 인공지능 모델인 PaLM(Pathways Language Model)을 공개(’22.04.)

구글은 ChatGPT에 대항하기 위해 대화형 AI인 Bard를 공개(’23.03.)

구글 딥마인드는 차세대 멀티모달 인공지능인 Gemini를 공개(’23.12.)하고 자사 Bard 서비스의 기존 기반 모델인 PaLM2를 대체

Imagen이라는 텍스트-이미지 생성 모델을 제공하고 있으며, 구조는 유사하게 언어 모델과 확산모델을 사용했으며 포토리얼리스틱에서 강점을 보임

인공지능 인프라 및 생태계 저변 확대를 위해 노력 중

마이크로소프트

마이크로소프트는 OpenAI의 최대 투자자(’23년 현재 49% 지분 보유)로써 GPT 독점사용권을
활용하여 자사 클라우드 및 주요 제품군에 적극적으로 접목함으로써 경쟁력 강화 중

자체적인 언어모델 역시 고도화 중이며, NVIDIA와의 협업을 통해 가장 강력한 AI플랫폼
구축을 위한 다년간의 협업을 추진

메타

마이크로소프트와 함께 연구 및 상용 목적으로 이용할 수 있는 오픈소스 대규모 언어모델
(LLM) ‘Llama 2’ 공개(’23.07.)

Llama 2 외에도 그간 대규모 언어모델을 중심으로 지속적인 개발 및 공개

수백가지 언어 지원, 텍스트, 이미지, 비디오 등 복합 정보를 지원하는 메타버스 도구 개발을
위한 초거대 AI 개발을 목표로 인프라 투자에도 적극적

스태빌리티 AI

텍스트를 이미지로 변환하는 오픈소스 이미지 생성 AI 모델 ‘스테이블 디퓨전(Stable
Diffusion)’의 최신 버전으로 XL 1.0(이하 SDXL 1.0)을 공개(’23.07.)

미드저니

사실적인 묘사와 추상적 표현에 특화되어 있어 텍스트 입력만으로 실제 화가의 창작물과
유사한 형태의 이미지 생성이 가능한 멀티모달 서비스 제공

텍스트-이미지 생성 서비스로 고해상도 고품질 이미지를 생성할 수 있으며, 미드저니의
생성 이미지가 미술대회 1등을 차지하며 논란 심화(’22.08.)

728x90

저작자표시 비영리 변경금지

'인공지능' 카테고리의 다른 글

"AI의 새로운 변화, GPT 스토어의 등장", 20달러만 내면… 나만의 AI (69)	2024.01.22
일론 머스크, 빨래개는 가사도우미 로봇 공개. 과학의 진보 혹은 논란의 중심? (42)	2024.01.20
열 손가락 지문 다 다르다는 상식 깨질까...AI가 한 사람의 지문 유사성 확인 (54)	2024.01.16
전문가들 "AI는 좋은 UI·UX로 일상에 녹아들 것". 좋은 AI 시스템은 작동하는 UI 또는 더 효과적인 UX일 뿐 (32)	2023.12.24
"누구나 팝송 만들어 발표 가능"...MS의 AI 챗봇 '코파일럿'을 활용 음악 생성 AI 솔루션 수노 Suno 탑재 (31)	2023.12.23

최신 해양수산, 기상기후 관련 시사과학 정보를 전합니다

2023 인공지능 관련 국내외 기술, 산업, 정책, R&D 동향

컴퓨터 비전･이미지 분야

최근 산업･사회적으로 큰 파급력을 갖는 대화형 생성형 인공지능의 기원은 이미지 원본의 압축-복원하는 오토인코더(AutoEncorder)로부터 비롯

생성형 인공지능의 본격적인 시작을 알린 적대적 생성 신경망(’16~’20)과 변분 오토인코더(Variational Auto Encoder, VAE)의 등장 (’18.~’21.)

이미지 생성 분야에 가장 주목받는 기술인 확산모델(Diffusion model)은 생성된 이미지의 품질을 획기적으로 향상(’20년~)

자연어처리를 위한 대형언어모델

언어모델(Language Model)은 주어진 문장이나 단어 다음에 올 단어의 확률을 예측하는 것으로써 그간 자연어 처리 과업에 있어 가장 어려운 문제로 인식

트랜스포머(transformer)의 등장과 언어모델의 혁신(’17)

트랜스포머를 언어 모델에 적용하여 다양한 자연어 처리 과업에 활용할 수 있는 사전학습 언어모델의 등장(’18년~’20년)

사전학습 언어모델의 규모를 확장한 대형언어모델의 등장(’20년~)

대형언어모델 진화에 따른 대화 기반 생성형 인공지능의 본격적인 등장(’22년~)

멀티모달

멀티모달(Multi Modal)은 복합 지능 구현을 위해 텍스트, 이미지, 음성, 신호 등 두 가지 이상의 입력신호를 결합한 인공지능 기술

생성형 인공지능 기반 멀티모달을 일반화한 기반 모델(Foundation model)의 등장(’21.)

이미지 생성 기술과 대형언어모델을 접목한 텍스트-이미지(Text-to-Image) 생성 모델이 대표적이며, 대화형 인공지능의 입력 프롬프트의 다변화 본격화

해외 주요 기업 동향

구글

고성능 초거대 인공지능 모델인 PaLM(Pathways Language Model)을 공개(’22.04.)

구글은 ChatGPT에 대항하기 위해 대화형 AI인 Bard를 공개(’23.03.)

구글 딥마인드는 차세대 멀티모달 인공지능인 Gemini를 공개(’23.12.)하고 자사 Bard 서비스의 기존 기반 모델인 PaLM2를 대체

Imagen이라는 텍스트-이미지 생성 모델을 제공하고 있으며, 구조는 유사하게 언어 모델과 확산모델을 사용했으며 포토리얼리스틱에서 강점을 보임

인공지능 인프라 및 생태계 저변 확대를 위해 노력 중

마이크로소프트

마이크로소프트는 OpenAI의 최대 투자자(’23년 현재 49% 지분 보유)로써 GPT 독점사용권을
활용하여 자사 클라우드 및 주요 제품군에 적극적으로 접목함으로써 경쟁력 강화 중

자체적인 언어모델 역시 고도화 중이며, NVIDIA와의 협업을 통해 가장 강력한 AI플랫폼
구축을 위한 다년간의 협업을 추진

메타

마이크로소프트와 함께 연구 및 상용 목적으로 이용할 수 있는 오픈소스 대규모 언어모델
(LLM) ‘Llama 2’ 공개(’23.07.)

Llama 2 외에도 그간 대규모 언어모델을 중심으로 지속적인 개발 및 공개

수백가지 언어 지원, 텍스트, 이미지, 비디오 등 복합 정보를 지원하는 메타버스 도구 개발을
위한 초거대 AI 개발을 목표로 인프라 투자에도 적극적

스태빌리티 AI

텍스트를 이미지로 변환하는 오픈소스 이미지 생성 AI 모델 ‘스테이블 디퓨전(Stable
Diffusion)’의 최신 버전으로 XL 1.0(이하 SDXL 1.0)을 공개(’23.07.)

미드저니

사실적인 묘사와 추상적 표현에 특화되어 있어 텍스트 입력만으로 실제 화가의 창작물과
유사한 형태의 이미지 생성이 가능한 멀티모달 서비스 제공

텍스트-이미지 생성 서비스로 고해상도 고품질 이미지를 생성할 수 있으며, 미드저니의
생성 이미지가 미술대회 1등을 차지하며 논란 심화(’22.08.)

'인공지능' 카테고리의 다른 글

티스토리툴바

2023 인공지능 관련 국내외 기술, 산업, 정책, R&D 동향

컴퓨터 비전･이미지 분야

최근 산업･사회적으로 큰 파급력을 갖는 대화형 생성형 인공지능의 기원은 이미지 원본의 압축-복원하는 오토인코더(AutoEncorder)로부터 비롯

생성형 인공지능의 본격적인 시작을 알린 적대적 생성 신경망(’16~’20)과 변분 오토인코더(Variational Auto Encoder, VAE)의 등장 (’18.~’21.)

이미지 생성 분야에 가장 주목받는 기술인 확산모델(Diffusion model)은 생성된 이미지의 품질을 획기적으로 향상(’20년~)

자연어처리를 위한 대형언어모델

언어모델(Language Model)은 주어진 문장이나 단어 다음에 올 단어의 확률을 예측하는 것으로써 그간 자연어 처리 과업에 있어 가장 어려운 문제로 인식

트랜스포머(transformer)의 등장과 언어모델의 혁신(’17)

트랜스포머를 언어 모델에 적용하여 다양한 자연어 처리 과업에 활용할 수 있는 사전학습 언어모델의 등장(’18년~’20년)

사전학습 언어모델의 규모를 확장한 대형언어모델의 등장(’20년~)

대형언어모델 진화에 따른 대화 기반 생성형 인공지능의 본격적인 등장(’22년~)

멀티모달

멀티모달(Multi Modal)은 복합 지능 구현을 위해 텍스트, 이미지, 음성, 신호 등 두 가지 이상의 입력신호를 결합한 인공지능 기술

생성형 인공지능 기반 멀티모달을 일반화한 기반 모델(Foundation model)의 등장(’21.)

이미지 생성 기술과 대형언어모델을 접목한 텍스트-이미지(Text-to-Image) 생성 모델이 대표적이며, 대화형 인공지능의 입력 프롬프트의 다변화 본격화

해외 주요 기업 동향

구글

고성능 초거대 인공지능 모델인 PaLM(Pathways Language Model)을 공개(’22.04.)

구글은 ChatGPT에 대항하기 위해 대화형 AI인 Bard를 공개(’23.03.)

구글 딥마인드는 차세대 멀티모달 인공지능인 Gemini를 공개(’23.12.)하고 자사 Bard 서비스의 기존 기반 모델인 PaLM2를 대체

Imagen이라는 텍스트-이미지 생성 모델을 제공하고 있으며, 구조는 유사하게 언어 모델과 확산모델을 사용했으며 포토리얼리스틱에서 강점을 보임

인공지능 인프라 및 생태계 저변 확대를 위해 노력 중

마이크로소프트

마이크로소프트는 OpenAI의 최대 투자자(’23년 현재 49% 지분 보유)로써 GPT 독점사용권을 활용하여 자사 클라우드 및 주요 제품군에 적극적으로 접목함으로써 경쟁력 강화 중

자체적인 언어모델 역시 고도화 중이며, NVIDIA와의 협업을 통해 가장 강력한 AI플랫폼 구축을 위한 다년간의 협업을 추진

메타

마이크로소프트와 함께 연구 및 상용 목적으로 이용할 수 있는 오픈소스 대규모 언어모델 (LLM) ‘Llama 2’ 공개(’23.07.)

Llama 2 외에도 그간 대규모 언어모델을 중심으로 지속적인 개발 및 공개

수백가지 언어 지원, 텍스트, 이미지, 비디오 등 복합 정보를 지원하는 메타버스 도구 개발을 위한 초거대 AI 개발을 목표로 인프라 투자에도 적극적

스태빌리티 AI

텍스트를 이미지로 변환하는 오픈소스 이미지 생성 AI 모델 ‘스테이블 디퓨전(Stable Diffusion)’의 최신 버전으로 XL 1.0(이하 SDXL 1.0)을 공개(’23.07.)

미드저니

사실적인 묘사와 추상적 표현에 특화되어 있어 텍스트 입력만으로 실제 화가의 창작물과 유사한 형태의 이미지 생성이 가능한 멀티모달 서비스 제공

텍스트-이미지 생성 서비스로 고해상도 고품질 이미지를 생성할 수 있으며, 미드저니의 생성 이미지가 미술대회 1등을 차지하며 논란 심화(’22.08.)

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바

마이크로소프트는 OpenAI의 최대 투자자(’23년 현재 49% 지분 보유)로써 GPT 독점사용권을
활용하여 자사 클라우드 및 주요 제품군에 적극적으로 접목함으로써 경쟁력 강화 중

자체적인 언어모델 역시 고도화 중이며, NVIDIA와의 협업을 통해 가장 강력한 AI플랫폼
구축을 위한 다년간의 협업을 추진

마이크로소프트와 함께 연구 및 상용 목적으로 이용할 수 있는 오픈소스 대규모 언어모델
(LLM) ‘Llama 2’ 공개(’23.07.)

수백가지 언어 지원, 텍스트, 이미지, 비디오 등 복합 정보를 지원하는 메타버스 도구 개발을
위한 초거대 AI 개발을 목표로 인프라 투자에도 적극적

텍스트를 이미지로 변환하는 오픈소스 이미지 생성 AI 모델 ‘스테이블 디퓨전(Stable
Diffusion)’의 최신 버전으로 XL 1.0(이하 SDXL 1.0)을 공개(’23.07.)

사실적인 묘사와 추상적 표현에 특화되어 있어 텍스트 입력만으로 실제 화가의 창작물과
유사한 형태의 이미지 생성이 가능한 멀티모달 서비스 제공

텍스트-이미지 생성 서비스로 고해상도 고품질 이미지를 생성할 수 있으며, 미드저니의
생성 이미지가 미술대회 1등을 차지하며 논란 심화(’22.08.)