본문 바로가기
오늘의 기업 뉴스(모아보기)

마이크로소프트 뉴스 10.09.

by BORAV 2023. 10. 9.
반응형

1. 자체 AI 칩 '아테나' 11월 공개

 오늘 10.9. 월요일 뉴스에 따르면 마이크로 소프트가  11월14~17일 시애틀에서 열리는 'MS 이그나이트'에서 AI 칩을 공개할 것이라고 합니다. 마이크로 소프트의  새로운 칩은 2019년부터 프로젝트 '아테나(Athena)'라는 이름으로 개발해온 대형언어모델(LLM) 훈련 및 추론을 위한 데이터 센터의 서버용이라고 합니다.
'아테나 칩'은 엔디비아의 GPU 제품을 완전히 대체하는 것이 아닌 '보조' 역할을 하면서 GPU에 대한 의존도와 비용을 줄이는 데 큰 도움이 될 것으로 보고 있습니다. 더불어  인공지능(AI)을 활용한 데이터 압축이 기존 데이터 압축 알고리즘보다 더 효과적이라는 연구 결과가 나왔습니다. 이는 대형언어모델(LLM)이 언어처리와 예측뿐만 아니라 데이터 압축에도 효과적인 도구가 될 수 있다는 것을 시사합니다.



2. 대형 언어 모델(LLM)이란?


 방대한 양의 텍스트 데이터로 훈련된 인공 신경망을 말합니다. LLM은 자연어 처리(NLP)의 다양한 작업에 사용될 수 있으며, 텍스트 생성, 언어 번역, 질의 응답, 요약 등 다양한 작업을 수행할 수 있습니다.
 LLM은 크게 두 가지 유형으로 나눌 수 있습니다. 첫 번째 유형은 트랜스포머(Transformer) 모델입니다. 트랜스포머 모델은 셀프 어텐션(self-attention)이라는 기술을 사용하여 텍스트의 순서에 관계없이 단어 간의 관계를 학습합니다. 두 번째 유형은 RNN(Recurrent Neural Network) 모델입니다. RNN 모델은 텍스트의 순서를 고려하여 단어 간의 관계를 학습합니다.

 

 

3. 대형 언어 모델(LLM)의 주요 특징

  • 대규모 텍스트 데이터로 훈련됨: LLM은 방대한 양의 텍스트 데이터로 훈련되어 텍스트의 의미를 이해하고 창의적인 출력을 생성할 수 있습니다.
  • 셀프 어텐션을 사용함: LLM은 셀프 어텐션을 사용하여 텍스트의 각 단어가 다른 단어와의 관계를 이해합니다. 이를 통해 LLM은 텍스트의 의미를 더 잘 이해하고 더 창의적이고 유익한 출력을 생성할 수 있습니다.
  • 다양한 자연어 처리 작업을 수행할 수 있음: LLM은 텍스트 생성, 번역, 요약, 질문 답변, 코드 생성 등 다양한 자연어 처리 작업을 수행할 수 있습니다.

 

4. 구글 딥마인드의  LLM 압축 관련 논문 발표

    딥마인드는 최근 '언어 모델링은 압축이다'라는 제목의 아카이브(arXiv) 연구 논문에서 자체 LLM '친칠라 70B(Chinchilla 70B)'가 이미지넷(ImageNet) 데이터베이스의 이미지에 대해 원래 크기의 43.4%로 무손실 압축을 수행할 수 있으며, 이는 PNG 알고리즘으로 기록한 압축률 58.5%를 능가한다는 사실을 연구하고 발표했습니다. 효과적인 압축은 정보 손실 없이 데이터를 더 작게 만드는 패턴을 찾는 것이다. 알고리즘이나 모델이 다음 데이터 조각을 정확하게 예측할 수 있으면, 이러한 패턴을 잘 찾아낼 수 있다고 밝혔습니다. [출처-(https://www.aitimes.com)]



 

5. 한국의 대형언어모델(LLM) 개발 상황

 네이버, SK텔레콤, KT, LG AI 연구원 등 국내 대형언어모델(LLM) 기업이 셀렉트스타, 스캐터랩 등 인공지능(AI) 전문 스타트업과 컨소시엄을 꾸려 LLM 벤치마크 사업에 참가한다고 합니다.

[출처-(https://www.aitimes.com)]



 

LLM은 아직 개발 초기 단계에 있지만, 다양한 분야에서 이미 혁신을 일으키고 있습니다. 발빠르게 기술에 대한 연구와 개발에 마이크로소프트와 구글이 앞장서고 있습니다. 관심을 가져야할 부분입니다.



반응형

# 로딩 화면 동작 코드(Code) 설정하기
loading