[더벨] "12년간 축적한 데이터, LLM 자체개발 원동력"
2024.08.14
① 김승기 코난테크놀로지 부사장 "매개변수별 라인업 갖춰"
"'챗GPT'를 써보고 굉장히 놀랐다. 질문을 하면 답이 다 정리돼 나오더라. 정말 인공지능(AI)의 시대가 도래했다고 느꼈다."
김승기 코난테크놀로지 부사장(사진)은 지난 9일 서울 서초구 본사에서 더벨과 만나 이같이 밝혔다. 생성형 AI에 대한 시장 수요가 폭발하는 가운데 자체 개발한 대규모언어모델(LLM) '코난LLM'을 중심으로 LLM 비즈니스에 한층 속도를 내겠다고 밝혔다.
LLM은 많은 양의 데이터로 사전 학습된 딥러닝 알고리즘이다. 오픈AI의 챗GPT는 GPT-3.5, GPT-4 등의 LLM을 바탕으로 만들어진 서비스다. 모델을 학습하는 데는 천문학적인 양의 데이터와 컴퓨팅 파워가 필요해 대규모 투자가 불가피하다. 해외 빅테크 기업이나 이들을 등에 업은 스타트업들을 위주로 개발이 이뤄지고 있는 이유다.
코난테크놀로지는 LLM의 대두 이후 가능성을 보고 시장에 뛰어들었다. 기존 비즈니스와의 시너지는 물론이고, 자체 LLM을 개발할 수 있는 여건이 마련돼 있다는 판단에서다.
김 부사장은 "LLM을 만들 때 가장 큰 장벽은 데이터다. 기업들이 자체적으로 LLM 프로젝트를 추진하다가 포기하는 것도 데이터의 부족 때문"이라며 "상상 이상으로 데이터가 많이 필요하고, 동시에 LLM에 활용할 수 있도록 잘 가공돼 있어야 한다. 양과 질 모두를 갖춰야 한다"고 말했다.
그는 데이터가 코난테크놀로지의 가장 큰 강점이라고 강조했다. 각종 이슈나 트렌드 등을 파악할 수 있도록 데이터를 수집하는 '펄스케이'를 통해 2012년부터 데이터를 수집해왔다. 약 250억건, 수십페타바이트(PB) 분량이다. 이중 양질의 데이터를 거르고 걸러 LLM을 위한 데이터셋을 만들었다.
단순히 데이터만 있다고 해서 LLM이 만들어지진 않는다. 고성능의 컴퓨터를 바탕으로 학습시켜야 한다. 코난테크놀로지는 엔비디아의 최고사양 그래픽처리장치(GPU) 'H100'을 도입해 자체 LLM 개발에 활용했다. 국내 기업 중 H100 도입 최초 사례로 알려졌다. 현재 H100 17개, 'A100' 16개 등 총 31개를 운용하는 중이다. 여러 GPU를 클러스터로 묶어 LLM 학습에 활용하고 있다.
코난테크놀로지가 처음으로 공개한 LLM은 매개변수(파라미터) 131억개(13.1B) 모델이다. 지난해 8월 첫 공개 이후 41B, 47B, 7B, 4B 등 모델을 연달아 발표했다. 김 부사장은 "처음 발표한 13.1B 모델은 비즈니스를 서포트하기에는 성능이 아쉬웠다. 그래서 41B 모델을 개발했다가 이후 이행착오를 거쳐 47B까지 키웠다. 지금 서비스 중인 모델은 4B, 7B, 13.1B, 47B 등 4개 모델"이라고 소개했다.
LLM은 매개변수가 많아질수록 성능이 향상되는 동시에 연산을 위해 필요로 하는 컴퓨팅 능력도 늘어난다. 매개변수를 무한정 늘린다고 해서 성능이 계속해서 높아지지도 않는다. 초기에는 많은 매개변수를 지닌 대형 모델이 주를 이뤘지만 최근에는 적은 매개변수에도 필요한 성능을 발휘하는 소형언어모델(SLM)이 주목받고 있다. 명확한 기준은 없으나 30B 이하 모델의 경우 SLM으로 분류하곤 하는데, 코난테크놀로지의 모델 대부분은 SLM이다.
김 부사장은 "무작정 큰 모델을 도입할 필요는 없다. 단순한 챗봇이나 특정 형태의 서비스를 위해서라면 47B가 아니라 7B나 13.1B를, 스마트폰과 같은 온디바이스라면 이에 최적화한 4B를 도입하면 된다"며 "모델이 클수록 사용 비용도 늘어나는 만큼 용도에 따라 선택하면 된다"고 피력했다.
출처 : 더벨 이종현 기자 / 2024-08-14 / 뉴스 원문 바로가기※ 위 기사는 언론사 더벨에서 2024년 08월 14일에 발행한 코난테크놀로지 관련 기사입니다.
이전글
[더벨] "LLM 사업 원년, 온프레미스·자체엔진 승부"
2024.08.14
다음글
2024.05.01