1. LLM이란 무엇인가?
LLM(Large Language Model)은 대규모 텍스트 데이터를 학습해 인간과 유사한 자연어 처리를 수행할 수 있는 인공지능 모델입니다.
GPT, LLaMA, Claude 같은 모델이 대표적이며, 텍스트 생성, 요약, 번역, 질의응답 등 다양한 작업을 수행합니다.
기존에는 클라우드 기반 API를 많이 썼지만, 보안·비용·속도 문제로 인해 로컬 데이터와 결합한 LLM 활용이 점점 중요해지고 있습니다.
2. Hugging Face 소개
Hugging Face는 LLM 및 다양한 AI 모델을 공유·배포하는 오픈 플랫폼입니다.
- 모델 허브(Model Hub): 전 세계 연구자들이 공개한 모델들을 다운로드 가능
- Transformers 라이브러리: 파이썬 기반, NLP/LLM 모델 실행 표준
- Datasets & Spaces: 데이터셋 공유 및 데모 앱 배포 지원
즉, LLM 생태계의 GitHub 같은 존재라고 보면 됩니다.
로컬 환경에서도 Hugging Face를 통해 필요한 모델을 가져와 직접 학습·실행할 수 있습니다.
3. KT 믿음
한국어 특화 LLM의 대표 사례로 KT의 "믿음" 모델이 있습니다.
- 한국어 대화·검색·요약에 최적화
- 기업 환경에서 활용할 수 있도록 API와 SDK 제공
- 특정 산업군(예: 금융, 의료 등) 맞춤형 파인튜닝 가능
국내 데이터와 문맥에 강점을 가지므로, 글로벌 모델보다 한국어 대응력이 좋은 장점이 있습니다.
4. 앞으로의 로드맵
앞으로는 로컬 데이터 기반 LLM 활용을 정리해 공유하려 합니다.
예상되는 주제는:
- 로컬 데이터 불러오기 – 문서, DB, CSV 등을 LLM과 연결
- 임베딩(Embedding)과 검색(RAG) – 검색 기반 LLM 구조 이해
- 한국어 특화 모델 비교 – KT 마음, KoGPT, Polyglot 등
- 실제 구축 예제 – Hugging Face 모델 + 로컬 데이터 연결 실습 ( 지역 내 로컬 데이터의 위치정보, 통계, 기타 등)
- 보안과 프라이버시 고려사항 – 적용 시 체크리스트