
Word2Vec은 텍스트를 이해하려는 현대 인공지능 모델, 특히 **GPT(Generative Pre-trained Transformer)**와 같은 대규모 언어 모델(LLM)의 발전에서 핵심적인 기반을 다진 기술입니다. Word2Vec이 없었다면 오늘날의 LLM도 존재하기 어려웠을 것입니다.
Word2Vec은 2013년 Google에서 개발되었으며, 그 핵심은 **"단어의 의미를 숫자 벡터로 표현하는 방법"**에 있습니다.
1. Word2Vec의 핵심 원리: 분산 표현 (Distributed Representation)
Word2Vec 이전에 단어를 표현하던 방식은 '원-핫 인코딩(One-Hot Encoding)'으로, 단어의 의미나 관계를 전혀 담지 못했습니다.
Word2Vec은 분산 표현(Distributed Representation) 개념을 도입했습니다.
"비슷한 문맥(Context)에서 등장하는 단어는 비슷한 의미를 가진다."
이 아이디어를 구현하기 위해 Word2Vec은 주변 단어를 예측하도록 신경망을 학습시킵니다. 학습이 완료되면, 각 단어는 **고정된 차원(예: 코드에서는 $\text{vector\_size}=128$)**을 가진 **밀집된 숫자 벡터(Dense Vector)**로 표현됩니다.
🔢 벡터의 의미적 관계
이 벡터들은 단순한 숫자가 아니라, 단어 간의 의미적 관계를 포함합니다. 예를 들어, 벡터 공간에서 다음과 같은 계산이 가능합니다.
이처럼 단어를 벡터 공간에 배치함으로써, 컴퓨터는 비로소 단어 간의 유사성, 유의어, 그리고 복잡한 관계를 파악할 수 있게 됩니다.
2. Word2Vec의 두 가지 학습 방식
Word2Vec 모델을 학습시키는 방법에는 두 가지가 있습니다. 코드에서 $\text{sg}=1$로 설정하신 방식은 Skip-gram입니다.
| 방식 | 파라미터 | 학습 목표 | 특징 |
| CBOW (Continuous Bag-of-Words) | $\text{sg}=0$ | 주변 단어를 가지고 중심 단어를 예측합니다. | 학습 속도가 빠르며, 자주 등장하는 단어에 효과적입니다. |
| Skip-gram | $\mathbf{sg=1}$ | 중심 단어를 가지고 주변 단어를 예측합니다. (코드가 사용한 방식) | 희귀 단어에 대해 더 좋은 성능을 보이며, 더 넓은 문맥을 학습할 수 있습니다. |
3. Word2Vec이 GPT의 조상인 이유
Word2Vec은 단어를 의미 있는 벡터로 변환하는 방법론을 확립했습니다. GPT와 같은 LLM은 이 개념을 계승하고 발전시킨 것입니다.
- 기반 제공: GPT도 결국 문장의 모든 토큰을 임베딩 벡터로 변환하는 것에서 시작합니다. Word2Vec은 이 벡터가 정교한 의미를 가질 수 있음을 증명했습니다.
- 발전 방향 제시: Word2Vec이 정적인(Static) 단어 벡터(단어마다 하나의 벡터)를 제공했다면, 이후 ELMo, BERT, 그리고 GPT는 문맥을 반영한 동적인(Contextualized) 단어 벡터를 제공하도록 발전했습니다. 즉, "Apple"이라는 단어도 문맥에 따라 (과일인지, 회사인지) 다른 벡터를 가지게 된 것입니다.
Word2Vec은 단어 임베딩의 시대를 열어, NLP 모델이 텍스트의 의미를 깊이 있게 처리할 수 있는 초석을 놓았기 때문에 현대 LLM의 '조상'으로 불립니다.
'AI 엔지니어준비' 카테고리의 다른 글
| 🚀 Streamlit으로 AI 모델 웹 앱 만들기: 3단계 완전 정복! 🛠️ (0) | 2026.01.05 |
|---|---|
| 🚀 LangSmith 사용 여부의 차이점 (0) | 2025.12.04 |
| 💡 문서 분류 코드의 기본 아키텍처 및 진행 이유 (0) | 2025.11.14 |
| ❓ 전이 학습(Transfer Learning)이 무엇인지와 이미지 분류 모델에서의 활용 방법에 대해 (0) | 2025.09.29 |
| ❓ 데이터 증강(Data Augmentation)이 무엇인지 그리고 이미지 데이터에 주로 사용되는 증강 기법에 대해 (0) | 2025.09.29 |