본문 바로가기
인공지능/생성형 AI

[생성형 AI] Transformer 구조

by 클레어몬트 2025. 2. 16.

https://claremont.tistory.com/entry/LLM-LLM-%EB%B0%B0%EA%B2%BD-%EB%B0%8F-%EA%B5%AC%EC%A1%B0-%EC%9D%B4%ED%95%B4

 

[생성형 AI] 자연어 처리(NLP, Natural Language Processing) 개념

ㅁ자연어 처리(NLP, Natural Language Processing): 컴퓨터가 인간의 언어(자연어)를 이해하고 처리할 수 있도록 하는 기술텍스트 데이터에서 의미를 추출하고, 문장을 생성하는 등의 작업을 수행하며,

claremont.tistory.com

 

 

 

ㅁTransformer 구조: 딥러닝 기반 자연어 처리 혁신

입력 문장의 각 단어는 단순히 이전 단어에서만 영향을 받는 것이 아니라, 전체 문맥을 고려하여 변환("transformer")된 표현 벡터로 바뀐다

 

Transformer는 2017년 Google이 논문 "Attention is All You Need"에서 제안한 모델로, 기존 순환신경망(RNN)과 LSTM의 한계를 극복하고 자연어 처리(NLP) 분야에서 혁신적인 성능을 보여주었다. 특히 Self-Attention 메커니즘을 활용하여 문맥(context)을 보다 효과적으로 이해하고 처리할 수 있다.

 

 

ㅇSelf-Attention 메커니즘: 문장 내 단어들이 서로 어떤 관계를 갖고 있는지를 계산하는 핵심 기술

이를 통해 모델은 문장의 모든 단어가 서로 어떤 의미적 연결을 가지는지를 학습한다

 

(Self-Attention 과정)

  1. Query(Q), Key(K), Value(V) 행렬 생성
    • 입력 문장의 각 단어를 벡터로 변환하고, Query, Key, Value 행렬을 만든다
    • Query(Q): 해당 단어가 다른 단어들과 얼마나 연관이 있는지를 묻는 값
    • Key(K): 각 단어가 어떤 의미를 가지고 있는지 나타내는 값 (feat. 자기소개)
    • Value(V): 해당 단어의 실제 의미를 나타내는 값
  2. Attention Score 계산
    • Query와 Key의 내적을 계산하여 문장 내 단어 간 유사도를 측정한다
  3. Softmax를 적용하여 가중치 부여
    • Attention Score에 Softmax 함수를 적용해 확률 값을 얻는다
  4. 가중치를 적용한 Value 계산
    • Softmax 결과를 Value에 곱하여 최종적인 출력값을 얻는다

 

[Encoder-Decoder 구조]
Transformer는 기본적으로 Encoder-Decoder 구조를 가진다

- Encoder : 입력 문장의 의미를 벡터로 추출

- Decoder : 인코더 결과를 해석하여 목표 문장 생성

 

GPT는 Encoder 없이 Decoder만 활용하는 구조를 사용한다
https://claremont.tistory.com/entry/%EC%83%9D%EC%84%B1%ED%98%95-AI-GPT-%EA%B0%9C%EB%85%90

 

[생성형 AI] GPT 개념

https://claremont.tistory.com/entry/LLM-LLM-%EB%B0%B0%EA%B2%BD-%EB%B0%8F-%EA%B5%AC%EC%A1%B0-%EC%9D%B4%ED%95%B4 [생성형 AI] 자연어 처리(NLP, Natural Language Processing) 개념ㅁ자연어 처리(NLP, Natural Language Processing): 컴퓨터가 인

claremont.tistory.com

 

 

[Transformer ~ GPT]

 

 

 

 

(참고)

2017년 Google 논 "Attention is All You Need"

paper-attention.pdf
2.11MB

 

여기서 Transformer 모델이 처음 제안됐다

딥러닝 역사에서 가장 중요한 논문 중 하나이므로, AI 연구나 딥러닝을 공부하는 사람이라면 반드시 읽어야 할 필독 논문이다!