ㅁ자연어 처리(NLP, Natural Language Processing): 컴퓨터가 인간의 언어(자연어)를 이해하고 처리할 수 있도록 하는 기술
텍스트 데이터에서 의미를 추출하고, 문장을 생성하는 등의 작업을 수행하며, 인공지능(AI)과 데이터 과학에서 중요한 분야이다. 그리고 이 NLP 분야에서 가장 주목받는 기술 중 하나가 바로 이 대규모 언어 모델(LLM, Large Language Model)이다.
1️⃣ 텍스트 전처리(Text Preprocessing)
컴퓨터는 자연어를 직접 이해할 수 없기 때문에, NLP 작업을 수행하기 전에 데이터를 정제하는 과정이 필요하다
1-1. 토큰화(Tokenization): 문장을 단어 또는 subword 단위로 분리
e.g. "자연어 처리는 어렵다." → ["자연어", "처리", "는", "어렵다", "."]
※ 한국어는 띄어쓰기 규칙이 애매한 경우가 많아 영어보다 어려움 (예: “밥먹었어?” → ["밥", "먹었어", "?"])
1-2. 형태소 분석(Morphological Analysis): 단어를 구성하는 형태소(최소 의미 단위)를 분석
e.g. "먹었다" → 먹(동사) + 었(과거형) + 다(어미)
※ 한국어에서는 Mecab, Kkma, KoNLPy 등의 라이브러리를 사용
1-3. 불용어(Stopword) 제거: 의미 없는 단어 제거 (는, 은, 이, 가 같은 조사)
1-4. 정규화(Normalization): 같은 의미지만 다른 형태의 단어를 통합
e.g. "컴퓨터", "컴퓨터를" → "컴퓨터"
2️⃣ 자연어 이해(NLU, Natural Language Understanding)
자연어의 의미를 이해하고 분석하는 과정이다
2-1. 품사 태깅(Part-of-Speech Tagging, POS tagging): 단어의 문법적 역할을 태깅
e.g. "나는 학교에 간다" → [('나', 대명사), ('는', 조사), ('학교', 명사), ('에', 조사), ('간다', 동사)]
2-2. 구문 분석(Parsing): 문장 구조를 분석해 주어, 목적어, 동사 등을 파악하는 기술
2-3. 개체명 인식(Named Entity Recognition, NER): 문장에서 특정 개체(사람, 장소, 날짜 등)를 인식하는 기술
e.g. "이순신 장군은 한산도에서 승리를 거두었다" → [(이순신, 인물), (한산도, 지명)]
2-4. 의미 분석(Semantic Analysis): 문맥을 고려한 단어의 의미를 해석
e.g. "머리를 잘랐다" → 머리카락의 머리 vs 진짜 신체부위 머리 ㅋㅋ
3️⃣ 자연어 생성(NLG, Natural Language Generation)
컴퓨터가 사람처럼 자연어 문장을 생성하는 기술이다
3-1. 기계 번역(Machine Translation, MT)
서비스 예시: Google 번역, Papago
대표적인 모델: Transformer 기반의 BERT, GPT, T5 등
3-2. 텍스트 요약(Text Summarization): 긴 문서를 요약하여 핵심 내용만 전달
추출 요약 vs 생성 요약
3-3. 질문 응답(QA, Question Answering)
e.g. "한국의 수도는?" → "서울"
대표 모델: BERT-QA, GPT 기반 챗봇
4️⃣ 언어 모델(Language Model, LM)
NLP에서 중요한 개념 중 하나로, 주어진 단어들로부터 "다음 단어를 예측"하는 확률 모델이다
[전통적인 언어 모델]
- N-gram: 단어의 출현 확률을 이전 N개의 단어와 비교하여 예측하는 방식
e.g. "나는 밥을" → "먹는다"가 나올 확률 계산
[신경망 기반 언어 모델(딥러닝 기반)]
- RNN(Recurrent Neural Network): 순차적인 데이터를 다루는 모델이지만, 긴 문장에서 기억력 문제(Vanishing Gradient) 발생
- LSTM(Long Short-Term Memory): RNN의 단점(장기 기억 어려움)을 보완하여 장기 의존성(Long-Term Dependency) 해결
- Transformer(GPT, BERT, T5, ...): "Self-Attention 메커니즘"을 사용하여 문장 전체를 고려
최근에는 Transformer 기반 모델(GPT, BERT 등)이 NLP 발전을 주도하고 있다
(NLP의 대표적인 활용 분야)
- 챗봇(Chatbot)
e.g. GPT 기반 AI 챗봇, Siri, Google Assistant
- 음성 인식(Speech Recognition)
e.g. 구글 음성 검색, 애플 Siri, 아마존 Alexa
- 기계 번역(Machine Translation)
e.g. Google Translate, Papago
- 감성 분석(Sentiment Analysis)
e.g. SNS 댓글에서 긍정/부정 감정 분석
- 문서 요약(Document Summarization)
e.g. 뉴스 요약 서비스
'인공지능 > 생성형 AI' 카테고리의 다른 글
[생성형 AI] AGI(Artificial General Intelligence): 인공지능의 최종 목표 (1) | 2025.02.17 |
---|---|
[생성형 AI] LLM의 Tool Calling(도구 호출)이란? (0) | 2025.02.17 |
[생성형 AI] RAG (Retrieval-Augmented Generation) 개요 (0) | 2025.02.17 |
[생성형 AI] GPT 개념 (2) | 2025.02.16 |
[생성형 AI] Transformer 구조 (0) | 2025.02.16 |