[벡터 DB] 초보자도 쉽게 이해하는 벡터 DB 개념
ㅇ벡터 DB(Vector DataBase): 데이터를 벡터(Vector)로 변환하여 저장하고, 이를 빠르게 검색할 수 있도록 설계된 DB주로 AI, 머신러닝, RAG(Retrieval-Augmented Generation)에서 유사한 데이터 검색에 사용된다 💡
claremont.tistory.com
일단 벡터 DB란 무엇인가?
기존의 관계형 데이터베이스(RDBMS)는 정형 데이터를 테이블 형식으로 저장하고 다루는 데 최적화되어 있다.
그리고 NoSQL은 이보다 더 유연한 구조로, 반정형 또는 비정형 데이터를 처리하며, 키-값, 문서, 그래프 등 다양한 형태를 지원한다.
그렇다면 벡터 DB는 어떤 목적을 위한 데이터베이스일까?
벡터 DB는 바로 완전한 비정형 데이터를 벡터(숫자 배열)로 변환해 저장하고 검색할 수 있도록 설계된 데이터베이스이다. 예를 들어, 이미지, 오디오, 텍스트, 영상 등의 데이터를 딥러닝 기반 임베딩 모델을 통해 고차원의 벡터로 변환한 뒤, 이를 저장하고 유사도 검색을 수행하는 데 특화되어 있다.
이러한 벡터 DB는 특히 최근 주목받는 생성형 AI(Generative AI) 기술, 그중에서도 RAG(Retrieval-Augmented Generation) 구조에서 핵심 역할을 한다.
질문에 대해 더 정확하고 문맥 있는 답변을 생성하기 위해, 벡터 DB에서 관련 벡터를 검색해 생성 모델에 전달하는 방식으로 사용된다.
1. 벡터 저장 공간의 분류
벡터를 저장할 수 있는 공간은 세 가지로 구분할 수 있다
2. 주요 벡터 DB 비교
각 벡터 데이터베이스의 특징, 장점, 단점은 다음과 같다
3. 그러면 어떤 벡터 DB를 선택해야 할까?
벡터 DB는 단순한 검색 도구가 아니라, AI 응용 시스템의 핵심 인프라이다. 어떤 DB를 선택하느냐에 따라 성능, 확장성, 관리 편의성이 크게 달라질 수 있으므로 목적에 맞는 선택이 필요하다. 초기에는 Chroma나 Faiss로 실험을 시작하고, 점차 Pinecone, Weaviate, Milvus와 같은 고성능 DB로 확장하는 접근도 좋은 전략이 될 수 있다!
+ 개인적인 생각
기존의 DB가 구조화된 정보 중심이었다면, 벡터 DB는 비정형 데이터 시대에 걸맞은 새로운 저장 방식이라 느껴진다.
‘정답’이 정해지지 않은 복잡한 데이터를 다루는 데 있어, 사람이 이해하기 쉬운 방식이 아니라 기계가 유사성을 계산할 수 있는 방식(벡터)으로 데이터를 저장하고 검색한다는 점이 인상 깊었다.
앞으로 생성형 AI가 더 발전함에 따라, 벡터 DB는 단순한 보조 도구가 아니라 AI 서비스의 핵심 인프라로 자리잡을 가능성이 높다고 생각한다. 나 역시 프로젝트나 실험을 통해 직접 벡터 DB를 다뤄보며 그 흐름을 체감해보니 실로 놀라웠다. 완전 놀랄 노자야~
(벡터 DB 활용 프로젝트) - ChromaDB
https://github.com/imclaremont/lawbot-project
GitHub - imclaremont/lawbot-project: 개인정보 보호법 기반 AI 법률 지원 서비스
개인정보 보호법 기반 AI 법률 지원 서비스. Contribute to imclaremont/lawbot-project development by creating an account on GitHub.
github.com
'DBMS > 벡터 DB' 카테고리의 다른 글
[벡터 DB] 초보자도 쉽게 이해하는 벡터 DB 개념 (0) | 2025.03.10 |
---|