Embedding(임베딩)

텍스트(문장, 단락, 문서 등)를 **고차원 실수 벡터(예: 768차원, 1536차원)**로 변환하는 기술
이 벡터는 의미적 유사도를 반영하도록 학습되어 있어서, 서로 의미가 비슷한 문장은 벡터 공간에서 가깝다

Embedding 내부 구조

Embedding Vector 특징

고정 길이 : 모든 문장은 768차원 같은 고정된 벡터로 변환됨
의미 기반 거리 : 코사인 유사도(cosine similarity)로 의미적 거리 측정
문서 길이 제한 존재 : 모델 입력 토큰 제한이 있어 텍스트 chunking 필요
분포 기반 : 의미가 비슷한 문장은 같은 방향의 벡터를 가짐

단순 Bag-of-Words가 아니라 Transformer 기반 문장 의미 표현이기 때문에 검색 품질이 매우 높음

궁금한점

1. 검색할 떄마다 임베딩을 계산해야 하는가?

결론
- 그렇다. 검색(질문)할 때 마다 새로운 임베딩 벡터를 생성해야 한다.

검색 과정은 다음과 같다

[사용자 질문] -> 임베딩 생성 -> 벡터 DB 검색 -> 결과 변환

왜 매번 생성해야 하는가?
- 사용자가 입력하는 질문은 매번 다름
- 그 질문과 "의미적으로 가까운 문서"를 찾기 위해 질문 벡터가 필요함
- 벡터 DB는 "벡터 간 거리"로 검색하기 때문에 질문을 벡터로 바꿔야 함

즉, 사용자 입력은 사전에 임베딩해둘 수 없어서 실시간 임베딩 생성이 필수

2. 그럼 외부 모델을 쓰면 매번 과금되는가?

결론
- 그렇다. 외부 임베딩 API(OpenAI, Cohere 등)를 사용하면 질문 1번마다 과금된다
예를 들어 OpenAI의 text-embedding-3-small 기준
- 1000 tokens당 0.02달러 정도 (2025 기준)
- 질문 하나는 보통 5~40 tokens -> 매우 저렴하지만 누적되면 비용이 된다
(예) 하루에 10,000번 검색
- 각각 평균 20 tokens -> 1000 tokens = 50 query
- 하루에 200개의 1000-token 단위 = 200 * $0.02 = $4/day
- 한달 약 $120
작게 시작하면 문제없지만 규모가 커지면 꽤 나간다

3. 비용을 줄이는 실무적 해결책

방법A. 자체 임베딩 모델 로컬/온프레미스 구축
- HuggingFace SentenceTransformer(예: bge-large, multilingual-e5-large)등을 GPU 서버에 띄우기
- 사내 검색에는 충분히 높은 성능
- 비용 -> **고정비(서버 비용)**로 변환
- 대기업/스타트업 대부분이 결국 이 방향으로 감
방법B. 임베딩 캐싱
- 같은 질문이 자주 나온다면 cache hit률을 높일 수 있음
- 경험적으로:
  - 사내 FAQ, 정책 질문 -> 패턴이 반복됨
    - lookup table 캐시로 30~60% 절감 가능
**방법C. Hybrid Search로 임베딩 요청 횟수 줄이기 **
- BM25(키워드 검색) 필터링으로 후보를 좁힌 뒤
- 임베딩 모델을 적용하는 방식
- 이렇게 하면 질문이 임베딩을 반드시 필요로 하지 않는 경우도 있음

4. 문서 청크 임베딩은 같은 모델로 만들어야 하는가?

100% 그렇다. 반드시 동일한 임베딩 모델을 사용해야한다
- 이유 : 임베딩은 각 모델이 가진 좌표계(embedding space)가 다르다
- 예
  - OpenAI embedding-3-large로 만든 벡터는 1536차원에서 특정 방향 의미를 가짐
  - SentenceTransformer bge-large는 1024차원에서 완전히 다른 공간 구조를 가짐

Embedding 내부 구조

Embedding Vector 특징

고정 길이 : 모든 문장은 768차원 같은 고정된 벡터로 변환됨

의미 기반 거리 : 코사인 유사도(cosine similarity)로 의미적 거리 측정

문서 길이 제한 존재 : 모델 입력 토큰 제한이 있어 텍스트 chunking 필요

분포 기반 : 의미가 비슷한 문장은 같은 방향의 벡터를 가짐

단순 Bag-of-Words가 아니라 Transformer 기반 문장 의미 표현이기 때문에 검색 품질이 매우 높음

궁금한점

1. 검색할 떄마다 임베딩을 계산해야 하는가?

결론

그렇다. 검색(질문)할 때 마다 새로운 임베딩 벡터를 생성해야 한다.

검색 과정은 다음과 같다

[사용자 질문] -> 임베딩 생성 -> 벡터 DB 검색 -> 결과 변환

왜 매번 생성해야 하는가?

사용자가 입력하는 질문은 매번 다름
그 질문과 "의미적으로 가까운 문서"를 찾기 위해 질문 벡터가 필요함
벡터 DB는 "벡터 간 거리"로 검색하기 때문에 질문을 벡터로 바꿔야 함

즉, 사용자 입력은 사전에 임베딩해둘 수 없어서 실시간 임베딩 생성이 필수

2. 그럼 외부 모델을 쓰면 매번 과금되는가?

결론

그렇다. 외부 임베딩 API(OpenAI, Cohere 등)를 사용하면 질문 1번마다 과금된다

예를 들어 OpenAI의 text-embedding-3-small 기준

1000 tokens당 0.02달러 정도 (2025 기준)
질문 하나는 보통 5~40 tokens -> 매우 저렴하지만 누적되면 비용이 된다

(예) 하루에 10,000번 검색

각각 평균 20 tokens -> 1000 tokens = 50 query
하루에 200개의 1000-token 단위 = 200 * $0.02 = $4/day
한달 약 $120

작게 시작하면 문제없지만 규모가 커지면 꽤 나간다

3. 비용을 줄이는 실무적 해결책

방법A. 자체 임베딩 모델 로컬/온프레미스 구축

HuggingFace SentenceTransformer(예: bge-large, multilingual-e5-large)등을 GPU 서버에 띄우기
사내 검색에는 충분히 높은 성능
비용 -> **고정비(서버 비용)**로 변환
대기업/스타트업 대부분이 결국 이 방향으로 감

방법B. 임베딩 캐싱

같은 질문이 자주 나온다면 cache hit률을 높일 수 있음
경험적으로:
- 사내 FAQ, 정책 질문 -> 패턴이 반복됨
  - lookup table 캐시로 30~60% 절감 가능

**방법C. Hybrid Search로 임베딩 요청 횟수 줄이기 **

BM25(키워드 검색) 필터링으로 후보를 좁힌 뒤
임베딩 모델을 적용하는 방식
이렇게 하면 질문이 임베딩을 반드시 필요로 하지 않는 경우도 있음

4. 문서 청크 임베딩은 같은 모델로 만들어야 하는가?

100% 그렇다. 반드시 동일한 임베딩 모델을 사용해야한다

이유 : 임베딩은 각 모델이 가진 좌표계(embedding space)가 다르다
예
- OpenAI embedding-3-large로 만든 벡터는 1536차원에서 특정 방향 의미를 가짐
- SentenceTransformer bge-large는 1024차원에서 완전히 다른 공간 구조를 가짐

Embedding(임베딩)

Embedding(임베딩)

Embedding 내부 구조

Embedding Vector 특징

궁금한점

1. 검색할 떄마다 임베딩을 계산해야 하는가?

2. 그럼 외부 모델을 쓰면 매번 과금되는가?

3. 비용을 줄이는 실무적 해결책

4. 문서 청크 임베딩은 같은 모델로 만들어야 하는가?

댓글

Embedding(임베딩)

Embedding(임베딩)

Embedding 내부 구조

Embedding Vector 특징

궁금한점

1. 검색할 떄마다 임베딩을 계산해야 하는가?

2. 그럼 외부 모델을 쓰면 매번 과금되는가?

3. 비용을 줄이는 실무적 해결책

4. 문서 청크 임베딩은 같은 모델로 만들어야 하는가?

댓글