모놀리식 환경에서 서비스 간 데이터 연동은 "조인 한 번이면 끝"이었다. 같은 트랜잭션, 같은 DB, 같은 JVM 안에서 데이터는 자연스럽게 일관성을 유지했다. 그러나 MSA로 넘어오는 순간 이 전제가 전부 깨진다. 상품 서비스의 상품 정보를 주문 서비스가 알아야 하고, 재고 서비스의 재고를 장바구니가 참조해야 하며, 알림 서비스는 결제 완료 이벤트를 받아야 한다. 이때 **"어떻게 연동할 것인가"**라는 질문은 단순한 기술 선택이 아니라 서비스 경계와 도메인 소유권 선언이다.
실무에서 가장 흔히 마주치는 실패 패턴은 세 가지다.
시니어 백엔드 면접에서 "MSA 서비스 간 데이터를 어떻게 연동하시나요?"는 단골 질문이다. 이 질문에 "REST로요" 혹은 "Kafka로요" 한 줄로 답하면 그 순간 끝난다. 커머스 플랫폼의 실제 현실은 그보다 훨씬 미묘하며, CJ OliveYoung이 기술 블로그에서 공개한 "MSA 환경에서 도메인 데이터 연동 전략" 역시 단일 기술이 아닌 데이터 특성 기반 하이브리드 설계를 채택하고 있다. 이 문서는 그 설계 흐름을 Java/Spring 백엔드 관점에서 실행 가능한 수준으로 재구성한다.
모놀리식에서는 DB 한 개가 곧 진실이다. MSA에서는 상품 서비스의 PostgreSQL이 상품 정보의 진실, 재고 서비스의 Redis가 재고의 진실, 주문 서비스의 MySQL이 주문의 진실이 된다. 다른 서비스가 이 데이터를 복제해서 들고 있다면, 그 복제본은 본질적으로 stale(오래된) 상태가 될 위험을 가진다.
이때 설계자가 내려야 할 결정은 두 가지다.
분산 시스템에서는 CAP 이론이 말하듯 강한 일관성과 가용성을 동시에 가질 수 없다. 커머스는 **"최종 일관성(eventual consistency)"**을 받아들이는 대신 가용성을 취하는 영역이 대부분이다. 단, 결제·재고 차감처럼 금전과 직결되는 부분은 여전히 강한 일관성을 요구한다.
동기 호출이 많아질수록 장애는 연쇄한다. 서비스 A → B → C 호출 체인에서 C의 p99 레이턴시가 2초로 튀면, A도 2초로 튄다. Circuit Breaker, Timeout, Bulkhead 같은 패턴은 **"동기를 선택했을 때 발생할 수밖에 없는 피해를 완화"**하는 장치이지, 애초에 동기를 택하지 않아도 된다면 쓰지 않는 게 최선이다.
"REST냐 Kafka냐"를 기술 관점에서 고르려 하면 항상 애매해진다. 실무에서 유효한 기준은 데이터 자체의 특성이다.
| 기준 | 동기(REST/gRPC) 적합 | 비동기(Kafka/SQS) 적합 |
|---|---|---|
| 사용 시점 | 호출 시점에 반드시 최신 | 조금 늦어도 괜찮음 |
| 변경 빈도 | 자주 변함 + 즉시 반영 필요 | 자주 변함 + 지연 수용 가능 |
| 라이프사이클 | 요청-응답 완결 | 발행-소비 분리 |
| 결과 의존성 | 응답값이 다음 로직 결정 | 결과와 무관하게 진행 |
| 실패 시 | 호출자에게 즉시 실패 전달 | 재시도/DLQ로 흡수 |
예를 들어 결제 시점의 잔액 조회는 반드시 동기여야 한다. 반면 주문 완료 후 포인트 적립은 반드시 비동기여야 한다. 이 구분이 깨지면 결제는 느려지고, 적립은 유실된다.
상품 카테고리, 브랜드 정보, 매장 메타데이터처럼 하루에 몇 번 변하지 않는 데이터는 다른 서비스가 호출할 때마다 원천 서비스 API를 때릴 이유가 없다. Cache-Aside 패턴으로 Redis에 태워두고, 변경 이벤트가 올 때 무효화한다.
public Category getCategory(Long categoryId) {
String key = "category:" + categoryId;
Category cached = redisTemplate.opsForValue().get(key);
if (cached != null) {
return cached;
}
Category fresh = categoryClient.findById(categoryId); // 원천 API 호출
redisTemplate.opsForValue().set(key, fresh, Duration.ofHours(6));
return fresh;
}
이때 TTL만 걸고 끝내면 stale 데이터가 TTL 동안 유지된다. 해결책은 카테고리 변경 이벤트를 Kafka로 구독해 해당 키를 삭제하는 것이다.
@KafkaListener(topics = "category.changed", groupId = "order-service")
public void onCategoryChanged(CategoryChangedEvent event) {
redisTemplate.delete("category:" + event.categoryId());
}
OliveYoung 블로그에서 실제로 언급된 핵심 아이디어는 **"이벤트로 전체 데이터를 실어 나르지 않는다"**는 것이다. 이벤트에는 **"어떤 리소스가 바뀌었다"**는 키만 담고, 정말 필요할 때 원천 서비스에 API로 재조회한다.
왜 이렇게 하는가?
흐름은 다음과 같다.
{"productId": 12345, "event": "updated"} 수준의 가벼운 이벤트만 발행.결과적으로 변경 빈도와 조회 빈도가 디커플링된다. 변경은 자주 일어나도, 아직 아무도 조회하지 않는 데이터는 원천 API를 건드리지 않는다.
상품 목록 100개를 보여주기 위해 상품 서비스 API를 100번 호출하는 순간 끝이다. 배치 API를 제공하거나, 미리 캐시를 데워 놓아야 한다.
TTL이 만료된 직후 수백 개 요청이 동시에 원천 API를 때린다. 원천 서비스가 쓰러지면 장애가 호출자 전체로 번진다.
방어 기법:
지원자의 실제 경험 중 StampedLock 기반 캐시 정합성 확보가 바로 이 stampede 방어와 맞닿아 있다. 면접에서 "왜 ReentrantLock이 아니라 StampedLock인가?"는 바로 **"read-heavy 워크로드에서 optimistic read가 lock 획득 비용을 없애주기 때문"**이다.
Kafka 프로듀서가 DB 커밋 직후 이벤트 발행 직전에 죽으면, DB에는 반영됐지만 이벤트는 나가지 않는다. 이 문제의 정식 해법이 Transactional Outbox 패턴이며, 5장에서 자세히 다룬다.
@Transactional
public void placeOrder(OrderCommand cmd) {
Order order = orderRepository.save(...);
kafkaTemplate.send("order.placed", new OrderPlacedEvent(order.getId()));
}
이 코드는 치명적 결함을 갖는다.
@Transactional
public void placeOrder(OrderCommand cmd) {
Order order = orderRepository.save(...);
eventPublisher.publishEvent(new OrderPlacedDomainEvent(order.getId()));
}
@Component
class OrderEventBridge {
@TransactionalEventListener(phase = TransactionPhase.AFTER_COMMIT)
public void publish(OrderPlacedDomainEvent event) {
kafkaTemplate.send("order.placed", event);
}
}
DB 커밋이 확정된 뒤에만 Kafka로 발행되므로 "DB는 롤백됐는데 이벤트는 나간" 상황은 막힌다. 그러나 여전히 커밋 직후 Kafka 발행 실패는 유실이다.
같은 DB 트랜잭션 안에서 outbox 테이블에 이벤트를 함께 INSERT하고, 별도 퍼블리셔가 이 테이블을 폴링해 Kafka로 발행한 뒤 레코드를 지운다.
CREATE TABLE outbox_event (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
aggregate_type VARCHAR(64) NOT NULL,
aggregate_id VARCHAR(64) NOT NULL,
event_type VARCHAR(64) NOT NULL,
payload JSON NOT NULL,
created_at DATETIME(6) NOT NULL,
published_at DATETIME(6) NULL,
INDEX idx_unpublished (published_at, id)
);
@Transactional
public void placeOrder(OrderCommand cmd) {
Order order = orderRepository.save(...);
outboxRepository.save(OutboxEvent.of(
"Order", order.getId().toString(),
"OrderPlaced", toJson(order)
));
}
@Scheduled(fixedDelay = 500)
public void flush() {
List<OutboxEvent> pending = outboxRepository
.findTop100ByPublishedAtIsNullOrderByIdAsc();
for (OutboxEvent e : pending) {
kafkaTemplate.send(e.getTopic(), e.getAggregateId(), e.getPayload())
.whenComplete((r, ex) -> {
if (ex == null) outboxRepository.markPublished(e.getId());
});
}
}
원자성 보장: outbox_event INSERT와 비즈니스 데이터 변경이 같은 트랜잭션이므로 불일치가 원천적으로 없다. at-least-once 전제이기 때문에 Consumer는 반드시 idempotent해야 한다. 지원자의 Kafka Transactional Outbox 구현 경험이 그대로 이 지점에서 설명된다.
Kafka의 기본 전제는 at-least-once다. 중복은 반드시 생긴다고 가정한다.
@KafkaListener(topics = "order.placed", groupId = "point-service")
public void on(OrderPlacedEvent event, Acknowledgment ack) {
if (processedEventRepository.existsByEventId(event.eventId())) {
ack.acknowledge();
return;
}
try {
pointService.accumulate(event.userId(), event.amount());
processedEventRepository.save(new ProcessedEvent(event.eventId()));
ack.acknowledge();
} catch (BusinessException e) {
// 재시도 대상 아님 → DLQ로
deadLetterPublisher.send(event, e);
ack.acknowledge();
}
}
포인트: event.eventId()는 Outbox가 발행 시점에 부여한 UUID다. Consumer는 이 ID를 기준으로 중복을 거른다.
spring.kafka.listener.retry.topic.attempts: 3
spring.kafka.listener.retry.topic.backoff.delay: 1000
Spring Kafka의 RetryableTopic을 이용하면 재시도 토픽과 DLQ 토픽을 자동 생성해 준다. DLQ에 쌓인 메시지는 사람이 보는 큐다. 자동으로 재처리하면 원인 파악이 안 된다.
| 도메인 | 소유 서비스 | 다른 서비스가 쓰는 방식 |
|---|---|---|
| 상품 메타(이름, 카테고리) | 상품 서비스 | Kafka 이벤트 수신 → Redis 캐시 + 변경 시 키 무효화 |
| 재고 수량 | 재고 서비스 | 주문 시 동기 gRPC 차감 호출 (정확성 필수) |
| 주문 | 주문 서비스 | 완료 시 Kafka order.placed 발행 |
| 쿠폰 | 쿠폰 서비스 | 사용 시 동기 REST, 발급은 비동기 |
| 알림 | 알림 서비스 | 모든 도메인 이벤트 구독, 발행 쪽에 영향 없음 |
"재고 차감은 왜 동기인가?"라는 질문의 답은 **"비동기로 하면 오버셀(oversell)이 발생하기 때문"**이다. 반대로 알림은 **"조금 늦어도 상관없고, 장애가 나도 주문 자체를 막으면 안 되기 때문"**에 반드시 비동기다.
services:
mysql:
image: mysql:8.0
environment:
MYSQL_ROOT_PASSWORD: root
MYSQL_DATABASE: commerce
ports: ["3306:3306"]
redis:
image: redis:7
ports: ["6379:6379"]
kafka:
image: bitnami/kafka:3.6
environment:
KAFKA_CFG_NODE_ID: 1
KAFKA_CFG_PROCESS_ROLES: controller,broker
KAFKA_CFG_LISTENERS: PLAINTEXT://:9092,CONTROLLER://:9093
KAFKA_CFG_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092
KAFKA_CFG_CONTROLLER_QUORUM_VOTERS: 1@localhost:9093
KAFKA_CFG_CONTROLLER_LISTENER_NAMES: CONTROLLER
ports: ["9092:9092"]
product-service와 order-service를 Spring Boot 프로젝트 두 개로 만든다.product.changed 발행.product:{id} 키 DEL.GET /products/{id} 요청 → 캐시 miss → 상품 API 호출 → 캐시 set.kafka-console-producer로 강제로 중복 이벤트를 주입해 Consumer idempotency 테스트.시니어 백엔드로서 이 질문에는 3단 구조로 답한다.
이 구조로 답하면 설계 원칙 → 사례 → 운영 현실까지 모두 커버된다.
@TransactionalEventListener(AFTER_COMMIT)와 Outbox의 차이를 설명할 수 있다.