📚FOS Study
홈카테고리
홈카테고리

카테고리

  • AI 페이지로 이동
    • RAG 페이지로 이동
    • agents 페이지로 이동
    • BMAD Method — AI 에이전트로 애자일 개발하는 방법론
    • Claude Code의 Skill 시스템 - 개발자를 위한 AI 자동화의 새로운 차원
    • Claude Code 멀티 에이전트 — Teams
    • 멀티모달 LLM (Multimodal Large Language Model)
  • architecture 페이지로 이동
    • 캐시 설계 전략 총정리
    • 디자인 패턴
    • 분산 트랜잭션
  • css 페이지로 이동
    • FlexBox 페이지로 이동
  • database 페이지로 이동
    • mysql 페이지로 이동
    • opensearch 페이지로 이동
    • redis 페이지로 이동
    • 김영한의-실전-데이터베이스-설계 페이지로 이동
    • 커넥션 풀 크기는 얼마나 조정해야할까?
    • 인덱스 - DB 성능 최적화의 핵심
    • 역정규화 (Denormalization)
    • 데이터 베이스 정규화
  • devops 페이지로 이동
    • docker 페이지로 이동
    • k8s 페이지로 이동
    • k8s-in-action 페이지로 이동
    • monitoring 페이지로 이동
  • go 페이지로 이동
    • Go 언어 기본 학습
  • http 페이지로 이동
    • HTTP Connection Pool
  • interview 페이지로 이동
    • 210812 페이지로 이동
    • 뱅크샐러드 AI Native Server Engineer
    • CJ 올리브영 지원 문항
    • CJ 올리브영 커머스플랫폼유닛 Back-End 개발 지원 자료
    • 마이리얼트립 - Platform Solutions실 회원주문개발 Product Engineer
    • NHN 서비스개발센터 AI서비스개발팀
    • nhn gameenvil console backend 직무 인터뷰 준비
    • 면접을 대비해봅시다
    • Tossplace Node.js Developer
    • 토스플레이스 Node.js 백엔드 컬처핏
  • java 페이지로 이동
    • jdbc 페이지로 이동
    • opentelemetry 페이지로 이동
    • spring 페이지로 이동
    • spring-batch 페이지로 이동
    • 더_자바_코드를_조작하는_다양한_방법 페이지로 이동
    • Java의 로깅 환경
    • MDC (Mapped Diagnostic Context)
    • OpenTelemetry 란 무엇인가?
    • Java StampedLock — 읽기 폭주에도 쓰기가 밀리지 않는 락
    • Virtual Thread와 Project Loom
  • javascript 페이지로 이동
    • Data_Structures_and_Algorithms 페이지로 이동
    • Heap 페이지로 이동
    • typescript 페이지로 이동
    • AbortController
    • Async Iterator와 제너레이터
    • CommonJS와 ECMAScript Modules
    • 제너레이터(Generator)
    • Http Client
    • Node.js
    • npm vs pnpm 선택기준은 무엇인가요?
    • `setImmediate()`
  • kafka 페이지로 이동
    • Kafka 기본
    • Kafka를 사용하여 **데이터 정합성**은 어떻게 유지해야 할까?
    • 메시지 전송 신뢰성
  • linux 페이지로 이동
    • fsync — 리눅스 파일 동기화 시스템 콜
    • tmux — Terminal Multiplexer
  • network 페이지로 이동
    • L2(스위치)와 L3(라우터)의 역할 차이
    • L4와 VIP(Virtual IP Address)
    • IP Subnet
  • react 페이지로 이동
    • JSX 페이지로 이동
    • VirtualDOM 페이지로 이동
    • v16 페이지로 이동
  • task 페이지로 이동
    • ai-service-team 페이지로 이동
    • nsc-slot 페이지로 이동
    • the-future-company 페이지로 이동
📚FOS Study

개발 학습 기록을 정리하는 블로그입니다.

바로가기

  • 홈
  • 카테고리

소셜

  • GitHub
  • Source Repository

© 2025 FOS Study. Built with Next.js & Tailwind CSS

목록으로 돌아가기
🤖AI

멀티모달 LLM (Multimodal Large Language Model)

약 1분
2026년 1월 30일
GitHub에서 보기

멀티모달 LLM (Multimodal Large Language Model)

  • 여러 종류의 입력을 동시에 이해하고 처리할 수 있는 LLM
  • 즉, 기존 LLM이 텍스트만 이해했다면, 멀티모달 LLM은 다음을 모두 처리할 수 있다
    • 텍스트
    • 이미지
    • 음성
    • 비디오
    • 코드

1. 멀티모달(Multimodal)의 의미

  • Modal(모달) = 정보의 형태(표현 방식)
    • 텍스트 = 언어 모달
    • 이미지 = 시각 모달
    • 음성 = 오디오 모달
  • Multi-modal = 여러 모달을 한 번에 다루는 것
    • 예:
      • 이미지 + 텍스트
      • 음성 + 텍스트
      • 비디오 + 텍스트
      • 이미지 + 텍스트 + 오디오

2. 멀티모달 LLM이 할 수 있는 일

  • 이미지 분석 + 설명
    • "이 사진에서 문젲머이 뭐야?"
  • 이미지 기반 Q & A
    • "이 에러 로그가 뜻하는 게 뭐야?"
    • "이 설꼐도에서 문제점을 찾아줘."
  • 문서 이미지 -> 내용 이해
    • 스캔된 PDF를 이해하고 요약하기
  • 음성 -> 의미 분석
    • 통화 녹음을 요약해줘
    • 사람 감정 분석
    • 지시사항 추출
  • 비디오 기초 분석
    • 장면 요약, 객체 설명 등
  • 여러 모달 결합 reasoning
    • 사진 속 화이트보드 그림을 보고 코드 생성
    • UI 캡처 화면을 보고 UX 개선안 도출
    • 시스템 구조도를 보고 리뷰 작성
AI 카테고리의 다른 글 보기수정 제안하기

댓글

댓글을 불러오는 중...
목차
  • 멀티모달 LLM (Multimodal Large Language Model)
  • 1. 멀티모달(Multimodal)의 의미
  • 2. 멀티모달 LLM이 할 수 있는 일