ONNX Runtime 가이드: 서버 없이 브라우저에서 AI 모델 실행하기

Conceptual diagram of ONNX Runtime Web showing WebGPU and WebAssembly acceleration layers

과거에는 웹에서 AI 기능을 구현하려면 무거운 GPU 서버를 구축하고 API를 통해 결과를 받아오는 것이 당연시되었습니다. 하지만 2026년 현재, ONNX Runtime Web의 발전과 WebGPU 표준의 보급으로 인해 이제 복잡한 딥러닝 모델을 사용자의 브라우저에서 직접 실행할 수 있게 되었습니다.

서버 비용을 절감하고 데이터 프라이버시를 완벽하게 보호하면서도, 지연 시간(Latency) 없는 AI 인터랙션을 구현하는 방법을 시니어 개발자의 관점에서 상세히 짚어보겠습니다.

왜 브라우저 환경의 ML인가? (Benefits)

브라우저 사이드 ML(Client-side ML)은 단순히 유행이 아니라 비즈니스적으로 강력한 이점을 제공합니다.

비용 절감: 추론(Inference)에 필요한 연산 자원을 사용자의 기기(Client GPU/CPU)로 전가하므로, 비싼 클라우드 GPU 서버 비용이 발생하지 않습니다.
프라이버시 강화: 사용자의 민감한 데이터(사진, 문서 등)가 서버로 전송되지 않고 로컬에서 처리됩니다. 보안이 중요한 기업용 솔루션에서 필수적인 요소입니다.
오프라인 작동: 네트워크 연결이 불안정하거나 끊긴 상태에서도 AI 기능을 그대로 제공할 수 있습니다.
지연 시간 제로: API 요청에 따른 왕복 시간(Round-trip)이 없으므로, 실시간 영상 처리나 증강 현실(AR) 구현에 유리합니다.

ONNX Runtime Web의 핵심 아키텍처

ONNX Runtime (ORT)은 Microsoft에서 주도하는 오픈 소스 프로젝트로, PyTorch나 TensorFlow 등 다양한 프레임워크에서 생성된 모델을 공통 규격인 .onnx 파일로 실행하게 해줍니다.

웹 버전인 ORT Web은 두 가지 백엔드를 주로 사용합니다.

WebAssembly (WASM): CPU를 활용하며 모든 브라우저에서 높은 호환성을 보장합니다. SIMD 가속을 지원하여 꽤 빠른 속도를 냅니다.
WebGPU: 최신 브라우저의 GPU 성능을 직접 활용합니다. 거대 언어 모델(LLM)이나 복잡한 이미지 세그멘테이션 모델을 돌릴 때 WASM 대비 수십 배의 성능 향상을 보여줍니다.

실무 구현: 모델 로드와 추론 프로세스

가장 먼저 onnxruntime-web 패키지를 설치해야 합니다. 이후 모델 파일(.onnx)을 로드하고 입력 텐서(Tensor)를 구성하여 추론을 실행합니다.

import * as ort from 'onnxruntime-web';

async function runInference() {
  try {
    // 1. 세션 옵션 설정 (WebGPU 우선 사용 설정)
    const sessionOptions: ort.InferenceSession.SessionOptions = {
      executionProviders: ['webgpu', 'wasm'],
      graphOptimizationLevel: 'all'
    };

    // 2. 모델 로드 및 추론 세션 생성
    // 모델 파일은 public 폴더 또는 CDN에 위치해야 합니다.
    const session = await ort.InferenceSession.create('/models/image_classifier.onnx', sessionOptions);

    // 3. 입력 데이터 준비 (예: 224x224 RGB 이미지)
    const float32Data = new Float32Array(1 * 3 * 224 * 224);
    // ... 이미지 전처리 로직 (Normalization 등) ...
    
    const inputTensor = new ort.Tensor('float32', float32Data, [1, 3, 224, 224]);

    // 4. 추론 실행
    const feeds = { input: inputTensor };
    const results = await session.run(feeds);

    // 5. 결과 해석
    const output = results.output_label;
    console.log('추론 결과:', output.data);
    
  } catch (e) {
    console.error('Inference failed:', e);
  }
}

성능 최적화: WebAssembly vs WebGPU

실무에서는 타겟 사용자의 환경에 맞춰 백엔드를 선택해야 합니다.

WASM 모드: 멀티 스레딩을 활용하기 위해 numThreads 옵션을 설정하는 것이 중요합니다. 또한 공유 메모리를 활성화하기 위한 SharedArrayBuffer 관련 보안 헤더(COOP/COEP) 설정이 필수입니다.
WebGPU 모드: 데이터가 CPU와 GPU 사이를 오가는 **복사 비용(Data Transfer Overhead)**을 최소화해야 합니다. 가능하면 전처리와 후처리 연산도 GPU 쉐이더 내에서 처리하는 것이 이상적입니다.

개발자의 팁: 실무 적용 시 주의사항

성능 최적화 팁: 모델 경량화 브라우저로 모델을 다운로드해야 하므로 파일 크기가 매우 중요합니다. **FP16 양자화(Quantization)**나 Pruning 기법을 적용하여 모델 크기를 줄이세요. 100MB가 넘는 모델은 사용자 이탈의 원인이 됩니다. 가능하다면 초기 로딩 시 모델을 IndexedDB에 캐싱하여 다음 방문 시 재다운로드를 방지하는 로직을 추가하는 것이 좋습니다.

자주 묻는 질문 (FAQ)

1. PyTorch 모델을 웹에서 바로 쓸 수 있나요?

아니요, 직접 사용할 수는 없습니다. 먼저 PyTorch에서 torch.onnx.export 명령어를 사용해 .onnx 파일로 변환해야 하며, 이 과정에서 지원하지 않는 연산자(Operator)가 있는지 확인이 필요합니다.

2. WebGPU는 모든 브라우저에서 지원되나요?

2026년 현재 Chrome, Edge, Safari 최신 버전에서는 잘 작동하지만, 구형 기기나 일부 안드로이드 브라우저에서는 지원되지 않을 수 있습니다. 반드시 WASM 백엔드를 **폴백(Fallback)**으로 준비하세요.

3. 모델 파일 보안이 걱정되는데 보호할 방법이 있나요?

클라이언트 사이드로 모델이 내려가는 순간, 기술적으로 완전히 숨기는 것은 불가능합니다. 모델 구조 자체가 핵심 자산이라면 중요한 연산 일부를 서버에서 처리하는 하이브리드 방식을 고려해야 합니다.

브라우저 기반 AI는 프론트엔드 개발자의 영역을 한 단계 더 확장해 줍니다. 단순한 UI 구현을 넘어 클라이언트에서 고성능 연산을 제어하는 역량을 갖춘다면, 서비스 경쟁력은 배가 될 것입니다.

여러분의 다음 프로젝트에 ONNX Runtime을 도입해 보시는 건 어떨까요?