NGS 데이터는 어떻게 만들어질까? | NGS 데이터 분석 과정 정리 [1편]

📍Key Takeaways

  1. NGS 분석은 Primary → Secondary → Tertiary 3단계로 이루어지며, 각 단계의 품질과 도구 선택이 최종 결과를 결정합니다.
  2. 변이 탐지는 단일 알고리즘이 아니라 SNV, CNV, structural variant 등 변이 유형별로 다른 도구를 조합해 수행됩니다.
  3. 같은 샘플도 분석 파이프라인과 해석 기준이 다르면 결과가 달라집니다. “NGS를 했다”보다 “어떻게 분석했는가”가 더 중요합니다.

유전체 검사를 의뢰하고 결과 리포트를 받아보면, 몇 개의 변이와 해석 결과가 정리된 문서를 보게 됩니다.

하지만 그 결과 뒤에는 생각보다 훨씬 복잡한 분석 과정이 숨어 있습니다.

이번 글에서는 WES/WGS 기반 검사가 실제로 어떻게 이루어지는지, 임상적으로 중요한 흐름만 짚어서 설명드리겠습니다.


NGS 분석은 3단계로 이루어진다

전체 workflow는 크게 세 단계입니다.

  • Primary analysis
  • Secondary analysis
  • Tertiary analysis

이 구조를 이해하는 것이 NGS 결과를 제대로 해석하는 첫 번째 단계입니다.


1. Primary analysis: “데이터를 읽어내는 단계”

이 단계는 시퀀싱 장비에서 생성된 신호를 실제 염기서열 데이터로 변환하는 과정입니다.

주요 과정은 다음과 같습니다:

  • base calling (이미지 → 염기서열)
  • BCL → FASTQ 변환
  • adaptor trimming
  • 품질 평가(QC)

여기서 중요한 점은 하나입니다. 데이터의 ‘출발 품질’이 전체 결과를 좌우합니다

이 단계에서 품질이 떨어지면 이후 아무리 정교한 분석을 하더라도 신뢰도는 제한적일 수밖에 없습니다.


2. Secondary analysis: “유전체에서 위치를 찾는 단계”

이 단계에서는 읽힌 DNA 조각들이 인간 reference genome의 어디에 해당하는지를 찾습니다.

  • alignment (reference genome에 mapping)
  • BAM 파일 생성
  • duplicate read 제거
  • base quality recalibration

그리고 핵심은 바로 여기입니다.

[variant calling (변이 탐지)]

이 과정에서 실제 변이가 검출됩니다. 흥미로운 점은 하나의 알고리즘으로 모든 변이를 찾지 않는다는 것입니다.

  • SNV/INDEL → GATK
  • CNV → 3bCNV + MANTA
  • structural variant → MANTA
  • repeat expansion → ExpansionHunter
  • mobile element insertion → MELT

즉, 하나의 검사 결과는 여러 분석 도구의 결합으로 만들어집니다.


3. Tertiary analysis: “임상적으로 의미를 부여하는 단계”

이 단계부터는 단순한 데이터 처리가 아니라 해석(interpretation)의 영역입니다.

(1) Annotation

  • 변이가 어떤 유전자에 위치하는지
  • 단백질에 어떤 영향을 주는지 분석
  • VEP 및 내부 DB 활용

(2) Filtering

  • population database (예: gnomAD)를 이용해 흔한 변이 제거

 대부분의 임상적으로 유의미하지 않은 변이는 이 단계에서 제거됩니다


(3) Variant classification

  • ACMG 가이드라인 기반 분류 (Pathogenic, Likely pathogenic, VUS 등)

(4) Prioritization

  • AI 기반 분석
  • phenotype과의 일치도

결국 중요한 질문 하나

결국 중요한 질문은 하나입니다. 이 모든 과정을 거쳐 남는 질문은 단순합니다.

“이 변이가 환자의 phenotype을 설명하는가?”

기술이 아무리 발전해도, 이 질문이 바뀌는 일은 없습니다.


임상에서는 종종 이런 질문을 받습니다.

  • “다른 기관에서는 이 변이가 확인되었다는데, 왜 3billion 결과 보고서에는 없나요?”
  • “왜 여기서는 VUS인데, 다른 곳에서는 pathogenic인가요?”

이 질문들은 자연스럽지만, 한 가지 중요한 사실을 놓치고 있습니다.

NGS 결과는 ‘발견된 데이터’가 아니라 ‘분석 과정과 해석 기준을 거친 결과물’입니다


실제로 결과는 다음 요소들에 따라 달라질 수 있습니다.

  • 데이터 품질
  • 사용된 분석 알고리즘 (variant caller)
  • 필터링 기준
  • 해석 전략

같은 샘플이라도 이 과정이 달라지면 👉 보고되는 변이도, 해석 결과도 달라질 수 있습니다

단순히 “NGS를 했다”는 사실보다  “어떻게 분석하고 해석했는가”가 더 중요합니다


NGS 결과는 단순한 검사 결과가 아니라 수많은 데이터 중 의미 있는 신호를 찾아내는 과정의 결과물입니다.그리고 이 과정을 이해하는 것이 정확한 해석의 출발점입니다.

3billion의 WES/WGS 검사는 위에서 설명한 모든 분석 단계를 자체 파이프라인으로 수행합니다. 검사 방법이나 결과 해석에 대해 궁금하신 점이 있으시면 문의해 주세요.