개인 유전체 분석개요

본 프로젝트에서는 , 최신의 솔렉사 DNA 해독장비를 사용해 , 한국인 유전체를 해독하였다 . 이 DNA 해독장비는 인간의 유전체를 잘게 분쇄해서 , 수억 개의 DNA 조각들을 만들고 , 각각의 조각들의 서열을 해독한다 . 그 후 , 컴퓨터를 통해 , 다시 한 사람의 유전체로 가상적인 합성을 하게 된다 . 본 프로젝트에서는 , 그 DNA 조각 수가 무려 17 억 5 천만 였다 . 총 합산된 DNA 길이로는 821 억 염기 (base pair) 에 해당된 다 . 이 양은 한 개인 유전체 총량의 29 배 에 해당하며 , 현재 널리 쓰이는 컴퓨터 하드디스크에 저장된 형태로는 82 기가 바이트 (giga byte) 의 용량이 다 . 29 배나 되는 양으로 서열을 해독한 이유는 해독장비가 오류없이 완벽히 서열을 해독할 수가 없기 때문이다 .

 

 


<해석된 DNA 조각 >

 

 

정보처리업무를 담당한 국가생물자원정보관리센터는 이러한 대용량 유전체 데이터를 처리하기 위하여 대용량 전산 시스템 운영해오고 있었다 . 생산된 DNA 서열 정보는 각종 생명정보학적 프로그램을 거치면서 , 다른 개인유전체들과 비교된다 . 개인유전체를 통해 얻을 수 있는 가장 중요한 정보는 인종이나 , 개개인간의 유전적 변이가 무엇인지 , 그것들이 어떤 질병이나 , 신체적 특징과 관계가 있는지를 생물학적으로 분석해 내는 것이다 . 본 프로젝트에서는 , 이미 알려진 중국인 개인유전체와 , 두명의 서양인 유전체서열정보를 이용하여 분석을 하였다

한국인 유전체 서열 해석 및 분석 결과
해석된 총 DNA 염기쌍 수 확인된 총 DNA 염기 수

표준 인간 유전체 일치율

821억 염기쌍 765억 염기쌍 99.90%
 

 

대용량 개인유전체 분석

2003 년도에 인간유전체 프로젝트를 통해 서양인 표준 인간 유전체 서열이 미국 국가생명공학정보센터 (NCBI) 에서 제공이 된다 . 이 서양인 표준 유전체 서열에 한국인 것을 비교 해본 결과 821 억개의 염기 들 중 751 억개가 일치 되었고 , 이는 표준유전체 대비 99.90% 에 해당한다 . 서양인 표준유전체와 비 교 분석시 , 정확성을 높이기 위하여 , 36 또는 75bp 염기 길이의 서열 조각이 이미 알려진 표준유전체의 영역에 정렬을 할 때 , 36 개 또는 75개 염기중 염기의 불일치 숫자가 2 개 이하 인 조각들만 사용하였다 . 또한 , 채용된 서열 해독 기술의 장점 중 하나인 “ 두 서 열간의 연관정보 ” 를 활용하여 자기자리가 아닌 위치에 일치 된 것들을 제거하였 다 . 추가로 표준유전체의 특정 영역에 DNA 조각들이 최소한 4 개 이상 일치되는 것을 사용하여 , 그 신뢰도를 올렸으며 , 100 번 이상 으로 과도하게 일치하 는 DNA 영역은 제 외 하였다 . 이 러한 품질 교정 과정을 거쳐 , 한국인에서 최초로 사십이만개나 되는 새로운 단일염기 다 형성 (SNP) 후보 들을 발견하게 되었고, 개인유전체 총량 의 0.1% 에 해당하는 343 만개의 유전적 변이군을 찾아냈다. 이것들이 그 사람과 그 사람이 속한 민족의 특성을 나타내는 원천이라 할 수 있다 . 2008 년 11 월에 발표된 중국인은 약 300 만 개의 변이가 있는 것으로 보고 되었다 . 참고로 단일염기다형성이란 , 한 인구집단에서 한 염기가 돌연변이를 일으켜서 계속 존재하는 것을 말한다 .[관련 정보]

한국인의 특이적 새로운 DNA 변이를 발굴하기 위하여 현재 보고되고 있는 등록된 단일염기다형성 데이터베이스와의 비교를 통해 확인한 바 , 343 만개 중 12% 인 420,083 개의 SNP 가 이때까지 확인된 적이 없는 새로운 단일염기다형성임을 알게 되었다 . 이는 기존의 베이징유전연구소 (BGI) 에서 나온 중국인 유전체 분석결과와 큰 차이를 보여주고 있다.

 

그리고 2 명의 백인 , 한 명의 중국인과의 유전체 비교를 통해서도 이러한 현상이 잘 나타나고 있다 . 중국인에서만 발견된 302 만개의 변이 (SNP) 와 비교했을 때 , 서로 공유하는 건수는 약 206백 만개의 염기였으며 한국인에게서만 나타나는 SNP 는 137 만개나 되었고 , 크레이그 벤터박사의 개인유전와의 비교에서는 각각 공유가 173 만개 , 한국인것만이 170 만개로 나타났다 . 한국인을 포함한 3 명 모두에게서 공유된 SNP 는 128 만 건인 반면에 , 나머지 2 명에게는 나타나지 않은 한국인에서만 특이적으로 발견된 SNP 는 약 92 만개나 되었다 . 이중에서 공개된 단일염기 다형성 데이터베이스에서도 일치를 보이지 않는 전혀 새로운 SNP 가 약 42 만개나 된다 . 이는 인간의 유전체 전체길이의 0.013% 에 해당한다 . 한국인의 경우 이들 인류의 20,000 개의 DNA 염기당 약 3 개의 DNA는 고유한 한국인만이 가지는 염기 ( 변이 ) 를 가지고 있다고 이야기 할 수가 있다 . 이것이 시사하는 한가지는 , 설사 중국인과 일본인의 유전체 서열이 해독 되더라도 , 거의 같을 것으로 예측된 한국인의 유전체도 상당한 변이를 가지고 있으며 , 앞으로도 , 계속 한국인 유전체의 변이를 분석해나갈 필요가 있음을 말한다 .

 
 

<유전체서열비교를 통한 SNP 공유 정도>

 

   
 

 

이번 김성진박사의 개인유전체에서 발견된 343 만개의 SNP 에서 질병과 관련이 있거나 주요 신체적 특징으로 발견된 것들은 약 1,600 건 정도가 되며 , 이중에서 성인병관련 , 습관성 질환 , 및 신체적 특징들 27 개를 1 차적으로 공개하기로 하였다 . 이것은 개인유전체정보의 해독이 어떤 유용성을 가지는지를 쉽게 보여주는 예가 된다 .

   
 

한국인 유전체 해석을 통해 얻어진 통계값

항 목 김성진 제임스 왓슨
서열 해독기계를 통해 읽혀진 Read의 개수
Number of reads
1,752,140,314개 106,500,000개
서열 해독기계를 통해 얻어진 모든 핵산의 개수
Total bases
82.11 Giga base pair
(82,113,436,508)
24.5 Giga base pair
백인 참조 유천체(NCBI)와 비교했을 때 일치하는 Read의 개수
Number of mapped reads
1,638,353,588개 93,200,000개
백인 참조 유천체(NCBI)와 비교했을 때 일치하는 핵산의 개수
Mapped bases
76.5 Giga base pair -
한국인 유전체의 해독율 [참고 1]
NCBI reference genomic coverage
99.90% -
서열 해독 반복 횟수
Sequence production coverage
28.73회
7.4회
유전체 서열해독과 SNP chip 간의 일치율 [참고 2]
Agreement between genome sequencing and DNA chip
99.94% 84.21%
homozygous heterozygous homozygous heterozygous
99.84% 99.13% 95.1% 75.8%
 

참고 1.일반적으로 인간유전체는 30억 염기쌍(bp)으로 구성되어 있다. 그러나 인간 유전체를 "완전히" 해독하는 것은 매우 어렵다. 이유는 유전체내에 서열해독이 어려운 반복된영역이 존재하여, 현재의 서열해독 기술로는 그 부분을 해독하기가 불가능하다. 2003년에 발표된 Human genome project에서도 이런 반복된 서열을 제외한 2,858,012,806 염기쌍만을 해독해낼 수 있었으며, BGI에서 수행한 중국인 유전체 서열해독에서도 동일한 기준을 사용하였다.
참고 2. 서열해독의 정확성을 평가하기 위해, 서열해독을 통해 찾아진 SNP와 SNP chip(Illumina 1M-duo)과의 비교를 통해 일치되는 비율을 계산했다. 그 결과 유전체 서열해독 결과와 SNP chip간의 일치율은 약 99.44%로 나타났고, 그 중에 homozygous SNP의 일치율은 99.84%, heterozygous SNP는 99.13%의 일치율을 보였다. 이 결과는 Watson(affymetrix 500k)의 homozygous SNP 일치율 95.1%, heterozygous SNP 일치율 75.8%보다 높고, 또한 Venter의 일치율인 91.63%(affymetrix 500k, illumina HumanHap650Y) 보다 높은것으로 나타났다.

   
 
한국인 유전체와 NCBI 참조 유전체의 핵산조성 비교
A C G T
백인 참조 유전체
29.53%
20.44%
20.46%
29.57%
김성진 원장
29.22%
20.77%
20.67%
29.34%
   
 

 

한국인 참조 유전체에서 발견된 질병과 연관성 높은 SNP 리스트

 

표 현 형 관련된 SNP의 개수

한국인 유전체에서
발견된 SNP의 개수

질 병

관 련

표현형

 

노인성 황반변성 8 6
알코올 중독증 10 7
천식 9 5
심방세동 4 1
유방암 54 26
관상동맥질환 26 13
크론씨병 54 27
건선 9 2
하지불안증후군 15 14
류마티스성 관절염 25 14
제 1형 당뇨병 31 23
제 2형 당뇨병 61 36
정맥혈전색전증 3 3
알츠하이머 병 44 22
양극성장애 34 18
방광염 5 3
만성소화장애증 4 1
고 콜레스테롤증 3 1
대장직장암 17 7
고혈압 15 11
다발성경화증 30 23
뇌졸증 23 12
장수 3 3
비만 30 19
형 질
관 련
표현형
쓴맛 2 2
귀지 1 1
눈색깔 7 7