== Contents ==
[[[hide|hide]]]
*[http://in.kogic.kr/An_ethnically_relevant_consensus_Korean_reference_genome_is_a_step_towards_personal_reference_genomes.#.ED.95.9C.EA.B5.AD_.EC.B0.B8.EC.A1.B0_.EA.B2.8C.EB.86.88.EC.9D.80_.EB.AF.BC.EC.A1.B1.EC.A0.81.EC.9C.BC.EB.A1.9C_.EA.B4.80.EB.A0.A8.EC.84.B1.EC.9D.B4_.EC.9E.88.EB.8A.94_.EA.B3.B5.EA.B0.90.EB.8C.80.EC.9D.B4.EB.A9.B0.2C_.EA.B0.9C.EC.9D.B8_.EC.B0.B8.EC.A1.B0_.EA.B2.8C.EB.86.88.EC.9D.84_.ED.96.A5.ED.95.9C_.EB.8B.A8.EA.B3.84.EC.9D.B4.EB.8B.A4. 1한국 참조 게놈은 민족적으로 관련성이 있는 공감대이며, 개인 참조 게놈을 향한 단계이다.]
**[http://in.kogic.kr/An_ethnically_relevant_consensus_Korean_reference_genome_is_a_step_towards_personal_reference_genomes.#.EC.B4.88.EB.A1.9D 1.1초록]
여기서, 우리는 하이브리드 시퀀싱 과 매핑 데이터를 활용하여 PGP의 일부로 생성 된 한글 기준 (KOREF) 게놈 (KOREF_S : 단일 참조 어셈블리 및 KOREF_C : 단일 참조 + 합의 변수)의 두 가지 버전을 보고한다. KOREF는 GRCh38을 보완하기 위해 또 다른 고품질 동아시아 참조를 제공한다. KOREF는 2006 년에 한국 과학 기술부 (National Science and Technology)에 의해 시작되어 국가 게놈 및 변이체 참조를 생성했다. 짧은 판독에 내재 된 문제를 처리하기 위해, 우리는 여러 가지 기술(짧고 긴 페어링 엔드 시퀀스, 합성 및 단일 분자의 긴 판독, 광학 및 나노채널 게놈 맵)의 데이터를 사용하여 남성 기증자인 KOREF_S(그림 1)의 고품질 하이브리드 어셈블리를 구축한다. 또한, 한국 PGP(Korean Passistance KOREF_C) 28의 40개의 높은 전체 게놈(짧은 판독에 기초한)의 정보를 통합하여, 인구 전체의 일치된 한국 레퍼런스인 KOREF_C를 생성한다. 우리는 KOREF_C의 게놈 구조를 다른 인간 게놈 어셈블리와 비교하여 민족 별 특정 빈도가 높은 구조적 변형을 포함하여 많은 구조적 차이를 발견한다. 중요하게도, SV의 식별은 사용 된 시퀀싱 플랫폼 과 어셈블리 품질에 의해 크게 영향을 받으므로, 민족 및 개인 게놈 구조를 종합적으로 맵핑하기 위해 오랫동안 읽은 서열 및 고품질 어셈블리가 필요하다는 것을 시사한다. 다민족 PGP 데이터와 함께, 향후 많은 저비용 개인, 국가 및 민족 게놈 참조자료들이 단일 뉴클레오타이드 변이 (SNV) 와 SV 모두에서 모든 인간 게놈 다양성을 맵핑 하는데 가속화할 것이다.
'''그림 1: KOREF 조립 절차에 대한 개략적인 개요입니다.개요'''
<img style="null" src=http://in.kogic.kr/images/1/15/2.jpg>
(a) Short and long insert size libraries by Illumina whole-genome sequencing strategy. (b) Contig assembly using K-mers from short insert size libraries. (c) Scaffold assembly using long insert size libraries. (d) Super-scaffold assembly using OpGen whole-genome mapping approach. (e) Gap closing using PacBio long reads and Illumina TSLR. (f) Assembly assessment using BioNano consensus maps. (g) Chromosome sequence building using whole-genome alignment information into the human reference (GRCh38). (h) Common variants substitution using 40 Korean whole-genome sequences.
'''표 1 조립 단계에 따른 KOREF 빌드 통계.'''
<img style="null" src=http://in.kogic.kr/images/5/58/10.png>
스캐 폴드를 추가로 확장하기 위해, 우리는 이전에 제안 된 바와 같이 높은 처리량의 전체 게놈 광학 매핑 기기를 사용했다 18, 우리는 고 분자량 DNA를 추출하여 67 개의 고밀도 MapCard에서 745.5 Gb의 단일 분자 제한 맵 (평균 크기 360 Kb의 약 2 백만 개의 분자)을 생성하여 240 배 광학 맵 적용 범위를 제공했다 (보충 표 5 및 6). 스캐 폴드를 결합시키기 위해, 단일 분자 광학 맵을 규소 제한 효소 소화에서 제한 맵으로 변환 된 조립 된 스캐 폴드와 비교 하였다. 결과적으로 총 67 개의 스캐 폴드 (> 200 Kb)가 합쳐졌다 (보충 표 7). 이로 인해 스캐 폴드 N50 길이가 19.85에서 25.93 Mb로 증가했다 (표 1). 또한 KOREF_S에 대해 PacBio SMRT (~ 31.1 Gb, ~ 10 배 범위, 보충 그림 4 및 보충 표 8)와 Illumina TruSeq 합성 장독 (TSLR, ~ 16.3 Gb, ~ 5.3-)의 두 가지 유형의 Long Reads를 생성했다. 접힘 범위; 보충 그림 5 및 보충 표 9). 두 유형을 동시에 사용하여 예상 게놈 크기의 1.75 %에서 1.06 %로 격차가 감소하고 최종 스캐 폴드 N50 길이가 25.93에서 26.08μMb로 약간 증가했다 (표 1). 낮은 양의 긴 판독 (mate-pairs 와 비교할 때 판독 수의 1.2 % 만)이 스캐 폴드 길이가 약간 증가한 이유 중 하나라고 추측한다 (보충 표 10).
'''표 2 assembly quality의 체계적 비교.'''
<img style="null" src=http://in.kogic.kr/images/5/59/11.png>
또한 각 human assembly에서 검출된 RefSeq (ref. 32) 단백질 코딩 유전자의 수를 비교하여 gene content assessments를 실시하였다(표 2 및 보충표 20). RefSeq 유전자는 CHM1_1.1(18,040)에서 가장 잘 회복된 유전자로, 이 참조를 지침으로 사용하여 assembled되었다. KOREF_C는 de novo assembled genomes 중 온전한 RefSeq 유전자를 가장 많이(1만7758개) 함유하고 있으며, 심지어 long-read 기반의 assemblies(약 1만7657개)보다도 많았다. 특히 single-molecule long reads과 게놈 지도를 결합해 하이브리드화한 NA12878_단일 게놈은 온전한 단백질 코딩 유전자(protein-coding genes)의 수가 6610개로 아프리카 게놈(9,167)보다 훨씬 적었다. NA12878_single은 코딩 영역에서 프레임 이동(frame-shift)이 많은 것을 확인했다. 이는 시퀀싱 깊이(46 × 적용 범위)가 낮아 오류 수정 단계로는 수정할 수 없었던 PacBio 1-mulule long read의 높은 오류율로 설명할 수 있다.
'''표 3 GRCh38과 비교한 8개의 인간 어셈블리의 SV 요약.'''
<img style="null" src=http://in.kogic.kr/images/9/9e/12.png>
KOREF_C SV 중 insertion의 93.8%, deletion의 70.4%가 public SV databases에서 발견되지 않아 새로운 것으로 정의되었다(표 3, 부가 그림 10, 보충 표 25 및 '방법' 섹션). KOREF_C의 새로운 SV의 부분은 다른 human assemblies에서 발견된 것과 유사하지만 다른 short-read only de novo assemblies보다 작았다. 시퀀싱 플랫폼에 관계없이 모든 어셈블리는 CHM1의 PacBio SMRT 판독값을 인간 참조 게놈(여기서 CHM1_mapping이라고 함)15에 매핑하여 발견한 것보다 더 많은 수의 새로운 SV을 보였다. 특히 같은 샘플의 PacBio long reads을 이용해 assembled한 CHM1_PacBio_r2 역시 새로운 SV의 부분이 훨씬 높았다. 우리는 fragments의 N50 길이와 새로운 SV의 부분(R2=0.44; 그림 2a) 사이의 상관관계를 발견했다. CHM1_mapping에 의해 human assemblies 의 SV를 SV와 비교했을 때 SV의 일부(약 12.51%)만 공유되었다(표 3 및 보충 표 26). CHM1_PacBio_r2와 CHM1_mapping 사이의 SV 공유 부분(8.85%)은 작았고, NA12878_single: 8.32%, NA12878_Allpaths: 5.27%)은 상당히 달랐다. assembly quality (N50 length)와 공유 부분(R2=0.71; 그림 2b) 사이에 상관관계가 있었다. 이러한 결과는 동일한 표본에 대해서도 long-read mapping 과 de novo assembly 기반 whole-genome alignment methods 사이에 큰 차이가 있었음을 시사한다.
'''그림 2: human assemblies 중 SV'''
<img style="null" src=http://in.kogic.kr/images/9/94/13.jpg>
(a) fragments의 N50 length(scaffolds or contigs)와 새로운 SV의 fraction 사이의 상관 관계. (b) CHM1 PacBio read mapping method과 공유한 fragments의N50 length와 SV의 fraction 사이의 상관 관계. (c) human assembly sets 간의 독점 공유 SV. 이 그림에서는 표시된 어셈블리에 의해서만 공유되는 SV(반복적으로 50% 적용)를 고려했다. (d) 9개의 human assemblies가 공유한 SV의 예. 회색 영역은 모든 어셈블리에 공유된 구조적 차이를 나타내며, 수평선은 homologous 시퀀스 영역을 나타낸다.
'''그림 3 : 참조 게놈에 따른 변이 차이.'''
<img style="null" src=http://in.kogic.kr/images/7/7b/14.png>
KOREFs, GRCh38 및 GRCh38_C가 공유하는 지역 내의 변이체 (SNV 및 소량의 indel) 수는 세 가지 다른 인종 그룹 (아프리카 : Mandenka, Yoruba, San, Mbuti 및 Dinka; 백인 : Sardinian, 프랑스어 및 CEPH/Utah (CEU) 3 명, 동아시아인 : 몽골인, 중국인 2 명, 일본인 5 명, 한국인 5 명). (a) 동형 접합 SNV의 수. (b) 동형 접합 작은 인델의 수. (c) 이형 접합 SNV의 수. (d) 이형 접합 작은 인델의 수. (e) 공유수준이 다른 변이의 수 (GRCh38 및 KOREF_C에 의해 참조됨). (f) 공유수준이 다른 참조-특정 변이체의 수.
== '''참조''' ==
<div class="mw-empty-elt">
#
<br/> Reich, D. et al. Reduced neutrophil count in people of African descent is due to a regulatory variant in the Duffy antigen receptor for chemokines gene. PLoS Genet. 5, e1000360 (2009).
[http://scholar.google.com/scholar_lookup?&title=Mapping%20copy%20number%20variation%20by%20population-scale%20genome%20sequencing&journal=Nature&volume=470&pages=59-65&publication_year=2011&author=Mills,RE Google Scholar]
</div>
== '''감사의 말''' ==