Difference between revisions of "Hak-Min Kim S P"

From kogic.kr
(Created page with "<ul> <li><span style="font-size:20px"><strong>Pipelines</strong></span><br /> <span style="font-size:16px">Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim</span></li> </ul> <...")
 
 
Line 1: Line 1:
 +
<p>&nbsp;</p>
 +
 +
<p>&nbsp;</p>
 +
 
<ul>
 
<ul>
 
<li><span style="font-size:20px"><strong>Pipelines</strong></span><br />
 
<li><span style="font-size:20px"><strong>Pipelines</strong></span><br />

Latest revision as of 12:06, 21 August 2019

 

 

  • Pipelines
    Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim
  1. De novo genome assembly
    1. DenovoGenome_Analysis/Denovo_Assembly_Pipeline
    2. DenovoGenome_Analysis/GenePrediction_Denovo_with_RNAseq_Augustus
    3. DenovoGenome_Analysis/GenePrediction_Homology_based
    4. DenovoGenome_Analysis/ncRNA_annotation_pipeline.v0.0.4
    5. DenovoGenome_Analysis/repeat_annotation_pipeline.v0.0.4
  2. Epigenome_Analysis
    1. Epigenome_Analysis/Methylseq_Pipeline
  3. Evolution analysis
    1. Evolution_Analysis/GeneExpansionContraction
    2. Evolution_Analysis/HighlyConservedRegion
    3. Evolution_Analysis/PSMC
    4. Evolution_Analysis/RetinoicAcidResponseElement
  4. SNPChip_analysis
    1. SNPChip_analysis/GenotypeDistanceCalculate
  5. Whole Genome Analysis
    1. WholeGenome_Analysis/Calc_pi_distance_with_PED
    2. WholeGenome_Analysis/CopyNumberVariation
    3. WholeGenome_Analysis/StructuralVariation
    4. WholeGenome_Analysis/VariantCalling

 

  • Script
    Default path: /BiO/Share/Live/hmkim/General_scripts
  1. General_script
    1. BlastN_result_parsing_for_bacteria_filtering.pl ==> Long reads를 미생물, 곰팡이 DB에 BlastN한 결과를 가지고 특정 criteria로 reads filtering script.
    2. Blastp_run.pl ==> 단백질 서열로 BlastP run script.
    3. BWA_mem_run.pl ==> Short read 데이터로 BWA mem run script.
    4. BWA_mem_Samtools_variant.pl ==> Short read 데이터로 BWA mem 실행후 Samtool로 variant calling script.
    5. Calculate_insert_size_and_SD.pl ==> BAM파일을 input으로 받아 paired-end reads의 insert size와 standard deviation 계산 script.
    6. CDS_length_calculate.pl ==> Gene set (GFF file)을 input으로 받아 평균 CDS 길이 계산 script.
    7. ConsensusSeq2Fastq.pl ==> Samtools로 생성한 consensus서열을 fastq format으로 변환해주는 script.
    8. Domain_sequence_extract.pl ==> Domain annotation결과와 특정 Domain term으로 검색한 후 해당하는 Domain 서열을 추출하는 script.
    9. Extract_BLAST_reciprocal_besthit.pl ==> 두 종간의 BlastP 결과를 input으로 받아 reciprocally besthit 조건을 만족시키는 유전자를 추출하는 script.
    10. Fasta_filt_by_length.pl ==> Fasta파일과 필터링하고자 하는 minimum 길이를 input으로 받아 짧은 fasta 서열 필터링 script.
    11. Fasta_scaffold_extract.pl ==> Fasta파일과 scaffold id를 input으로 받아 특정 scaffold 서열을 추출하는 script.
    12. Fasta_sort_by_length_header_change.pl ==> Fasta파일을 input으로 받아 fasta header의 format변환 script.
    13. Fastq_Filter_with_NGStoolkit.pl ==> NGStoolkit 프로그램을 이용한 Fastq 필터링 script.
    14. Fastq_to_Fasta.pl ==> Fastq format을 Fasta format으로 변환하는 script.
    15. Gene_id_to_GO_id.pl ==> Domain annotation 결과파일을 input으로 받아 유전자별로 GO id 할당하는 script.
    16. Gene_sequence_extract_in_felidae_consensus_seq.pl ==> Consensus 서열과 gene set (gff file), 그리고 특정 gene symbol을 input으로 받아 특정 gene의 서열 (CDS, Peptide) 추출 script.
    17. GeneSymbol_to_description_using_HUGO.pl ==> HUGO의 annotation 결과를 이용한 Gene description을 annotation하는 script.
    18. GenomeCov_run.pl ==> Bedtools와 Bam파일을 이용한 Genome coverage계산 script.
    19. N_position_detect.pl ==> Fasta 파일을 input으로 받아 모든 N base의 위치정보를 추출하는 script.
    20. Hmmer_build.pl ==> Hmmer프로그램과 MSA 결과파일을 이용한 HMM alignment 수행 script.
    21. Human_gene_extract_by_symbolList.pl ==> Human의 peptide서열과 gene symbol list파일을 input으로 받아 symbol list에 해당하는 peptide서열 추출 script.
    22. Longest_transcript_select.pl ==> GTF format 파일을 input으로 받아 alternative form중 가장 긴 transcript만 선택하여 GTF 파일 생성 script.
    23. Moleculo_length_distribution_and_yield_distribution.pl ==> Moleculo (TSLR) long read 서열을 input으로받아 length distribution과 yield distribution figure 생성 script.
    24. Muscle_alignment.pl ==> Multi-fasta file을 input으로 받아 MUSCLE 프로그램으로 multiple sequence alignment 수행 script.
    25. BaseCountCalculate.pl ==> fasta 파일을 input으로받아 A,T,G,C,N의 base 개수와 전체 portion을 계산하는 script.
    26. NR_blastp_run.pl ==> NCBI nr database에 BlastP 수행 script.
    27. NR_blast_result_parse.pl ==> NCBI nr database에 BlastP 수행한 결과를 hit된 species기준으로 정리하는 script.
    28. ORF_finder.pl ==> Fasta파일을 input으로 받아 ORF를 찾아주는 script.
    29. Protein2Symbol.pl ==> GFF file과 Peptide file을 input으로 받아 GFF의 gene symbol을 peptide fasta header에 추가해주는 script.
    30. Protein_Domain_extract.pl ==> Peptide서열, Domain annotation file, 그리고 추출하고자 하는 domain full name을 input으로 받아 domain 서열 추출 script.
    31. ReadsCutTo50.pl ==> Mate-pair reads를 input으로 받아 read length를 일괄적으로 50으로 잘라주는 script.
    32. RepeatMasking_the_genome.pl ==> Fasta 파일을 input으로 받아 homology based repeat annotation 수행 script.
    33. Repeat_portion_calculate.pl ==> repeat 결과 파일을 input으로 받아 repeat의 전체 portion 계산 script.
    34. Samtools_ConsensusSeq.pl ==> Samtools 프로그램을 이용하여 consensus sequence 생성 script.
    35. Samtools_variant_calling.pl ==> Samtools를 이용하여 vcf 파일 생성 script.
    36. Scaffold_repeat_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat masking 수행 script.
    37. Scaffold_repeat_SINE_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 SINE에 해당하는 repeat masking 수행 script.
    38. Scaffold_repeat_softmask.pl==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat을 soft-masking 수행 script.
    39. Scaffold_split_to_contig.pl ==> Scaffold fasta파일을 input으로 받아 N base 기준으로 contig로 split해주는 script.
    40. SelfCorrection_at_once.pl ==> Assembly 결과파일과 Short read를 input으로 받아 Selfcorrection을 한번에 수행해주는 script.
    41. Split_allChr_to_chr_and_chrun.pl ==> Fasta파일을 input으로 받아 각 chromosome과 unassigned chromosome 파일 생성 script.
    42. Split_MergedVCF_to_Splited_samples.pl ==> Merged vcf 파일을 input으로 받아 각각의 sample vcf 파일로 split하는 script.
    43. Statistics_for_geneset.pl ==> GFF파일을 input으로 받아 Gene, Exon, CDS, Intron의 개수와 평균 길이 계산 script.
    44. Tblastn_run.pl ==> Genome fasta와 peptide fasta를 input으로 받아 TblastN 수행 script.
    45. UnmappedSequence.Extract.fromMergedBAM.pl ==> Samtools를 이용하여 BAM파파일부터 Unmapped된 reads 추출 script.
    46. VariantStatistics.pl ==> VCF 파일을 input으로 받아 Homozygous, Heterozygous, SNV, INDEL에 대한 통계 계산 script.
  2. NCBI_assembly_upload
    ==> NCBI에 genome sequence를 등록할 때 필요한 script.
    1. NCBI_assembly_upload/Contig_file_generate.pl
    2. NCBI_assembly_upload/Error_correct.pl
    3. NCBI_assembly_upload/Generate_agp_file.pl
    4. NCBI_assembly_upload/ShortContigFiltering.pl
  3. GeneFusion_analysis
    ==> ChimeraScan, Tophat fusion 프로그램을 이용한 gene fusion analysis script.
    1. GeneFusion_analysis/0_qsub_fusion_chimeraScan.pl
    2. GeneFusion_analysis/0_qsub_fusion_tophat.pl
    3. GeneFusion_analysis/1_fusion_tophat_result_add_genesymbol.pl
    4. GeneFusion_analysis/2_qsub_tophat_result_add_genesymbol.pl
  4. Population analysis
    ==> ADMIXTURE, PCA analysis를 수행하는 script.
    1. Population_Genetic_Structure_Analysis/run.ADMIXTURE.pl
    2. Population_Genetic_Structure_Analysis/run.pca.pl