Difference between revisions of "Hak-Min Kim S P"

Latest revision as of 12:06, 21 August 2019

Pipelines
Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim

De novo genome assembly
1. DenovoGenome_Analysis/Denovo_Assembly_Pipeline
2. DenovoGenome_Analysis/GenePrediction_Denovo_with_RNAseq_Augustus
3. DenovoGenome_Analysis/GenePrediction_Homology_based
4. DenovoGenome_Analysis/ncRNA_annotation_pipeline.v0.0.4
5. DenovoGenome_Analysis/repeat_annotation_pipeline.v0.0.4
Epigenome_Analysis
1. Epigenome_Analysis/Methylseq_Pipeline
Evolution analysis
1. Evolution_Analysis/GeneExpansionContraction
2. Evolution_Analysis/HighlyConservedRegion
3. Evolution_Analysis/PSMC
4. Evolution_Analysis/RetinoicAcidResponseElement
SNPChip_analysis
1. SNPChip_analysis/GenotypeDistanceCalculate
Whole Genome Analysis
1. WholeGenome_Analysis/Calc_pi_distance_with_PED
2. WholeGenome_Analysis/CopyNumberVariation
3. WholeGenome_Analysis/StructuralVariation
4. WholeGenome_Analysis/VariantCalling

Script
Default path: /BiO/Share/Live/hmkim/General_scripts

General_script
1. BlastN_result_parsing_for_bacteria_filtering.pl ==> Long reads를 미생물, 곰팡이 DB에 BlastN한 결과를 가지고 특정 criteria로 reads filtering script.
2. Blastp_run.pl ==> 단백질 서열로 BlastP run script.
3. BWA_mem_run.pl ==> Short read 데이터로 BWA mem run script.
4. BWA_mem_Samtools_variant.pl ==> Short read 데이터로 BWA mem 실행후 Samtool로 variant calling script.
5. Calculate_insert_size_and_SD.pl ==> BAM파일을 input으로 받아 paired-end reads의 insert size와 standard deviation 계산 script.
6. CDS_length_calculate.pl ==> Gene set (GFF file)을 input으로 받아 평균 CDS 길이 계산 script.
7. ConsensusSeq2Fastq.pl ==> Samtools로 생성한 consensus서열을 fastq format으로 변환해주는 script.
8. Domain_sequence_extract.pl ==> Domain annotation결과와 특정 Domain term으로 검색한 후 해당하는 Domain 서열을 추출하는 script.
9. Extract_BLAST_reciprocal_besthit.pl ==> 두 종간의 BlastP 결과를 input으로 받아 reciprocally besthit 조건을 만족시키는 유전자를 추출하는 script.
10. Fasta_filt_by_length.pl ==> Fasta파일과 필터링하고자 하는 minimum 길이를 input으로 받아 짧은 fasta 서열 필터링 script.
11. Fasta_scaffold_extract.pl ==> Fasta파일과 scaffold id를 input으로 받아 특정 scaffold 서열을 추출하는 script.
12. Fasta_sort_by_length_header_change.pl ==> Fasta파일을 input으로 받아 fasta header의 format변환 script.
13. Fastq_Filter_with_NGStoolkit.pl ==> NGStoolkit 프로그램을 이용한 Fastq 필터링 script.
14. Fastq_to_Fasta.pl ==> Fastq format을 Fasta format으로 변환하는 script.
15. Gene_id_to_GO_id.pl ==> Domain annotation 결과파일을 input으로 받아 유전자별로 GO id 할당하는 script.
16. Gene_sequence_extract_in_felidae_consensus_seq.pl ==> Consensus 서열과 gene set (gff file), 그리고 특정 gene symbol을 input으로 받아 특정 gene의 서열 (CDS, Peptide) 추출 script.
17. GeneSymbol_to_description_using_HUGO.pl ==> HUGO의 annotation 결과를 이용한 Gene description을 annotation하는 script.
18. GenomeCov_run.pl ==> Bedtools와 Bam파일을 이용한 Genome coverage계산 script.
19. N_position_detect.pl ==> Fasta 파일을 input으로 받아 모든 N base의 위치정보를 추출하는 script.
20. Hmmer_build.pl ==> Hmmer프로그램과 MSA 결과파일을 이용한 HMM alignment 수행 script.
21. Human_gene_extract_by_symbolList.pl ==> Human의 peptide서열과 gene symbol list파일을 input으로 받아 symbol list에 해당하는 peptide서열 추출 script.
22. Longest_transcript_select.pl ==> GTF format 파일을 input으로 받아 alternative form중 가장 긴 transcript만 선택하여 GTF 파일 생성 script.
23. Moleculo_length_distribution_and_yield_distribution.pl ==> Moleculo (TSLR) long read 서열을 input으로받아 length distribution과 yield distribution figure 생성 script.
24. Muscle_alignment.pl ==> Multi-fasta file을 input으로 받아 MUSCLE 프로그램으로 multiple sequence alignment 수행 script.
25. BaseCountCalculate.pl ==> fasta 파일을 input으로받아 A,T,G,C,N의 base 개수와 전체 portion을 계산하는 script.
26. NR_blastp_run.pl ==> NCBI nr database에 BlastP 수행 script.
27. NR_blast_result_parse.pl ==> NCBI nr database에 BlastP 수행한 결과를 hit된 species기준으로 정리하는 script.
28. ORF_finder.pl ==> Fasta파일을 input으로 받아 ORF를 찾아주는 script.
29. Protein2Symbol.pl ==> GFF file과 Peptide file을 input으로 받아 GFF의 gene symbol을 peptide fasta header에 추가해주는 script.
30. Protein_Domain_extract.pl ==> Peptide서열, Domain annotation file, 그리고 추출하고자 하는 domain full name을 input으로 받아 domain 서열 추출 script.
31. ReadsCutTo50.pl ==> Mate-pair reads를 input으로 받아 read length를 일괄적으로 50으로 잘라주는 script.
32. RepeatMasking_the_genome.pl ==> Fasta 파일을 input으로 받아 homology based repeat annotation 수행 script.
33. Repeat_portion_calculate.pl ==> repeat 결과 파일을 input으로 받아 repeat의 전체 portion 계산 script.
34. Samtools_ConsensusSeq.pl ==> Samtools 프로그램을 이용하여 consensus sequence 생성 script.
35. Samtools_variant_calling.pl ==> Samtools를 이용하여 vcf 파일 생성 script.
36. Scaffold_repeat_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat masking 수행 script.
37. Scaffold_repeat_SINE_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 SINE에 해당하는 repeat masking 수행 script.
38. Scaffold_repeat_softmask.pl==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat을 soft-masking 수행 script.
39. Scaffold_split_to_contig.pl ==> Scaffold fasta파일을 input으로 받아 N base 기준으로 contig로 split해주는 script.
40. SelfCorrection_at_once.pl ==> Assembly 결과파일과 Short read를 input으로 받아 Selfcorrection을 한번에 수행해주는 script.
41. Split_allChr_to_chr_and_chrun.pl ==> Fasta파일을 input으로 받아 각 chromosome과 unassigned chromosome 파일 생성 script.
42. Split_MergedVCF_to_Splited_samples.pl ==> Merged vcf 파일을 input으로 받아 각각의 sample vcf 파일로 split하는 script.
43. Statistics_for_geneset.pl ==> GFF파일을 input으로 받아 Gene, Exon, CDS, Intron의 개수와 평균 길이 계산 script.
44. Tblastn_run.pl ==> Genome fasta와 peptide fasta를 input으로 받아 TblastN 수행 script.
45. UnmappedSequence.Extract.fromMergedBAM.pl ==> Samtools를 이용하여 BAM파파일부터 Unmapped된 reads 추출 script.
46. VariantStatistics.pl ==> VCF 파일을 input으로 받아 Homozygous, Heterozygous, SNV, INDEL에 대한 통계 계산 script.
NCBI_assembly_upload
==> NCBI에 genome sequence를 등록할 때 필요한 script.
1. NCBI_assembly_upload/Contig_file_generate.pl
2. NCBI_assembly_upload/Error_correct.pl
3. NCBI_assembly_upload/Generate_agp_file.pl
4. NCBI_assembly_upload/ShortContigFiltering.pl
GeneFusion_analysis
==> ChimeraScan, Tophat fusion 프로그램을 이용한 gene fusion analysis script.
1. GeneFusion_analysis/0_qsub_fusion_chimeraScan.pl
2. GeneFusion_analysis/0_qsub_fusion_tophat.pl
3. GeneFusion_analysis/1_fusion_tophat_result_add_genesymbol.pl
4. GeneFusion_analysis/2_qsub_tophat_result_add_genesymbol.pl
Population analysis
==> ADMIXTURE, PCA analysis를 수행하는 script.
1. Population_Genetic_Structure_Analysis/run.ADMIXTURE.pl
2. Population_Genetic_Structure_Analysis/run.pca.pl

@@ Line 1: / Line 1: @@
+<p>&nbsp;</p>
+<p>&nbsp;</p>
 <ul>
 	<li><span style="font-size:20px"><strong>Pipelines</strong></span><br />

Difference between revisions of "Hak-Min Kim S P"

Latest revision as of 12:06, 21 August 2019

Navigation menu

Views

Personal tools

Search

Tools

Related Links[Edit]