Hak-Min Kim S P
From kogic.kr
- Pipelines
Default path: /BiO/Share/Kit/Pipeline/Hakmin.Kim
- De novo genome assembly
- DenovoGenome_Analysis/Denovo_Assembly_Pipeline
- DenovoGenome_Analysis/GenePrediction_Denovo_with_RNAseq_Augustus
- DenovoGenome_Analysis/GenePrediction_Homology_based
- DenovoGenome_Analysis/ncRNA_annotation_pipeline.v0.0.4
- DenovoGenome_Analysis/repeat_annotation_pipeline.v0.0.4
- Epigenome_Analysis
- Epigenome_Analysis/Methylseq_Pipeline
- Evolution analysis
- Evolution_Analysis/GeneExpansionContraction
- Evolution_Analysis/HighlyConservedRegion
- Evolution_Analysis/PSMC
- Evolution_Analysis/RetinoicAcidResponseElement
- SNPChip_analysis
- SNPChip_analysis/GenotypeDistanceCalculate
- Whole Genome Analysis
- WholeGenome_Analysis/Calc_pi_distance_with_PED
- WholeGenome_Analysis/CopyNumberVariation
- WholeGenome_Analysis/StructuralVariation
- WholeGenome_Analysis/VariantCalling
- Script
Default path: /BiO/Share/Live/hmkim/General_scripts
- General_script
- BlastN_result_parsing_for_bacteria_filtering.pl ==> Long reads를 미생물, 곰팡이 DB에 BlastN한 결과를 가지고 특정 criteria로 reads filtering script.
- Blastp_run.pl ==> 단백질 서열로 BlastP run script.
- BWA_mem_run.pl ==> Short read 데이터로 BWA mem run script.
- BWA_mem_Samtools_variant.pl ==> Short read 데이터로 BWA mem 실행후 Samtool로 variant calling script.
- Calculate_insert_size_and_SD.pl ==> BAM파일을 input으로 받아 paired-end reads의 insert size와 standard deviation 계산 script.
- CDS_length_calculate.pl ==> Gene set (GFF file)을 input으로 받아 평균 CDS 길이 계산 script.
- ConsensusSeq2Fastq.pl ==> Samtools로 생성한 consensus서열을 fastq format으로 변환해주는 script.
- Domain_sequence_extract.pl ==> Domain annotation결과와 특정 Domain term으로 검색한 후 해당하는 Domain 서열을 추출하는 script.
- Extract_BLAST_reciprocal_besthit.pl ==> 두 종간의 BlastP 결과를 input으로 받아 reciprocally besthit 조건을 만족시키는 유전자를 추출하는 script.
- Fasta_filt_by_length.pl ==> Fasta파일과 필터링하고자 하는 minimum 길이를 input으로 받아 짧은 fasta 서열 필터링 script.
- Fasta_scaffold_extract.pl ==> Fasta파일과 scaffold id를 input으로 받아 특정 scaffold 서열을 추출하는 script.
- Fasta_sort_by_length_header_change.pl ==> Fasta파일을 input으로 받아 fasta header의 format변환 script.
- Fastq_Filter_with_NGStoolkit.pl ==> NGStoolkit 프로그램을 이용한 Fastq 필터링 script.
- Fastq_to_Fasta.pl ==> Fastq format을 Fasta format으로 변환하는 script.
- Gene_id_to_GO_id.pl ==> Domain annotation 결과파일을 input으로 받아 유전자별로 GO id 할당하는 script.
- Gene_sequence_extract_in_felidae_consensus_seq.pl ==> Consensus 서열과 gene set (gff file), 그리고 특정 gene symbol을 input으로 받아 특정 gene의 서열 (CDS, Peptide) 추출 script.
- GeneSymbol_to_description_using_HUGO.pl ==> HUGO의 annotation 결과를 이용한 Gene description을 annotation하는 script.
- GenomeCov_run.pl ==> Bedtools와 Bam파일을 이용한 Genome coverage계산 script.
- N_position_detect.pl ==> Fasta 파일을 input으로 받아 모든 N base의 위치정보를 추출하는 script.
- Hmmer_build.pl ==> Hmmer프로그램과 MSA 결과파일을 이용한 HMM alignment 수행 script.
- Human_gene_extract_by_symbolList.pl ==> Human의 peptide서열과 gene symbol list파일을 input으로 받아 symbol list에 해당하는 peptide서열 추출 script.
- Longest_transcript_select.pl ==> GTF format 파일을 input으로 받아 alternative form중 가장 긴 transcript만 선택하여 GTF 파일 생성 script.
- Moleculo_length_distribution_and_yield_distribution.pl ==> Moleculo (TSLR) long read 서열을 input으로받아 length distribution과 yield distribution figure 생성 script.
- Muscle_alignment.pl ==> Multi-fasta file을 input으로 받아 MUSCLE 프로그램으로 multiple sequence alignment 수행 script.
- BaseCountCalculate.pl ==> fasta 파일을 input으로받아 A,T,G,C,N의 base 개수와 전체 portion을 계산하는 script.
- NR_blastp_run.pl ==> NCBI nr database에 BlastP 수행 script.
- NR_blast_result_parse.pl ==> NCBI nr database에 BlastP 수행한 결과를 hit된 species기준으로 정리하는 script.
- ORF_finder.pl ==> Fasta파일을 input으로 받아 ORF를 찾아주는 script.
- Protein2Symbol.pl ==> GFF file과 Peptide file을 input으로 받아 GFF의 gene symbol을 peptide fasta header에 추가해주는 script.
- Protein_Domain_extract.pl ==> Peptide서열, Domain annotation file, 그리고 추출하고자 하는 domain full name을 input으로 받아 domain 서열 추출 script.
- ReadsCutTo50.pl ==> Mate-pair reads를 input으로 받아 read length를 일괄적으로 50으로 잘라주는 script.
- RepeatMasking_the_genome.pl ==> Fasta 파일을 input으로 받아 homology based repeat annotation 수행 script.
- Repeat_portion_calculate.pl ==> repeat 결과 파일을 input으로 받아 repeat의 전체 portion 계산 script.
- Samtools_ConsensusSeq.pl ==> Samtools 프로그램을 이용하여 consensus sequence 생성 script.
- Samtools_variant_calling.pl ==> Samtools를 이용하여 vcf 파일 생성 script.
- Scaffold_repeat_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat masking 수행 script.
- Scaffold_repeat_SINE_mask.pl ==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 SINE에 해당하는 repeat masking 수행 script.
- Scaffold_repeat_softmask.pl==> Scaffold fasta파일과 repeat annotation결과파일을 input으로 받아 repeat을 soft-masking 수행 script.
- Scaffold_split_to_contig.pl ==> Scaffold fasta파일을 input으로 받아 N base 기준으로 contig로 split해주는 script.
- SelfCorrection_at_once.pl ==> Assembly 결과파일과 Short read를 input으로 받아 Selfcorrection을 한번에 수행해주는 script.
- Split_allChr_to_chr_and_chrun.pl ==> Fasta파일을 input으로 받아 각 chromosome과 unassigned chromosome 파일 생성 script.
- Split_MergedVCF_to_Splited_samples.pl ==> Merged vcf 파일을 input으로 받아 각각의 sample vcf 파일로 split하는 script.
- Statistics_for_geneset.pl ==> GFF파일을 input으로 받아 Gene, Exon, CDS, Intron의 개수와 평균 길이 계산 script.
- Tblastn_run.pl ==> Genome fasta와 peptide fasta를 input으로 받아 TblastN 수행 script.
- UnmappedSequence.Extract.fromMergedBAM.pl ==> Samtools를 이용하여 BAM파파일부터 Unmapped된 reads 추출 script.
- VariantStatistics.pl ==> VCF 파일을 input으로 받아 Homozygous, Heterozygous, SNV, INDEL에 대한 통계 계산 script.
- NCBI_assembly_upload
==> NCBI에 genome sequence를 등록할 때 필요한 script.- NCBI_assembly_upload/Contig_file_generate.pl
- NCBI_assembly_upload/Error_correct.pl
- NCBI_assembly_upload/Generate_agp_file.pl
- NCBI_assembly_upload/ShortContigFiltering.pl
- GeneFusion_analysis
==> ChimeraScan, Tophat fusion 프로그램을 이용한 gene fusion analysis script.- GeneFusion_analysis/0_qsub_fusion_chimeraScan.pl
- GeneFusion_analysis/0_qsub_fusion_tophat.pl
- GeneFusion_analysis/1_fusion_tophat_result_add_genesymbol.pl
- GeneFusion_analysis/2_qsub_tophat_result_add_genesymbol.pl
- Population analysis
==> ADMIXTURE, PCA analysis를 수행하는 script.- Population_Genetic_Structure_Analysis/run.ADMIXTURE.pl
- Population_Genetic_Structure_Analysis/run.pca.pl