메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
웹 주소, 즉 URL(Uniform Resource Locator)은 웹 공간을 오가는 핵심 통로로서 본래 영문 알파벳과 숫자, 일부 특수문자로 구성되어야 하며 전 세계에서 동일한 방식으로 해석되어야 하는 국제 표준입니다. 그만큼 단순하고 기억하기 쉬울수록 사용자로서는 반가운 일입니다. 그래서 편리성을 이유로 한글이나 비영문 문자를 웹 주소에 사용하여 정보 접근성을 높이는 경우가 많아지고 있습니다(예: https://example.com/공지사항). 하지만 이러한 편리함 뒤에는 기술적 오류와 보안 위협이라는 보이지 않는 위험이 함께 도사리고 있습니다. 기술적으로 웹 주소는 영어 알파벳, 숫자, 일부 특수문자만을 표준으로 인식합니다. 따라서 한글이 포함된 URL은 반드시 내부적으로 퍼센트 인코딩(percent encoding) 과정을 거쳐야 합니다. 구분웹 주소 예시한글 기반 웹 주소https://example.com/공지사항/2025년-업데이트퍼센트 인코딩https://example.com/%EA%B3%B5%EC%A7%80%EC%82%AC%ED%95%AD/2025%EB%85%84-%EC%97%85%EB%8D%B0%EC%9D%B4%ED%8A%B8 한글이 포함된 URL은 브라우저와 서버 간의 인코딩 해석이 달라질 경우, 주소가 깨지거나 404 오류가 발생하는 일이 종종 있습니다. 특히 경로를 복사해 다른 브라우저에서 열거나, 로그 상의 한글이 제대로 처리되지 않으면 장애 분석과 트래픽 모니터링에도 지장을 줄 수 있습니다. 이러한 기술적인 문제 외에도 보안 문제가 발생할 수 있습니다.예를 들어, 사용자는 주소창에 kakao.com을 입력했다고 생각하지만, 실제로는 러시아어 소문자 'а'(U+0430)가 포함된 kаkао.com이라는 가짜 도메인일 수 있습니다. 이 가짜 도메인은 영어 알파벳 'a'나 'o'와 모양이 거의 구분되지 않는 러시아어 문자 'а', 'о'를 교묘하게 섞어 만든 것으로, 육안으로는 정상 도메인과 똑같아 보입니다. 그러나 브라우저가 인식하는 것은 전혀 다른 도메인입니다. 즉, 주소창에는 'kakao.com'로 나타나지만, 실제로는 완전히 다른 주소이며 피싱 사이트로 연결될 수 있습니다. 이를 악용하는 것이 바로 '호모그래프(Homograph)' 피싱 공격입니다. 이러한 현상은 한글뿐 아니라, 비ASCII 문자 기반 국제 도메인(IDN) 전반에서 나타날 수 있습니다. 이때 사용되는 국제화 도메인(IDN)은 브라우저 내부에서 ‘Punycode’로 변환되어 처리됩니다. 이는 유니코드 문자를 ASCII 문자로 바꿔 도메인 시스템이 인식할 수 있도록 하는 표준 인코딩 방식으로, 예를 들어 러시아어 문자가 섞인 kаkао.com은 실제로 xn--kkxo30a.com으로 표시됩니다. 보기에는 같은 주소실제 구성브라우저 내부 처리kakao.com영어 알파벳만 사용kakao.comkakao.com러시아어 'а', 'о' 포함xn--kkxo30a.com 브라우저에 따라 이를 탐지하면 xn--으로 시작하는 경고 형태로 표시되지만, 일부 모바일 환경에서는 이런 구분이 제대로 적용되지 않아 주의가 필요합니다. 이러한 공격은 사용자가 주소를 제대로 인식하지 못하도록 유도해 정보를 탈취하는 방식으로 설계됩니다. 따라서 웹사이트에 접속할 때는 도메인이 정확한 영문 알파벳으로 구성되어 있는지 확인해야 하며, xn--으로 시작하는 경우에는 반드시 경계해야 합니다. 가능하면 북마크나 공식 앱을 통해 접근하고, 문자나 이메일의 링크는 클릭 전에 전체 주소를 확인하는 습관이 필요합니다. 특히 한글 경로나 외국어 문자가 포함된 URL이 적절히 필터링되지 않는 환경에서는 이러한 공격이 더욱 쉽게 성공할 수 있습니다. 문자가 인코딩되지 않거나, 서버가 이를 제대로 해석하지 못하면 의도하지 않은 실행 경로로 이어질 수 있기 때문입니다. 이처럼 한글 URL은 활용에 주의가 필요한 요소지만, 신중한 설계와 운용이 전제된다면 사용될 수 있습다. 다만 웹 주소는 단순한 텍스트가 아니라, 시스템 내부에서 경로나 명령어로 해석될 수 있는 실행 단위이기 때문에, 이를 안전하게 처리하려면 인코딩과 디코딩 절차, 그리고 철저한 입력 검증이 반드시 따라야 합니다. 그러나 실제 운영 환경에서는 이론적인 처리와 달리, 여전히 한글 URL이 다양한 시스템과의 호환성 문제를 일으키고 있습니다. 글로벌 웹 환경에서는 특히 한글 주소가 예외 처리 대상이 되기 쉽고, 웹 크롤러나 API 클라이언트, 보안 스캐너 등 자동화 도구들이 이를 정확히 해석하지 못해 접근 오류나 보안 사각지대를 유발할 수 있습니다. 따라서 실무에서는 한글보다는 의미 있는 영문 슬러그(slug)를 사용하는 것이 바람직합니다. 슬러그는 URL의 일부로 쓰이는 짧고 명확한 식별자를 말합니다. 일반적으로 띄어쓰기를 하이픈(-)으로 연결한 형태로 구성되며, 예를 들어 ‘https://example.com/공지사항’ 대신 ‘https://example.com/notice-update-2025’처럼 표현되는 방식입니다. 슬러그는 다국어 환경에서도 높은 호환성을 가지며, 브라우저와 서버 간 인코딩 충돌 없이 안정적으로 처리됩니다. 또한 가독성과 일관성 측면에서 보안뿐 아니라 SEO(검색 엔진 최적화) 측면에서도 중요한 역할을 합니다. 이처럼 웹 주소의 구성은 단순한 표현이 아니라, 사용자 경험은 물론 시스템의 안정성과 보안까지 영향을 미치는 요소입니다. 결국 사용자 중심의 편리함도 견고한 기술과 보안 위에서만 지속될 수 있습니다. 아무리 직관적이고 친숙한 한글 웹 주소라도, 그 이면의 시스템 구조와 보안 위협을 간과한다면 전체 서비스의 신뢰성과 안정성이 무너질 수 있습니다. 웹 주소는 단순한 표현이 아니라 시스템의 일부이며, 기술자와 기획자, 콘텐츠 관리자 모두가 이를 인식하고 올바른 설계 원칙을 함께 마련해야 합니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,295

사용자

1,109

워크스페이스

90,448

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,145

    바이오프로젝트
  • 110,157

    바이오샘플
  • 2,370,296

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP