Search

Organizations of 3D Structures in PDB: entry, entity, instance, assembly

Table of Contents

개요

Biomolecule은 계층적인 구조를 띄고 있다. 예를 들어, 하나의 단백질은 하나의 subunit을 형성하여, 다른 단백질들, 저분자 리간드, 물, 또는 용매 분자들과 한 덩어리를 이룰 수 있다. PDB (Protein Data Bank)에는 크게 네가지 종류의 organization (ENTRY, ENTITY, INSTANCE, ASSEMBLY)이 있다.

각 organization의 정의

ENTRY
일명 PDB ID 이다. 이 안에는 그 PDB ID에 해당하는 모든 데이터가 포함되어 있다.
e.g.) 12e8
ID system: 4-character alphanumeric identifier 이다.
ENTITY
Polymer (polypeptide chain, DNA/RNA strand, oligosaccharides 등) 또는 non-polymer (ligand, solvent, water 등)인, 화학적으로 서로 구분되며 unique한 molecule이다.
예를 들어 hetero-oligomer protein인 경우, 각 protein chain은 각각 독립적인 entity를 구성한다. Homo-oligomer protein인 경우, 각 protein chain이 동일한 구성일 경우 같은 entity가 여러 개 반복된다.
ID system: Numeric identifier로 1, 2, 3, … 순으로 부여된다.
INSTANCE
Instance는 특정 entity의 occurrence를 의미한다. 즉, 하나의 entity는 여러 instance를 가질 수 있다.
서로 다른 entity 뿐만 아니라, 서로 다른 instance도 한 번에 같이 구분하기 위해 MMCIF에서는 label_asym_id를 부여한다.
ID system: 1~3 자리의 alphanumeric ID가 asym_id 라는 이름으로 부여된다. 보통 alphabet 순서로 A, B, C, … 순으로 부여되는데 전체 instance 개수가 매우 많을 경우, 2개 이상의 alphabet (AA, AB, AAA, …) 또는 숫자 (1a, …) 로 표현되기도 한다.
참고) 물 분자 등 solvent의 경우 instance 개수는 사실 분자 수만큼 이지만, label_asym_id는 나머지 macromolecule을 감싸는 그룹 단위로 부여되는 것 같다 (본문 마지막 2hbs 예시 참고). 편의상 아래 예시들에서는 instance를 구분하는데 label_asym_id를 사용하는 것으로 간주하고 기술하였다.
e.g.) ENTRY 12e8에는 ENTITY 1, 2, 3이 존재한다.
ENTITY 1은 polypeptide chain이고, 두 개의 INSTANCE(label asym id 기준 A, C)를 보유한다.
ENTITY 2는 polypeptide chain 이고, 두 개의 INSTANCE(label asym id 기준 B, D)를 보유한다.
ENTITY 3은 물 분자들이고, 네 개의 INSTANCE (label asym id 기준 E, F, G, H)를 보유한다.
참고) asym_id란? Asymmetric unit ID (asym_id) 를 참고하자.
ASSEMBLY
Assembly는 1개 이상의 instance들이 모여 구성하는 생물학적으로 연관이 있고 안정적인 복합체를 형성하여 구조적인 기능을 가지는 집합을 의미한다.
ID system: Numeric identifier로 1, 2, 3, … 순으로 부여된다.
e.g.) ENTRY 12e8은 두 가지 ASSEMBLY 1, 2가 있다.
ASSEMBLY 1은 INSTANCE의 label_asym_id 기준으로 A, B, E, F가 구성한다.
ASSEMBLY 2는 INSTANCE의 label_asym_id 기준으로 C, D, G, H가 구성한다.
참고로, 한 assembly 안에 동일한 instance가 여러 개 포함될 수 있다!

총정리 예시: ENTRY 2hbs

ENTRY 2hbs 에는 ENTITY 1, 2, 3, 4가 존재한다.
ENTITY 1은 polypeptide chain 이고, 4개의 INSTANCE (label_asym_id 기준 A, C, E, G) 를 보유한다.
ENTITY 2는 polypeptide chain 이고, 4개의 INSTANCE (label_asym_id 기준 B, D, F, H) 를 보유한다.
ENTITY 3은 HEME 이고, 8개의 INSTANCE (label_asym_id 기준 I, J, K, L, M, N, O, P) 를 보유한다.
ENTITY 4는 물 분자들이고, 8개의 INSTANCE (label_asym_id 기준 Q, R, S, T, U, V, W, X) 를 보유한다.
참고) 2hbs의 경우 auth_asym_id는 ENTITY 1, 2의 경우 label_asym_id와 동일하게 부여되어 있다. ENTITY 3, 4는 non-polymer 라서 각자 ENTITY 1, 2의 INSTANCE 와 가장 가까운 것으로 부여되어 있다.
2hbs의 label_asym_id와 auth_asym_id mapping
ASSEMBLY는 1, 2가 존재한다.
ASSEMBLY 1은 INSTANCE의 label_asym_id 기준으로 A, B, C, D, I, J, K, L, Q, R, S, T 가 구성한다.
ASSEMBLY 2는 INSTANCE의 label_asym_id 기준으로 E, F, G, H, M, N, O, P, U, V, W, X 가 구성한다.
참고) 여기서 물 분자는 각 1개 단위로 instance로 적어 총 573개의 instance 가 있다고 그림에 적혀있지만, mmcif 파일의 asym_id 기준으로는 8개가 존재한다. Solvent에 대해서는 각 instance를 macromolecule에 가까운 것들로 묶어서 asym_id 를 정의하는 것으로 보인다.

References