一文读懂PDB格式 protein database bank
最近在做分子对接和分子模拟,涉及到了一些盲区,必去pdb文件是按照列位数储存信息的,跟其他文件的空格或者制表符分割很不同,所以也可能出现一些错误,比如信息错位,因此有必要了深入解下结构相关的格式pdb、cif、sdf等等
pdb的分子对接前处理包括去除非氨基酸残基、去水、加氢、末端修复等等,在上次的分子对接文章中用了get_pdb.py脚本利用pdbfixer api和文本过滤,来处理蛋白结构。
三行代码搞定AutoDock Vina批量分子对接
坐标部分通过6种记录类型描述分子结构,彼此分工明确又相互关联。
1. MODEL 和 ENDMDL:多模型的起始标签和终止标签
作用:当文件包含多个相同结构的模型(如NMR测定的构象集合)时,用MODEL标记每个模型的开始。
MODEL与ENDMDL必须成对,包裹一个模型的所有ATOM/TER记录;
TER需紧跟链的最后一个ATOM,且关联信息(残基名、链ID、残基号)完全一致;
ATOM的坐标和参数是描述原子位置与运动性的核心数据。
模型编号需连续(如MODEL 1对应ENDMDL,下一个模型为MODEL 2),且所有模型的化学组成、序列需完全一致。
记录类型
1-6列(记录名)
核心编号列(7-11)
关键关联信息(残基/链/模型)
坐标/参数列
作用说明
示例内容片段
MODEL
MODEL
模型编号(如1、2)
-
-
标记模型起始,编号连续递增
MODEL 1(第1个模型开始)
ATOM
ATOM
原子序号(如32、107)
残基名(如ARG、GLU)、链ID(如A)、残基号(如-3、18)
X/Y/Z坐标(31-54列)、占据率(55-60)、温度因子(61-66)
记录标准残基的原子坐标及参数
ATOM 589 2HG GLU A 18 -12.634 -3.023 -3.475 1.00 0.00 H
TER
TER
序号(原子号+1,如590)
与前一ATOM一致的残基名(如GLU)、链ID(如A)、残基号(如18)
-
标记一条链的结束
TER 590 GLU A 18
ENDMDL
ENDMDL
-
-
-
标记对应MODEL的结束,成对出现
ENDMDL(对应MODEL 1的结束)
2. ATOM:标准残基
作用:记录氨基酸、核苷酸等标准残基的原子坐标及相关参数。
实例(标注关键列含义):
注意:原子号可能太大导致超过11位,所以会导致后边的信息错位
列范围
1-6
7-11
13-16
17
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
77-78
示例内容
ATOM
32
N
A
ARG
A
-3
11.281
86.699
94.383
0.50
35.88
N
对应含义
记录名
原子号
原子名
构象
残基名
链ID
残基号
X坐标
Y坐标
Z坐标
占据率
温度因子
元素
核心细节:
原子名:单字母(如N)从14列开始,双字母(如FE)从13列开始
交替构象:同一原子的不同位置用17列标记(如A、B),同一构象的原子标记相同
排序规则:蛋白质按氨基→羧基端,核酸按5'→3'端排列
3. ANISOU:原子运动的“精细描述”
作用:记录各向异性温度因子,比普通温度因子更细致地反映原子运动。
ANISOU记录中,29-70列替换了ATOM记录中31-66列的坐标、占据率和温度因子,用于存储6个经10⁴倍缩放的各向异性温度因子参数,其余列(1-27、77-80)与对应的ATOM记录保持一致。
仅当提供数据时出现,否则温度因子默认0.0
与对应的ATOM共享原子序号、残基信息等
列范围
1-6
7-11
13-16
17
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
29-35
36-42
43-49
50-56
57-63
64-70
77-78
ATOM示例内容
ATOM
107
N
GLY
A
13
12.681
37.302
-25.211
1.000
15.56
-
-
-
-
-
-
N
ANISOU示例内容
ANISOU
107
N
GLY
A
13
-
-
-
-
-
2406
1892
1614
198
519
-328
N
对应含义
记录名
原子号
原子名
构象
残基名
链ID
残基号
X坐标
Y坐标
Z坐标
占据率
温度因子
温度因子参数1
温度因子参数2
温度因子参数3
温度因子参数4
温度因子参数5
温度因子参数6
元素
4. TER:链的“终止符”
作用:标记一条原子链的结束,常紧跟在链的最后一个原子后。
TER记录的残基名(LEU)、链ID(A)、残基号(75)与上一行ATOM记录完全一致,用于标记该链的结束;
TER无原子相关信息(原子名、坐标等),故对应位置为“-”。
蛋白质对应羧基端,核酸对应3'端
序号为前一个原子的序号+1
列范围
1-6
7-11
13-16
17
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
77-78
ATOM示例内容
ATOM
605
CB
LEU
A
75
-16.776
-16.283
4.844
1.00
55.51
C
TER示例内容
TER
606
-
LEU
A
75
-
-
-
-
-
-
对应含义
记录名
序号
原子名
构象
残基名
链ID
残基号
X坐标
Y坐标
Z坐标
占据率
温度因子
元素
5. HETATM:非标准分子记录
作用:记录配体、金属离子等非标准化学物质的坐标。
如果你从RCSB下载x-ray的结构一般会有共结晶的小分子,一般会被记录为HETATM
HETATM用于记录非标准残基(如示例中的镁离子MG、硫酸根SO4),格式与ATOM基本一致,核心区别是残基为非标准化学物质,需配合其他记录说明其化学信息。
列范围
1-6
7-11
13-16
17
18-20
22
23-26
31-38
39-46
47-54
55-60
61-66
77-78
HETATM示例1内容
HETATM
8237
MG
MG
A
1001
13.872
-2.555
-29.045
1.00
27.36
MG
HETATM示例2内容
HETATM
8238
S
SO4
A
2001
10.885
-15.746
-14.404
1.00
47.84
S
对应含义
记录名
原子号
原子名
构象
残基名(非标准)
链ID
残基号
X坐标
Y坐标
Z坐标
占据率
温度因子
元素
参考
https://www.wwpdb.org/documentation/file-format-content/format33/sect9.html#ATOM