【小工具教程】处理PDB结构(进阶版)

【小工具教程】处理PDB结构(进阶版)

用途

检查并修复PDB文件中常见的结构问题,为分子对接、分子动力学模拟等计算提供良好的三维结构。

预备知识

PDB常见结构问题

大多数PDB文件或多或少存在着各种结构问题,在开始分子模拟前,首先要修复这些问题,确保计算的准确性。常见的问题有:

  • 插入残基、重复残基、重复原子;
  • 非标准氨基酸(修饰过的氨基酸);
  • 缺失残基(序列缺口)、缺失原子。

还有一些不算问题,但分子动力学需要处理的方面:二硫键、酸碱氨基酸。

此外,X衍射晶体结构通常不含氢原子,但分子模拟一般都需要补全。

插入残基

在研究不同物种来源的蛋白时,人们发现有的序列之间存在一定联系(比如,序列进化)或某种重要的模式(比如,某些蛋白家族中的motif)。为了更好地体现这种联系、方便讨论和比较不同物种的结构又或者为了符合某种外部标准,人们希望保留特定的残基编号而不严格递增。例如,在晶体结构1IGY中,B链残基52和53之间插入了一个“52A”残基(A为插入码)。

分子动力学模拟通常要求残基编号唯一,且从1开始重新编号。

替代位置

PDB文件中每个残基的原子位置通常是唯一的,但在某些情况下,可能见到一个原子有多个位置。大分子晶体结构是由许多组装到一个对称排列(symmetrical arrangement)的独立分子构成的。在有的晶体结构中,不同分子之间存在构象差异。例如,位于蛋白表面的侧链可能存在来回折叠的不同构象,底物结合在活性位点中的构象并非唯一,金属离子仅存在于个别分子中。在PDB文件中,这种情况以“替代位置”(alternate location)的方式记录下来(通常在残基名前用单英文字母标记,如:A、B、C),各自出现的比例用占有率(occupancy)描述。

分子模拟要求清除多余的构象,仅保留一个确定的位置。通常,选择occupancy最大的那个。

蛋白封端

当PDB文件中缺失残基时,会出现序列缺口(gap)。对分子动力学而言,不做处理很可能会引起严重的问题。一种做法是将肽键氨基和羧基分别处理成带电离子(NH3+COO-),对远离结合口袋的缺口而言,这是可以接受的。但更好的办法是添加帽子(cap)进行封端。常用的帽子是ACENME,分别加在N端和C端。

注意:加帽封端因会增加残基数目,改变下游残基的编号(除非保持原来编号)。

质子化与去质子化

在特定pH下,碱性氨基酸会发生质子化,酸性氨基酸会去质子化,有时候这种质子状态对研究对象而言非常重要。在分子动力学模拟中,是通过不同残基名代表的结构状态来精细描述的。

  • 组氨酸(Histidine,HIS)组氨酸有三种状态:当氢原子在δ位氮原子时为HID,在ε位氮原子时为HIE,两个位置均带氢原子时为HIP。

一般来说,组氨酸侧链的pKa在6.0-6.5左右,在生理条件下(血浆7.2-7.4)呈现电中性,为HID或HIE型,而在酸性环境下带正电,呈现HIP型。当然,在蛋白质内存在pKa位移效应,使其pKa发生偏移。因此,做分子模拟(尤其是分子动力学)之前最好先做pKa分析以判定各个残基(尤其是组氨酸)的质子化状态。

将来会上线pKa计算工具,请查看本公众号相关教程文章。

  • 天冬氨酸(Aspartic acid,ASP)天冬氨酸为酸性氨基酸,通常以去质子化状态(带负电)存在,记为ASP;少数情况下呈中性,记为ASH。
  • 谷氨酸(Glutamic acid,GLU)谷氨酸也是酸性氨基酸,通常以去质子化状态(带负电)存在,记为GLU;少数情况下呈中性,记为GLH。
  • 赖氨酸(Lysine,LYS)赖氨酸是碱性氨基酸,通常以质子化状态(带正电)存在,记为LYS;少数情况下呈中性,记为LYN。
  • 半胱氨酸(Cysteine,CYS)半胱氨酸是中性氨基酸,通常以中性状态存在,记为LYS;少数情况下呈去质子化状态(巯基失去氢原子,带负电),记为CYM。

入口

平台地址:https://cloud.yinfotek.com/

功能入口:左侧菜单栏【计算方案】->【小工具】->【分子动力学】->【处理PDB结构(进阶版)】

步骤

检查PDB

1. 输入PDB ID或上传PDB文件,点击【确定】;

2. 选择模型(构象)

通常,X衍射晶体结构文件中只有一个模型(构象),而NMR结构会有多个模型(构象)。

3. 勾选需要删除的链或残基,点击【删除】,仅保留需要的结构;

勾选后,分子视图中会同步高亮显示。

4. 点击【下一步】,稍等片刻,即返回结构检查报告。

修复PDB

1. 认真查看折叠卡片中展示的结构问题,根据实际需要进行调整;

目前,本工具检查7类常见问题(详见附录),但只显示当前PDB文件存在的问题。

2. 勾选或不选对残基重新编号,点击【生成文件】,下载文件。

对于分子对接,为方便分析,通常不勾选对残基重新编号,以保持残基编号;

对于分子动力学模拟,残基编号总是重新编号,且无链名。因此,建议勾选对残基重新编号,以获得新旧编号对照表renumber.csv,方便后续分析。此对照表可用于分子动力学模拟后还原编号。

此外,无论勾选与否,链名都会保留。

附录

  • 替代位置

该项列出存在不同构象的残基及占有率,默认选择占有率最大的位置,用户可以分析结构,选择最有利的构象。

若这些残基位于研究重点区域(例如,配体分子的结合口袋),有必要仔细观测各位置构象,选择合适的一个。

  • 序列缺口

该项列出蛋白、核酸中缺失残基所形成的序列缺口。对于蛋白质,默认采用NME和ACE封端,也可以选择NH3+和COO-;对于核酸,无封端帽子。每一组箭头中间是缺口宽度(前后两个残基的肽键或酯键长度。)

应当注意,特殊情况下该缺口可能是虚报的。例如,当某氨基酸被修饰过,成为非标准氨基酸,会因不被识别而产生缺口。因此,当存在“非标准残基”项时,应当检查是否存在(编号上)正好衔接缺口两端的残基;若有,则该缺口应当留空,即不做封端处理。

  • 非标准残基

该项列出所有非标准残基,可能是修饰过的氨基酸或核苷酸,也可能是有机小分子,平台会尽力给出正确的猜测。用户需根据自身的化学知识和了解到的信息进行判断。

例如,下图所示,在晶体结构6OAK中,CME603实际上是标准氨基酸CYS侧链S原子连接2-巯基乙醇产生的非标准氨基酸,箭头右侧自动选择CYS,表示要替换成CYS。而M0M1001是有机小分子,无对应的标准氨基酸,箭头右侧留空表示不做替换处理。

实际上,PDB网站上可查到关于CME和M0M的详细信息(http://www.rcsb.org/structure/6OAK):Small Molecules栏显示,CME是Modified Residues,其对应的标准氨基酸(Parent)为CYS;M0M是Ligands,无对应标准氨基酸。

  • 质子化/去质子化

该项列出所有酸碱氨基酸,用户可针对个别氨基酸进行精细调整。在某些情况下,尤其是活性口袋、催化位点、金属配位结构域等等重要区域,需要仔细分析调整。

例如,下图所示,不做选择,由程序自动质子化/去质子化。观察发现Zn离子配位的HIS466在ε位连接有氢原子,与Zn发生原子碰撞,显然破坏了配位键。

将生物大分子的显示样式设为line,着色方案设为element。

因此,要把它调整为HID,再次点击【生成文件】,氢原子就连接在δ位,保持配位。

  • 二硫键

该项列出所有被识别出的二硫键。对于分子动力学模拟,二硫键需要特殊的残基名CYX来标识;对于分子对接,可以不考虑二硫键,采用PDB的标准名称CYS即可。勾选的二硫键残基会被改名为CYX,没有勾选的则保持原名。

  • 缺失原子的残基

该项列出残缺的残基,并标记各自缺少的重原子(非氢原子)数目。无需用户操作,平台会自动处理。

  • 含有插入码的残基

该项列出含有插入码的残基。无需用户操作,平台会自动处理。

当勾选对残基重新编号,插入码会被删去,残基编号会从按顺序递增;当不勾选,插入码和残基编号都会保留。