如何确定对接口袋?

如何确定对接口袋?

在一般的分子对接计算中,一个不可或缺的步骤是定义配体分子(通常为有机小分子)的结合位置,即对接口袋。对于蛋白-小分子复合物X-ray晶体结构,口袋内就有一个配体,它为我们指示了对接口袋的位置。但还有很多X-ray晶体结构、NMR解析的结构没有配体结构,我们该如何确定对接口袋呢?更一般地,对于核酸、多肽以及主客体中的主体分子,又该如何定义对接口袋呢?

对接口袋这个概念存在于分子对接计算中,是受体中配体结合的可能区域。通过设定足够大的盒子把口袋囊括起来来告知对接程序它的位置。如果对接口袋被设定在真正的活性结合位点上,则有更大概率找到配体正确的活性构象与结合模式。对接口袋,顾名思义,通常呈口袋状(开口小、肚子大、能容纳一定体积的分子结构),也有其他形状,比如管道状、凹槽状和浅洼状,而以口袋形状最为典型。对于蛋白-配体复合物而言,大且深的疏水性空腔对于配体结合至关重要。对于蛋白结构,这一特点便成为各种算法寻找对接口袋/识别结合位点的重要依据和原则。

识别蛋白口袋/配体结合位点的方法

下面针对蛋白讲述确定对接口袋的常用策略。由于核酸、多肽以及主体分子的口袋特点千差万别,难以一概而论,但若能灵活变通,这些策略也经常适用,甚至操作上更为简单。

一、 文献/数据库调研法

最可靠的信息,莫过于实验数据。我们可通过文献调研,从他人/前人的实验结果中获悉该蛋白的主要功能和所属家族,找到它的活性位点信息。比如,胰凝乳蛋白酶的His-Asp-Ser催化三联体、锌指蛋白的Zn2+结合位点。通过对已有较多研究的其他种属的同源蛋白进行比较研究,找到对应的口袋信息UniprotKB数据库(https://www.uniprot.org/整合了丰富的蛋白结构-功能信息,有的还包含突变位点信息。这为我们识别蛋白口袋/配体结合位点提供可靠的依据。

二、 实验筛查法

如果文献和数据库上缺少有用信息,而实验手段又相当方便且便宜时,那就自己做实验吧,比如定点突变(通常用在对计算结果的验证,而非相反)、荧光探针标记[1]。

三、 软件预测法

这是最简单、最直接的办法。目前已有众多软件/算法可以帮助人们预测蛋白的活性口袋或者识别配体的结合位点。下图总结了部分预测程序的基本情况。

(蛋白口袋/配体结合位点预测本地程序或在线服务,点击此处跳转相关链接页面)

各程序对输入内容的要求大同小异,输出结果却千差万别。感兴趣的读者,可进行一番探索。这里以在线服务POCASA为例,讲解如何预测蛋白受体1UWH的口袋。该晶体结构为蛋白-配体复合物,配体分子指示了结合位点,正好用来检验POCASA能否正确预测口袋位置。

1、登录POCASA网站:http://altair.sci.hokudai.ac.jp/g6/service/pocasa/

2、在PDB ID栏输入1uwh,其他参数保持默认值,点击Get Pockets and Cavities按钮

等待片刻即返回结果。Chain ID默认为NULL,表示选择蛋白文件的第一条链。该蛋白晶体结构包含A、B两条链,均有配体小分子,我们预测A链上的口袋位置。

(POCASA提交任务界面)

3、从返回的结果中找到Output files,下载我们需要的pdb文件

文件①是输入的pdb文件(我们输入了PDB ID,POCASA自动从RCSB PDB库中下载蛋白文件),文件②是我们需要的输出结果,包含了若干潜在口袋的位置信息。将两者下载下来,然后使用PyMOL或其他分子图形软件观察分析。

(POCASA的输出文件,其中XXXX_TopN_pockets.pdb是预测的口袋位置)

另外,在Rank order栏目下,POCASA还告诉我们一共生成了多少个Pocket,每个Pocket都有自己的编号,按照体积排序,依次是Rank 1、2、3……通常,体积最大的Pocket最有可能是真正的蛋白口袋,但体积太大也有可能是假口袋。最保险的做法是进行可视化分析。

(POCASA计算的口袋体积和口袋可能性排序)

4、使用PyMOL可视化分析

打开1uwh.pdb和1uwh_TopN_pockets.pdb文件,隐藏冗余结构,以cartoon形式显示蛋白A链,以sticks形式显示配体,以spheres形式显示pockets。

(蛋白是深绿色条带,配体是粉橙色棍棒,Pocket A~F用各种颜色的小球表示)

可见,体积最大的Pocket并不完全是配体的结合口袋;Pocket A只有大约一半体积与配体重叠,Pocket B与配体分子大部分重叠,两个Pocket共同构成配体结合口袋。正如本例所示,我们不能完全相信软件预测的结果,只看体积大小,可能会判断失误。在实践中,应花时间去考察各个预测口袋。

四、 人工观察法

对蛋白口袋/配体结合位点的准确识别,离不开人工观察和分析,仅凭软件预测就匆匆下结论是非常危险的。上面使用POCASA预测1uwh蛋白的口袋位置,Pocket A和B正好组成配体的结合口袋,其实这里面存在一点trick。根据“诱导契合”理论,在配体结合过程中,蛋白与配体都会发生不同程度的构象调整,以达到“最舒服”的状态。这种状态与游离蛋白(free protein,无配体结合的蛋白)是有差异的。上述示例使用了实际上是复合物的蛋白进行预测,成功概率会更大。但实际情况中,需要用到口袋预测的蛋白往往是不含配体的。因此,我们不能期望软件预测的结果总能如示例那样显而易见(Pocket A和B的体积显著大于其他)。在一些口袋不典型、存在多口袋的蛋白中,软件很可能预测不出有效的Pocket,或者预测出多个Pocket。这就需要人工观察去排除可能性极低的Pocket、保留可能性高的Pocket

续上例,使用PyMOL显示蛋白的(范德华)分子表面。通过观察,我们发现,两个Pocket各自形成亚口袋,配体分子横跨两者。Pocket A开口足够大,并与Pocket F共同形成一个极大的空间区域;Pocket B较为典型,深而且窄其他Pocket要么体积太小,要么几乎完全暴露在溶液中,不适合充当口袋。因而,Pocket A和B都是有潜在口袋。如果没有配体分子,我们并不能确定哪个才是真正的口袋,或者两者都是或不是。这是普遍存在的情况。严谨的做法是(按照上述标准)排除明显不行的Pocket,把剩下的作为候选口袋,留到后续研究(比如分子对接)中再进一步排除或识别

还记得上面给出的寻找口袋的原则吗?没错,配体的结合需要疏水作用,通常来说,疏水性空腔更有可能成为口袋。通过蛋白的疏水性分布表面,可以进一步判断口袋的可行性。当然,蛋白内部通常是疏水性的,从形状和位置上也能大致判断某个预测的口袋的疏水性是否足够。PyMOL做疏水性分布表面不怎么方便,我们就忽略这一步骤了。另外,对接打分在一定程度上也能反映口袋的疏水程度,可据此筛选蛋白口袋、识别正确的结合位点

(浅紫色的蛋白表面显示出大大小小的空腔,预测的Pocket小球指示潜在口袋的位置)

 

在殷赋云计算平台上定义对接口袋

说了这么多,分子对接中使用游离蛋白作为受体时,又该如何定义对接口袋呢?

计算平台为我们提供了三种定义口袋的方式,对于复合物蛋白,可以通过“选择文件”选择之前就提取出来的配体分子进行定义(详见平台教程,在微信公众号首页回复“计算教程”即可获得下载链接);对于游离蛋白,可通过上传包含口袋信息的分子文件或者通过下拉列表选择口袋中的氨基酸残基来定义。

还是以1UWH为例,我们把蛋白摆放到与上图差不多的角度,就知道口袋的大致位置(下图绿圈),然后在口袋中找一个或几个氨基酸残基(要求其原子集合的几何中心尽量接近口袋中心),把鼠标放至其上,就会显示出相关信息(下图黄圈)。然后,在下拉列表中勾选这些残基(下图红框)即可。

(在殷赋云计算平台上通过指定氨基酸残基的方式来定义对接口袋)

另一种更便捷的方式是,上传一个指明口袋中心的分子文件(使用pdb、mol2、sdf等常用格式[2-4])到平台,平台会计算它们的几何中心,从而确定对接口袋的中心位置。比如,用文本编辑器NotePad++打开POCASA输出文件1uwh_TopN_pockets.pdb,删除Pocket C~F的信息,保留Pocket A和B的信息,保存pdb文件,上传到平台。POCASA非常贴心地为各个Pocket分配了不同的链名A~F;根据上面提到的Rank order信息,Pocket A的残基名为222、Pocket B为146。据此,可以迅速找到两个Pocket的所有信息。

(用文本编辑器处理POCASA输出文件中的Pocket信息)

(通过上传删减的POCASA 1uwh_TopN_pockets.pdb文件来定义对接口袋)

当然,该方式不限于POCASA的输出文件,也可以使用其他预测软件的输出文件,还可以上传自己创建的文件,比如通过PyMOL等软件在口袋中选择若干氨基酸残基,保存为pdb文件。如果格式不正确,平台会抛出异常错误。对于不太了解分子文件格式的用户,建议使用下拉列表的方式来定义对接口袋。

【下期预告】我们将在下期发布Vina和Dock6方案的5分钟分子对接视频教程,敬请期待。

 

参考文献

1. Tina Seifert et al. Identification of the Binding Site of Chroman-4-one-Based Sirtuin 2-Selective Inhibitors using Photoaffinity Labeling in Combination with Tandem Mass Spectrometry. J. Med. Chem. 2016, 59, 23: 10794-99. DOI:10.1021/acs.jmedchem.6b01117

2. PDB格式:http://www.wwpdb.org/documentation/file-format-content/format33/v3.3.html

Mol2格式:http://chemyang.ccnu.edu.cn/ccb/server/AIMMS/mol2.pdf http://www.csb.yale.edu/userguides/datamanip/dock/DOCK_4.0.1/html/Manual.41.html

SDF格式:http://www.nonlinear.com/progenesis/sdf-studio/v0.9/faq/sdf-file-format-guidance.aspxhttp://link.fyicenter.com/out.php?ID=571