【小工具教程】NMR回归分析

【小工具教程】NMR回归分析

用途

将计算的核磁(NMR)数据与实验数据做回归分析,判断化合物结构或相对构型。

特色

本工具支持电子表格在线编辑功能,支持Excel数据复制粘贴,提供详细的统计数据,高亮显示偏差较大的原子,帮助用户分析结构,判断构型。

预备知识

以下内容了解概念即可,不必专研数学公式,连概念都不想了解的,可以直接跳过!

计算值校正方法

采用计算预测的化学位移值往往与实验值存在不小偏差,其中存在 系统误差。为消除这一误差,需要对计算值进行校正。主要有两种方法:

  • 标度法

该方法采用预先拟合好的标度参数,依据以下公式进行校正:

该方法的优点是:已有文献对不同理论水平、不同方法进行了拟合,并把参数总结在CHESHIRE CCAT网站[1],使用者只需要进行简单的算术运算即得到校正值。但缺点是:如果采用未有标度参数的理论水平或方法来计算核磁,则需要自己拟合参数,工作量颇大。更重要的是,实践表明,该方法对柔性大分子的准确性不太令人满意。

  • 回归分析法

为克服 标度法的缺点,我们采用 回归分析法。该方法不依赖任何经验参数,直接对每个结构(构型)的计算值进行线性回归,最大程度上消除计算方法和实验条件对于特定分子结构的 系统误差

一元线性回归模型

计算值与 实验值之间存在 系统误差和 随机误差。采用 一元线性回归模型对 计算值进行校正,可消除 系统误差。该模型的一般形式如下:

其中,​ 是第 i 个(原子)位置的化学位移 实验值,  是 计算值,  和  一起构成 系统误差,  是 随机误差

采用普通最小二乘法(ordinary least squares,OLS)对参数  和  进行估计,得到:

其中,  称为 拟合值。用该值作为预测值与实验值比较,偏差就小很多了。

通常采用以下两个统计量来评价偏差大小:

CMAD:corrected mean absolute deviation,校正的平均绝对偏差;

CLAD:corrected largest absolute deviation,校正的最大绝对偏差。

通过比较 拟合值与 实验值的偏差,可识别 异常值,对结构分析很有帮助。而对回归模型进行统计检验,还可判断其准确性和比较不同模型的拟合优度。

统计检验

对 一元线性回归模型的统计检验主要包括以下三方面:

  • 拟合优度检验

拟合优度反映模型的拟合程度,统计量是决定系数R2(coefficient of determination) (是相关系数 的平方)。R2越接近1,则回归线拟合程度越好;反之越差。

  • 均方根偏差评价

均方根偏差(root mean square deviation,RMSD)可衡量 计算值与 实验值之间的偏差,它极易受到 异常值的影响。对于非常接近的两个化合物,大部分原子的化学位移值差异很小,只有个别原子的差异比较明显,RMSD能够有效反映这一特点。

  • F检验拟合优度检验反映的是模型的拟合程度,F检验则用于检验回归方程的显著性:

F:F检验的统计量,该值越大,回归方程越显著;

p:F检验的检验水平,该值< 0.01时,表明回归方程是显著的。

入口

平台地址:https://cloud.yinfotek.com

功能入口:平台左侧菜单栏【计算方案】->【小工具】->【波谱分析】->【NMR分析】

步骤

1. 上传文件

上传实验图谱数据和量化计算输出文件,点击【计算】。

实验数据格式可采用 两列式或 三列式(见下图):

两列式

首列为 位置编号(可为任意字符),第二列为 化学位移,无 列名

三列式

首列为 位置编号(同上),第二列为 等价位置(磁等价的 位置编号),第三列为 化学位移,无 列名

关于 等价位置的写法,需要稍加说明:

  1. 例如,下图 三列式中, 37和 35等价,只需在 37旁边写上 35,但不用在 35旁边写 37
  2. 又例如,位置 a、 b、 c是等价的,须在 b、 c旁边都写上 a,而非在 c旁边写 b
  • 计算文件为NMR量化计算的输出文件。
  1. 对于 xls和 xlsx格式,若有多个工作簿(sheet),该工具仅读取第一个;
  2. 目前仅支持 Gaussian09的输出文件,后续更新会增加对 Gaussian16、 ORCA和 NWChem的支持。

2. 选择核磁类型与数据

选择要分析的 核磁类型13C NMR或 1H NMR)、 实验数据以及计算的 构象

3. 填写原子编号

由于 位置是用户自定义的标识符号,与计算用的分子结构原子序号并无联系。因此,需要用户将视图中的数字编号填在表格中对应 位置的 原子编号处。

如果上传的实验数据采用 两列式格式,而后发现存在等价位置,可在表格的 等价位置列补填。

值得注意的是,当存在等价原子时,须用英文逗号 ,将等价原子编号连起来,写在每个对应 位置的 原子编号单元格。

例如,苯环邻位原子 10和 88等价,对应位置编号是 34和 38,则在 34和 38行都写上 10,88(无空格,如下图)。

4. 回归分析

点击【回归分析】,稍等片刻即返回每个构象和平均构象的统计数据、 计算值、 拟合值及 偏差。分析要点:

  • CMAD和CLAD一般而言,(正确结构/构型的)碳谱CLAD应 ≤ 10 ppm,最好 ≤ 5 ppm;氢谱 CLAD应 ≤ 1 ppm,最好 ≤ 0.5 ppm。较大的CLAD通常意味着该结构不符合实际或者计算有问题。在比较不同化学结构时,CLAD接近的情况下,CMAD越小,则更有可能是正确结构。
  1. 当 CLAD ≥ 10 ppm时,单元格会红色高亮显示;当 5 ppm ≤ CLAD ≤ 10 ppm时,单元格会黄色高亮显示;
  2. 查看散点图,也能发现 异常值或直观感受 拟合程度。显然,计算值与实验值相当吻合时,数据点应落在对角线附近,明显偏离对角线的数据点都是值得注意的。

  • RMSD根据CHESHIRE CCAT的基准[1],(正确结构/构型的)碳谱RMSD普遍 < 3.5 ppm,氢谱RMSD普遍 < 0.3 ppm,也有个别例外。该值越小,表明拟合程度越好。
  •  R2和 p值通常要求(正确结构/构型的)碳谱R2> 0.995,氢谱R2> 0.99, p值须< 0.01。

当平均构象的统计数据不好时,剔除个别构象可能会有所改善。

重复上述操作,分析其他结构(构型),统计结果最好的最有可能是实际结构(构型)。

当遇到碳谱结论与氢谱结论不一致的情况,可用 DP4方法来辅助判断。后期会有文章专门介绍,敬请留意。

5. 下载文件

点击【下载全部】,下载Excel数据和散点图文件。

Excel数据文件给出了各个构象和平均构象的全部数据,包括:化学位移值、统计量、能量和比例以及TMS值。

总结

本篇教程介绍了使用殷赋云计算平台【NMR回归分析】小工具进行核磁碳谱/氢谱分析的操作流程及注意事项。

NMR分析是一项复杂的探索性的工作,尤其当计算值与实验值偏差较大时,如何解读和解决往往是非常有挑战性而有价值的问题。限于篇幅,本文无法详细讨论各种情况。有疑问的读者,请在评论区留言,更推荐加入 殷赋科技学术交流群(公众号回复“加群”),一起探讨。

链接

[1]http://cheshirenmr.info/ScalingFactors.htm