1.3. 理论

在介绍DP具体方法之前, 我们先介绍一些定义。首先我们可以对一个包含 $N$ 个原子的系统定义一个坐标矩阵 $\mathcal{R} \in \mathbb{R}^{N \times 3}$ ，

$\mathcal{R}=\left\{{r}_{1}^{T}, \cdots, {r}_{i}^{T}, \cdots, {r}_{N}^{T}\right\}^{T}, {r}_{i}=\left(x_{i}, y_{i}, z_{i}\right),(1)$

${r}_{i}$ 表示原子 $i$ 的三维笛卡尔坐标。为了之后DP理论介绍的方便，我们可以将坐标矩阵 $\mathcal{R}$ 转换成一系列局域坐标矩阵 $\left\{{\mathcal{R}}^{i}\right\}_{i=1}^{N}$ ,

${\mathcal{R}}^{i}=\left\{{r}_{1 i}^{T}, \cdots, {r}_{j i}^{T}, \cdots, {r}_{N_{i}, i}^{T}\right\}^{T}, {r}_{j i}=\left(x_{j i}, y_{j i}, z_{j i}\right),(2)$

其中 $N_{i}$ 是原子 $i$ 在截断半径为 $r_{c}$ 下的近邻原子数， $j \left(1 \leq j \leq N_{i}\right)$ 表示原子 $i$ 的近邻原子编号, ${r}_{j i} \equiv {r}_{j}-{r}_{i}$ 表示的是原子 $j$ 和原子 $i$ 之间的相对距离。

在DP方法中, 一个系统的总能量 $E$ 可以被看作是各个原子的局域能量贡献的总和

$E=\sum_{i} E_{i},(3)$

其中 $E_{i}$ 是原子 $i$ 的局域能量. $E_{i}$ 取决于原子 $i$ 的局域环境:

$E=\sum_{i} E_{i}=\sum_{i} E\left(\mathcal{R}^{i}\right),(4)$

从 ${\mathcal{R}}^{i}$ 到 $E_{i}$ 的映射可以由两步来构建。第一步，如同 figure 里展示的一样, ${\mathcal{R}}^{i}$ 要映射到特征矩阵，或者说描述子 ${\mathcal{D}}^{i}$ ，这里的 ${\mathcal{D}}^{i}$ 保留了体系的平移、旋转和置换不变性。具体来说， ${\mathcal{R}}^{i} \in \mathbb{R}^{N_{i} \times 3}$ 首先被映射到一个扩展矩阵 $\tilde{{\mathcal{R}}}^{i} \in \mathbb{R}^{N_{i} \times 4}$ ，

$\left\{x_{j i}, y_{j i}, z_{j i}\right\} \mapsto\left\{s\left(r_{j i}\right), \hat{x}_{j i}, \hat{y}_{j i}, \hat{z}_{j i}\right\},(5)$

其中 $\hat{x}_{j i}=\frac{s\left(r_{j i}\right) x_{j i}}{r_{j i}}$ , $\hat{y}_{j i}=\frac{s\left(r_{j i}\right) y_{j i}}{r_{j i}}$ , $\hat{z}_{j i}=\frac{s\left(r_{j i}\right) z_{j i}}{r_{j i}}$ . $s\left(r_{j i}\right)$ 是一个权重函数，用来减少离原子 $i$ 比较远的原子的权重, 定义如下:

$s\left(r_{j i}\right)= \begin{cases}\frac{1}{r_{j i}}, & r_{j i}<r_{c s} \\ \frac{1}{r_{j i}} \{ {(\frac{r_{j i} - r_{c s}}{ r_c - r_{c s}})}^3 (-6 {(\frac{r_{j i} - r_{c s}}{ r_c - r_{c s}})}^2 +15 \frac{r_{j i} - r_{c s}}{ r_c - r_{c s}} -10) +1 \}, & r_{c s}<r_{j i}<r_{c} \\ 0, & r_{j i}>r_{c}\end{cases},(6)$

其中 $r_{j i}$ 是原子 $i$ 和原子 $j$ 之间的欧式距离, $r_{cs}$ 是“平滑截断半径”。引入 $s\left(r_{j i}\right)$ 之后 $\tilde{{\mathcal{R}}}^{i}$ 里的成分会从 $r_{cs}$ 到 $r_{c}$ 平滑地趋于零。接着 $\{s\left(r_{j i}\right)\}_{j=1}^{N_i}$ , i.e. 也就是 $\tilde{{\mathcal{R}}}^{i}$ 的第一列, 被一个嵌入神经网络映射到一个嵌入矩阵 $\mathcal{G}^{i 1} \in \mathbb{R}^{N_{i} \times M_{1}}$ . 选取 ${\mathcal{G}}^{i 1} \in \mathbb{R}^{N_{i} \times M_{1}}$ 的前 $M_{2}(<M_{1})$ 列，我们就得到了另外一个嵌入矩阵 $\mathcal{G}^{i 2} \in \mathbb{R}^{N_{i} \times M_{2}}$ . 最后，我们就可以得到原子 $i$ 的描述子 ${\mathcal{D}}^{i}$ ：

$\mathcal{D}^{i}=\left(\mathcal{G}^{i 1}\right)^{T} \tilde{\mathcal{R}}^{i}\left(\tilde{\mathcal{R}}^{i}\right)^{T} \mathcal{G}^{i 2},(7)$

在描述子中, 平移和旋转不变性是由矩阵乘积 $\tilde{\mathcal{R}}^{i}\left(\tilde{\mathcal{R}}^{i}\right)^{T}$ 来保证的, 置换不变性是由矩阵乘积 $\left(\mathcal{G}^{i}\right)^{T} \tilde{\mathcal{R}}^{i}$ 来保证的。

第二步, 每一个描述子 ${\mathcal{D}}^{i}$ 都由一个拟合神经网络被映射到一个局域的能量 $E_{i}$ 上面。

嵌入神经网络 $\mathcal{N}^e$ 和拟合神经网络 $\mathcal{N}^f$ 都是包含很多隐藏层的前馈神经网络。前一层的数据 $d_{l}^{\mathrm{in}}$ 是由一个线性运算和一个非线性的激活函数传递到下一层的数据 $d_{k}^{\mathrm{out}}$ .

$d_{k}^{o u t}=\varphi\left(\sum_{k l} w_{k l} d_{l}^{i n}+ b_{k}\right),(8)$

在公式（8）中, ${w}_{k l}$ 是权重参数, ${b}_{k}$ 是偏置参数， $\varphi$ 是一个非线性的激活函数. 需要注意的是在最后一层的输出节点是没有非线性激活函数的。在嵌入网络和拟合网络中的参数由最小化代价函数 $L$ 得到:

$L\left(p_{\epsilon}, p_{f}, p_{\xi}\right)=\frac{p_{\epsilon}}{N} \Delta \epsilon^{2}+\frac{p_{f}}{3 N} \sum_{i}\left|\Delta {F}_{i}\right|^{2}+\frac{p_{\xi}}{9N}\|\Delta \xi\|^{2},(9)$

其中 $\Delta \epsilon$ , $\Delta {F}_{i}$ , 和 $\Delta \xi$ 分别表示能量、力和维里的方均根误差 (RMSE) . 在训练的过程中, 前置因子 $p_{\epsilon}$ , $p_{f}$ , 和 $p_{\xi}$ 由公式