The quantum adversary method
Quantum adversaries
量子敌手方法的动机来源于以下构造:假设谕示机由对抗方操作,其持有一个量子态来确定谕示机字符串,可能是叠加态 \(\sum_{x \in S} a_x \ket{x}\). 为了实现每次查询,敌手执行“超谕示机”
\[
O := \sum_{x \in S} \ket{x}\bra{x} \otimes O_x.
\]
因为算法不能直接访问谕示机字符串 \(x\), 因此只能在敌手叠加态上执行表现为恒等操作的酉算子,\(t\) 次查询后,算法将整体状态映射为
\[\begin{align*}
\ket{\psi^t} & := (I \otimes U_t) O \cdots (I \otimes U_2) O (I \otimes U_1) O (\sum_{x \in S} a_x \ket{x} \otimes \ket{\psi}) \\
& = \sum_{x \in S} a_x \ket{x} \otimes \ket{\psi_x^t}.
\end{align*}\]
该方法的主要思想在于,为了让算法了解 \(x\),整个状态必须变得非常纠缠. 而为了量化纯态 \(\ket{\psi^t}\) 的纠缠程度,考虑以下谕示机的约化密度矩阵:
\[
\rho^t := \sum_{x,y \in S} a_x^* a_y \innerproduct{\psi_x^t}{\psi_y^t} \ket{x}\bra{y}.
\]
初始状态的 \(\rho^0\) 是纯态,目标是量化在错误概率为 \(\varepsilon\) 的情况下计算出 \(f\) 前其能达到的混合程度. 容易考虑的是 \(\rho^t\) 的熵,但事实证明其他的度量更容易处理.
事实上有以下关于量子态可区分的基本事实:
Fact
给定纯态 \(\ket{\psi}\), \(\ket{\phi}\) 二者之一,当且仅当 \(\lvert \innerproduct{\psi}{\phi} \rvert \leq 2\sqrt{\varepsilon(1-\varepsilon)}\) 时,能通过一次测量以不超过 \(\varepsilon \in [0, 1/2]\) 的错误概率区分 \(\ket{\psi}\) 和 \(\ket{\phi}\).
因此考虑在内积 \(\innerproduct{\psi_x^t}{\psi_y^t}\) 上线性的度量是更方便的.
The adversary method
为了获取敌手下界,选择矩阵 \(\Gamma \in \mathbb{R}^{\lvert S \rvert \times \lvert S \rvert}\),行列由可能的黑盒输入索引. 元素 \(\Gamma_{x,y}\) 刻画了区分 \(x, y\) 的困难程度. 如果其满足
- 对所有 \(x, y \in S\),\(\Gamma_{x, y} = \Gamma_{y, x}\);
- 若 \(f(x) = f(y)\),则 \(\Gamma_{x, y} = 0\).
那么称 \(\Gamma\) 为敌手矩阵(adversary matrix).
原始的敌手方法额外假设了 \(\Gamma_{x, y} \geq 0\),但这个条件并非必须. 所以这种方法有时也被称为负权重敌手方法或广义敌手方法,以区别于原始的正权重敌手方法.
给定敌手矩阵,定义权重函数
\[
W^j := \sum_{x,y \in S} \Gamma_{x,y} a_x^* a_y \innerproduct{\psi_x^j}{\psi_y^j}.
\]
而这是 \(\rho^j\) 元素的简单函数. 证明思路是初始时 \(W^j\) 很大,而为了计算 \(f\) 必须变小,并且在进行查询时变化不大.
因为初始态不能依赖于 \(x\),所以权重函数的初值为
\[\begin{align*}
W^0 & = \sum_{x,y \in S} \Gamma_{x,y} a_x^* a_y \innerproduct{\psi_x^0}{\psi_y^0} \\
& = \sum_{x,y \in S} a_x^* \Gamma_{x,y} a_y.
\end{align*}\]
为了使这个值尽可能的大,选择 \(a\) 为 \(\Gamma\) 的一个主特征向量,即特征值为 \(\pm \lVert \Gamma \rVert\) 的特征向量. 因此 \(\lvert W^0 \rvert = \lVert \Gamma \rVert\). 假设一个非负敌手矩阵更容易约束权重函数的终值. 最终值的约束在于当 \(f(x) \neq f(y)\) 时,必须以最多为 \(\varepsilon\) 的错误概率区分 \(x\) 和 \(y\),为了满足这一点,需要在 \(t\) 次查询后,满足 \(\lvert \innerproduct{\psi_x^t}{\psi_y^t} \rvert \leq 2\sqrt{\varepsilon(1-\varepsilon)}\). 在 \(\Gamma\) 元素非负的情况下,有
\[\begin{align*}
\lvert W^t \rvert & \leq \sum_{x,y \in S} \Gamma_{x,y} a_x^* a_y 2\sqrt{\varepsilon(1-\varepsilon)} \\
& = 2\sqrt{\varepsilon(1-\varepsilon)} \lVert \Gamma \rVert.
\end{align*}\]
求和中包含了 \(f(x) = f(y)\) 的项,但这些项的贡献为零. 也隐含地使用了 Perron-Frobenius 定理,保证了存在一个非负的主特征向量.
而如果 \(\Gamma\) 允许负权重,也可以通过不同的论证得到类似的结果. 通常只能证明 \(\lvert W^t \rvert \leq (2\sqrt{\varepsilon(1-\varepsilon)} + 2\varepsilon) \lVert \Gamma \rVert\),但如果解释 \(f: S \to \{0,1\}\) 为布尔函数,那么可以证明相同的界,利用到了以下结果,以 Frobenius 范数 \(\lVert X \rVert_F^2 := \sum_{a,b} \lvert X_{a,b} \rvert^2\) 形式描述:
Proposition
对任意 \(X \in \mathbb{C}^{m \times n}\),\(Y \in \mathbb{C}^{n \times n}\),\(Z \in \mathbb{C}^{n \times m}\),有 \(\lvert \op{tr}(XYZ) \rvert \leq \lVert X \rVert_F \lVert Y \rVert \lVert Z \rVert_F\).
Proof
\[\begin{align*}
\lvert \op{tr}(XYZ) \rvert & = \sum_{a, b, c} X_{a,b} Y_{b,c} Z_{c,a} \\
& = \sum_a (x^a)^\dagger Y z^a,
\end{align*}\]
其中 \((x^a)_b = X_{a,b}^*\),\((z^a)_c = Z_{c,a}\),这是向量化的重写. 因此有
\[\begin{align*}
\lvert \op{tr}(XYZ) \rvert & \leq \sum_a \lVert x^a \rVert \lVert Y z^a \rVert \\
& \leq \lVert Y \rVert \sum_a \lVert x^a \rVert \lVert z^a \rVert \\
& \leq \lVert Y \rVert \sqrt{\sum_a \lVert x^a \rVert^2 \sum_{a'} \lVert z^{a'} \rVert^2} \\
& = \lVert Y \rVert \lVert X \rVert_F \lVert Z \rVert_F.
\end{align*}\]
为了约束具有布尔输出的负权重敌手方法 \(\lvert W^t \rvert\) 的上界,改写 \(W^t\) 为 \(\op{tr}(\Gamma V)\),其中 \(V_{x, y} := a_x^* a_y \innerproduct{\psi_x^t}{\psi_y^t} \delta[f(x) \neq f(y)]\). 定义
\[\begin{align*}
C & := \sum_{x \in S} a_x \Pi_{f(x)} \ket{\psi_x^t} \bra{x}, \\
\bar{C} & := \sum_{x \in S} a_x \Pi_{1 - f(x)} \ket{\psi_x^t} \bra{x},
\end{align*}\]
其中 \(\Pi_0\) 和 \(\Pi_1\) 分别表示投影到 \(f(x) = 0\) 和 \(f(x) = 1\) 的子空间. 那么
\[
(C^\dagger \bar{C})_{x,y} = a_x^* a_y \bra{\psi_x^t} (\Pi_{f(x)} \Pi_{1 - f(y)}) \ket{\psi_y^t}.
\]
因此
\[\begin{align*}
(C^\dagger \bar{C} + \bar{C}^\dagger C)_{x,y} & = a_x^* a_y \bra{\psi_x^t} (\Pi_{f(x)} \Pi_{1 - f(y)} + \Pi_{1 - f(x)} \Pi_{f(y)}) \ket{\psi_y^t} \\
& = a_x^* a_y \innerproduct{\psi_x^t}{\psi_y^t} \delta[f(x) \neq f(y)] \\
& = V_{x,y}.
\end{align*}\]
所以 \(V = C^\dagger \bar{C} + \bar{C}^\dagger C\). 进而有
\[\begin{align*}
W^t & = \op{tr}(\Gamma (C^\dagger \bar{C} + \bar{C}^\dagger C)) \\
& = \op{tr}(\Gamma C^\dagger \bar{C}) + \op{tr}(\Gamma \bar{C}^\dagger C).
\end{align*}\]
依据命题,有 \(\lvert W^t \rvert \leq 2 \lVert \Gamma \rVert \lVert C \rVert_F \lVert \bar{C} \rVert_F\). 最终只需约束 \(\lVert C \rVert_F\) 和 \(\lVert \bar{C} \rVert_F\). 注意到 \(\lVert X \rVert_F^2 = \sum_{x, y \in S} \lvert \bra{y} X \ket{x} \rvert^2\),所以有
\[\begin{align*}
\lVert C \rVert_F^2 + \lVert \bar{C} \rVert_F^2 & = \sum_{x, y \in S} \lvert \bra{y} C \ket{x} \rvert^2 + \sum_{x, y \in S} \lvert \bra{y} \bar{C} \ket{x} \rvert^2 \\
& = \sum_{x, y \in S} \lvert a_x \rvert^2 \left( \lvert \bra{y} \Pi_{f(x)} \ket{\psi_x^t} \rvert^2 + \lvert \bra{y} \Pi_{1 - f(x)} \ket{\psi_x^t} \rvert^2 \right) \\
& = \sum_{x \in S} \lvert a_x \rvert^2 \left( \bra{\psi_x^t} \Pi_{f(x)} \ket{\psi_x^t} + \bra{\psi_x^t} \Pi_{1 - f(x)} \ket{\psi_x^t} \right) \\
& = \sum_{x \in S} \lvert a_x \rvert^2 \bra{\psi_x^t} I \ket{\psi_x^t} \\
& = 1.
\end{align*}\]
又因为算法的错误概率至多为 \(\varepsilon\),所以
\[\begin{align*}
\lVert \bar{C} \rVert_F^2 & = \sum_{x, y \in S} \lvert \bra{y} \bar{C} \ket{x} \rvert^2 \\
& = \sum_{x \in S} \lvert a_x \rvert^2 \lVert \Pi_{1 - f(x)} \ket{\psi_x^t} \rVert^2 \\
& \leq \sum_{x \in S} \lvert a_x \rvert^2 \varepsilon \\
& = \varepsilon.
\end{align*}\]
从而 \(\lVert C \rVert_F \lVert \bar{C} \rVert_F \leq \max_{x \in [0, \varepsilon]} \sqrt{x(1-x)} = \sqrt{\varepsilon(1-\varepsilon)}\). 也就有 \(\lvert W^t \rvert \leq 2 \sqrt{\varepsilon(1-\varepsilon)} \lVert \Gamma \rVert\).
现在需要理解权重函数在算法的每一步中能减少多少. 首先有
\[
W^{j+1} - W^j = \sum_{x,y \in S} \Gamma_{x,y} a_x^* a_y \left( \innerproduct{\psi_x^{j+1}}{\psi_y^{j+1}} - \innerproduct{\psi_x^j}{\psi_y^j} \right).
\]
而依据查询时的变化,有 \(\ket{\psi_x^{j+1}} = U_{j+1} O_x \ket{\psi_x^j}\),所以态 \(\{ \ket{\psi_x^{j+1}}: x \in S \}\) 的 Gram 矩阵元为
\[\begin{align*}
\innerproduct{\psi_x^{j+1}}{\psi_y^{j+1}} & = \bra{\psi_x^j} O_x^\dagger U_{j+1}^\dagger U_{j+1} O_y \ket{\psi_y^j} \\
& = \bra{\psi_x^j} O_x O_y \ket{\psi_y^j}.
\end{align*}\]
也就得到了
\[
W^{j+1} - W^j = \sum_{x,y \in S} \Gamma_{x,y} a_x^* a_y \left( \bra{\psi_x^j} (O_x O_y - I) \ket{\psi_y^j} \right).
\]
观察到 \(O_x O_y \ket{i, b} = (-1)^{b(x_i \oplus y_i)} \ket{i, b}\). 令 \(P_0 = I \otimes \ket{0}\bra{0}\) 表示投影到 \(b = 0\) 的投影算子,而 \(P_i\) 表示投影算子 \(\ket{i, 1}\bra{i, 1}\). 那么 \(P_0 + \sum_{i=1}^n P_i = I\),并且 \(O_x O_y = P_0 + \sum_{i = 1}^n (-1)^{x_i \oplus y_i} P_i\). 因此 \(O_x O_y - I = -2 \sum_{i: x_i \neq y_i} P_i\). 代入上式,有
\[
W^{j+1} - W^j = -2 \sum_{x,y \in S} \sum_{i: x_i \neq y_i} \Gamma_{x,y} a_x^* a_y \bra{\psi_x^j} P_i \ket{\psi_y^j}.
\]
对于 \(i \in [n]\),定义矩阵 \(\Gamma_i\),其元素为
\[
(\Gamma_i)_{x,y} := \begin{cases}
\Gamma_{x,y}, & x_i \neq y_i; \\
0, & \text{otherwise}.
\end{cases}
\]
定义 \(Q_i = \sum_{x \in S} a_x P_i \ket{\psi_x^j} \bra{x}\),那么有
\[\begin{align*}
W^{j+1} - W^j & = -2 \sum_{x, y \in S} \sum_{i=1}^n (\Gamma_i)_{x,y} a_x^* a_y \bra{\psi_x^j} P_i \ket{\psi_y^j} \\
& = -2 \sum_{i=1}^n \op{tr}(Q_i^\dagger \Gamma_i Q_i).
\end{align*}\]
利用三角不等式和上述命题,有
\[\begin{align*}
\lvert W^{j+1} - W^j \rvert & \leq 2 \sum_{i=1}^n \lvert \op{tr}(Q_i^\dagger \Gamma_i Q_i) \rvert \\
& \leq 2 \sum_{i=1}^n \lVert \Gamma_i \rVert \lVert Q_i \rVert_F^2.
\end{align*}\]
又因为
\[\begin{align*}
\sum_{i=1}^n \lVert Q_i \rVert_F^2 & = \sum_{i=1}^n \sum_{x,y \in S} \lvert \bra{y} Q_i \ket{x} \rvert^2 \\
& = \sum_{i=1}^n \sum_{x \in S} \lvert a_x \rvert^2 \lVert P_i \ket{\psi_x^j} \rVert^2 \\
& \leq \sum_{x \in S} \lvert a_x \rvert^2 \bra{\psi_x^j} I \ket{\psi_x^j} \\
& = 1,
\end{align*}\]
所以
\[
\lvert W^{j+1} - W^j \rvert \leq 2 \max_{i \in [n]} \lVert \Gamma_i \rVert.
\]
因为 \(\lvert W^0 \rvert = \lVert \Gamma \rVert\),所以
\[
\lvert W^t \rvert \geq \lVert \Gamma \rVert - 2 t \max_{i \in [n]} \lVert \Gamma_i \rVert.
\]
为了满足 \(\lvert W^t \rvert \leq 2 \sqrt{\varepsilon(1-\varepsilon)} \lVert \Gamma \rVert\),必须有
\[
t \geq \frac{(1 - 2 \sqrt{\varepsilon(1-\varepsilon)})}{2} \op{Adv}(f),
\]
其中
\[
\op{Adv}(f) := \max_{\Gamma} \frac{\lVert \Gamma \rVert}{\max_{i \in [n]} \lVert \Gamma_i \rVert},
\]
最大值取遍 \(f\) 的所有敌手矩阵 \(\Gamma\).
Example: Unstructured search
接下来应用该方法证明 Grover 算法的最优性. 只需考虑区分无标记项和位置未知的唯一标记项. 考虑部分函数,其中 \(S\) 包含了 Hamming 重量为 \(0\) 或 \(1\) 的字符串,\(f\) 为输入位的逻辑或. 这个问题的敌手矩阵形式为
\[
\Gamma = \begin{pmatrix}
0 & \gamma_1 & \cdots & \gamma_n \\
\gamma_1 & 0 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
\gamma_n & 0 & \cdots & 0
\end{pmatrix},
\]
对称性其实表明 \(\gamma_1 = \gamma_2 = \cdots = \gamma_n\),这可被证明,但此处认为其是假设. 设 \(\gamma_1 = \cdots = \gamma_n = 1\). 那么有
\[
\Gamma^2 = \begin{pmatrix}
n & 0 & \cdots & 0 \\
0 & 1 & \cdots & 1 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 1 & \cdots & 1
\end{pmatrix}.
\]
即 \(\lVert \Gamma^2 \rVert = n\),所以 \(\lVert \Gamma \rVert = \sqrt{n}\). 此外,
\[
\Gamma_1 = \begin{pmatrix}
0 & 1 & 0 & \cdots & 0 \\
1 & 0 & 0 & \cdots & 0 \\
0 & 0 & 0 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 & 0 & \cdots & 0
\end{pmatrix},
\]
并且其他 \(\Gamma_i\) 形式类似. 因此 \(\lVert \Gamma_i \rVert = 1\). 也就是说 \(\op{Adv}(\mathrm{OR}) \geq \sqrt{n}\),从而 \(Q_{\varepsilon}(\mathrm{OR}) \geq \frac{(1 - 2 \sqrt{\varepsilon(1-\varepsilon)})}{2} \sqrt{n}\),这表明 Grover 算法在忽略常数因子的情况下是最优的,其用 \(\frac{\pi}{4} \sqrt{n} + o(1)\) 次查询以 \(1 - o(1)\) 的成功概率找到唯一标记项.