SipHash 流密码的设计原理与作为短输入键控哈希的应用
SipHash 是一种针对短输入优化的键控哈希函数,同时也是一个流密码。它被设计用于在需要抵抗哈希洪水攻击的场景下高效地处理可变长度的键(如哈希表键)。下面我将详细讲解 SipHash 的设计原理、内部结构及其作为短输入键控哈希的工作过程。
1. 背景与设计目标
在计算机系统中,哈希表被广泛用于实现字典结构。传统的哈希函数(如 SHA 系列)计算开销大,且通常不抗碰撞攻击(在恶意输入下可能导致哈希碰撞,从而引发哈希洪水攻击,使哈希表性能退化到 O(n))。
SipHash 的设计目标是:
- 效率:对短输入(如几十字节)特别快。
- 安全性:作为键控哈希,依赖密钥,防止攻击者预测碰撞。
- 简单性:基于加法、旋转、异或等操作,易于实现。
2. 算法结构概述
SipHash 是一个伪随机函数(PRF),采用迭代结构,核心是 SipRound 轮函数。算法有两个参数:
- c:压缩轮数(每块处理时循环的轮数)。
- d:最终化轮数(处理完所有输入后的循环轮数)。
最常用配置是 SipHash-2-4(c=2, d=4)。
整体流程分为:
- 密钥初始化
- 消息分块与压缩
- 最终化处理
3. 密钥初始化
SipHash 使用 128 位密钥 \(K = (k_0, k_1)\),其中 \(k_0, k_1\) 各 64 位。
初始状态 \(v\) 是 4 个 64 位字:
\[v_0 = k_0 \oplus \text{0x736f6d6570736575} \\ v_1 = k_1 \oplus \text{0x646f72616e646f6d} \\ v_2 = k_0 \oplus \text{0x6c7967656e657261} \\ v_3 = k_1 \oplus \text{0x7465646279746573} \]
这些魔法常数是“somepseudorandomstring”的 ASCII 编码,用于打破对称性,确保初始状态无弱密钥。
4. 消息分块与压缩
输入消息 \(m\) 按字节处理。
步骤 1:填充与分块
- 将消息长度(字节数)编码为 64 位小端整数 \(b\)。
- 将消息分块为 64 位(8 字节)的小端字,最后一块可能不足 8 字节。
- 最后一块处理:
- 读取剩余字节(1~7 字节)组成小端 64 位字。
- 将 \(b\) 的最低字节放在该字的最高字节位置(即
word |= (b << 56)),然后将该字作为最终块。
步骤 2:压缩每个块
对每个 64 位消息块 \(m_i\):
- \(v_3 \oplus= m_i\)
- 执行 \(c\) 轮 SipRound(c=2)
- \(v_0 \oplus= m_i\)
SipRound 轮函数详解(对 \(v_0, v_1, v_2, v_3\) 操作):
每轮包含 4 个类似 ARX(加-旋转-异或)的操作:
- 半轮 A:
\(v_0 \ += v_1\)
\(v_1 = (v_1 \ll 13)\)(循环左移 13 位)
\(v_1 \oplus= v_0\)
\(v_0 = (v_0 \ll 32)\) - 半轮 B:
\(v_2 \ += v_3\)
\(v_3 = (v_3 \ll 16)\)
\(v_3 \oplus= v_2\) - 半轮 C:
\(v_0 \ += v_3\)
\(v_3 = (v_3 \ll 21)\)
\(v_3 \oplus= v_0\) - 半轮 D:
\(v_2 \ += v_1\)
\(v_1 = (v_1 \ll 17)\)
\(v_1 \oplus= v_2\)
\(v_2 = (v_2 \ll 32)\)
这些操作充分混合状态,确保雪崩效应。
5. 最终化
处理完所有块后,进行最终化:
- 用全零的 64 位字作为最终块,但将长度 \(b\) 的最高字节放在最低字节位置(即
word = (b << 56) | 0x00...),然后执行一次压缩(同步骤 2)。 - 执行最终化轮:
\(v_2 \oplus= 0xff\)
然后执行 \(d\) 轮 SipRound(d=4)。 - 输出哈希值:
\(\text{hash} = v_0 \oplus v_1 \oplus v_2 \oplus v_3\)(64 位结果)。
6. 安全性分析
- SipHash 作为流密码,其安全性基于 ARX 操作的扩散和混淆,能抵抗差分和线性分析。
- 作为键控哈希,攻击者不知道密钥时无法预测输出,从而防止哈希洪水攻击。
- 针对短输入优化,通常 2-4 轮就足够安全,而长输入可增加轮数。
7. 应用场景
SipHash 主要用于:
- 编程语言(如 Ruby、Python、Rust)的哈希表键哈希。
- 网络协议中的消息认证(类似 MAC,但更轻量)。
- 随机数生成(通过改变计数器作为输入)。
通过以上步骤,你可以理解 SipHash 如何将密钥与消息混合,通过多轮 ARX 操作生成短而安全的哈希值,从而在性能和安全性间取得平衡。