
【计】 sampling algorithm
sample
【计】 sampling
【化】 samples drawn
【医】 sampling
【经】 sample; sampling; specimen
algorithm; arithmetic
【计】 ALG; algorithm; D-algorithm; Roth's D-algorithm
【化】 algorithm
【经】 algorithm
1. 术语对照与基础定义
2. 技术原理与分类
根据目标不同,抽样算法可分为两类:
3. 关键应用场景
4. 权威学术参考
5. 经典算法示例
$$
P(text{选中任一元素}) = frac{1}{N}
$$
固定间隔$k$选取样本,其中$k = frac{N}{n}$($N$为总体大小,$n$为样本量)。
来源说明:定义与原理参考计算机科学教材《算法导论》、美国统计协会(ASA)技术报告,及谷歌研究院论文《MinHash for Large-Scale Learning》。
抽样算法(Sampling Algorithm)是指从数据总体(或概率分布)中按特定规则选取代表性样本的数学或计算方法,广泛应用于统计学、机器学习、大数据分析等领域。以下是其核心分类及原理:
基于概率理论,每个样本被选中的概率已知且可控,确保结果可推断总体。
简单随机抽样
每个样本被选中的概率相等,如抽签或随机数生成器实现。适用于总体分布均匀的场景。
分层抽样
将总体划分为若干互斥的“层”,每层独立抽样。例如人口调查按年龄分层,提高子群体代表性。
系统抽样
按固定间隔(如每隔$k$个单位)抽取样本,公式为:
$$
k = frac{N}{n}
$$
其中$N$为总体大小,$n$为样本量。适用于数据有序排列的情况。
整群抽样
将总体划分为多个“群”,随机抽取若干群并调查群内所有个体。成本低但可能引入群间偏差。
依赖主观判断或便利性,无法量化抽样概率,多用于探索性研究。
蓄水池抽样(Reservoir Sampling)
用于流式数据(未知总量$N$),保证每个元素最终进入样本的概率为$frac{n}{N}$。时间复杂度$O(N)$,仅需单次遍历。
拒绝抽样(Rejection Sampling)
从参考分布生成样本,按目标分布与参考分布的比值决定接受或拒绝样本,常用于复杂分布近似。
重要性抽样(Importance Sampling)
通过加权样本估计目标分布的期望值,公式:
$$
E[f(x)] approx frac{1}{n}sum_{i=1}^n f(x_i)frac{p(x_i)}{q(x_i)}
$$
其中$p(x)$为目标分布,$q(x)$为参考分布。
合理选择抽样算法可平衡效率与准确性,避免过拟合或偏差。实际应用中常需结合多种方法(如分层+随机抽样)。
【别人正在浏览】