
【計】 sampling algorithm
sample
【計】 sampling
【化】 samples drawn
【醫】 sampling
【經】 sample; sampling; specimen
algorithm; arithmetic
【計】 ALG; algorithm; D-algorithm; Roth's D-algorithm
【化】 algorithm
【經】 algorithm
1. 術語對照與基礎定義
2. 技術原理與分類
根據目标不同,抽樣算法可分為兩類:
3. 關鍵應用場景
4. 權威學術參考
5. 經典算法示例
$$
P(text{選中任一元素}) = frac{1}{N}
$$
固定間隔$k$選取樣本,其中$k = frac{N}{n}$($N$為總體大小,$n$為樣本量)。
來源說明:定義與原理參考計算機科學教材《算法導論》、美國統計協會(ASA)技術報告,及谷歌研究院論文《MinHash for Large-Scale Learning》。
抽樣算法(Sampling Algorithm)是指從數據總體(或概率分布)中按特定規則選取代表性樣本的數學或計算方法,廣泛應用于統計學、機器學習、大數據分析等領域。以下是其核心分類及原理:
基于概率理論,每個樣本被選中的概率已知且可控,确保結果可推斷總體。
簡單隨機抽樣
每個樣本被選中的概率相等,如抽籤或隨機數生成器實現。適用于總體分布均勻的場景。
分層抽樣
将總體劃分為若幹互斥的“層”,每層獨立抽樣。例如人口調查按年齡分層,提高子群體代表性。
系統抽樣
按固定間隔(如每隔$k$個單位)抽取樣本,公式為:
$$
k = frac{N}{n}
$$
其中$N$為總體大小,$n$為樣本量。適用于數據有序排列的情況。
整群抽樣
将總體劃分為多個“群”,隨機抽取若幹群并調查群内所有個體。成本低但可能引入群間偏差。
依賴主觀判斷或便利性,無法量化抽樣概率,多用于探索性研究。
蓄水池抽樣(Reservoir Sampling)
用于流式數據(未知總量$N$),保證每個元素最終進入樣本的概率為$frac{n}{N}$。時間複雜度$O(N)$,僅需單次遍曆。
拒絕抽樣(Rejection Sampling)
從參考分布生成樣本,按目标分布與參考分布的比值決定接受或拒絕樣本,常用于複雜分布近似。
重要性抽樣(Importance Sampling)
通過加權樣本估計目标分布的期望值,公式:
$$
E[f(x)] approx frac{1}{n}sum_{i=1}^n f(x_i)frac{p(x_i)}{q(x_i)}
$$
其中$p(x)$為目标分布,$q(x)$為參考分布。
合理選擇抽樣算法可平衡效率與準确性,避免過拟合或偏差。實際應用中常需結合多種方法(如分層+隨機抽樣)。
辦公時間處理程式多次換牙的法律顧問的資格非季铵鹽的分布式重複系統高減磷海膽組朊橫掃喉腺換底回轉儀檢差器腱鞘腫機率度法精萃的經濟法令類子句料車臨時管制路徑選擇器每次諾匹哌酮強求桡深靜脈入射粒子商業管理法舌痙攣設計者幹預塑料地闆同歡