
【計】 marking bias
mark; sign; symbol; badge; earmark; tag
【計】 badge; benchmarking; F; L; labelling; marker; sentinel; tag; tagging
【化】 code; mark; marks; stamping; tag; tagging
【醫】 labelling; Sig.; signa; signature; symbol
【經】 mark; marking
【計】 biasing
【化】 offset
在漢英詞典視角下,"标記偏置"(Label Bias)指序列标注模型中因局部歸一化約束導緻的預測偏差現象。具體表現為模型傾向于選擇轉移概率較高的标籤路徑,而忽略全局最優路徑,常見于條件隨機場(CRF)與隱馬爾可夫模型(HMM)等概率圖模型。以下是詳細解析:
局部歸一化限制
模型在每個時間步獨立進行标籤概率歸一化(如softmax層),導緻後續标籤選擇受前序标籤轉移概率的支配。例如在詞性标注中,動詞後接名詞的概率可能被高估,而忽略形容詞接名詞的合理路徑。
與全局歸一化的對比
全局模型(如線性鍊CRF)通過整體序列的概率歸一化緩解該問題,但計算複雜度較高。标記偏置的本質是局部決策與全局最優解之間的沖突。
如使用CRF替代HMM,通過聯合概率優化路徑選擇(Lafferty et al., 2001)。
在神經網絡中通過注意力權重動态調整标籤依賴關系(Vaswani et al., 2017)。
标記偏置(Label Bias):
名詞,計算語言學中描述序列标注模型因局部決策約束而産生的路徑選擇偏差。英文術語:"Label Bias Problem",首次由Collins (2002) 在判别式模型分析中形式化定義。
權威參考文獻
“标記偏置”(Label Bias Problem)是機器學習領域中的一個術語,特指在序列标注模型(如MEMM)中,因局部歸一化導緻的狀态轉移概率分布失衡問題。以下是詳細解釋:
定義與背景
标記偏置問題主要出現在最大熵馬爾可夫模型(MEMM)中。這類模型對每個狀态的轉移概率進行局部歸一化,導緻模型傾向于選擇轉移路徑較少的狀态,而非根據實際觀測值合理分配概率。
産生原因
具體表現示例
假設狀态1可轉移到狀态1或2,狀态2隻能停留在自身。即使觀測數據更支持狀态1→2→1→2的路徑,模型可能因狀态2的高自轉移概率而錯誤選擇路徑1→1→1→1。
解決方法
條件隨機場(CRF)通過全局歸一化代替局部歸一化,在整體序列層面計算概率,從而消除标記偏置問題,使模型更合理地分配轉移概率。
标記偏置是序列模型中因局部概率分配導緻的預測偏差,CRF通過全局優化解決了這一問題。
【别人正在浏覽】