
【計】 distributed search
【化】 distribution
【醫】 distribution; supply
【計】 recall; retrieval; retrieve
【經】 search
分布檢索(Distributional Retrieval)在漢英詞典學中指基于詞語在語料庫中的分布特征進行語義檢索的方法。其理論依據是語言學中的"分布假說"(Distributional Hypothesis):詞語的語義由其上下文分布決定。例如漢語詞"運行"在語料中常與"系統""程式"共現,其英譯對應"run/operate";而"運行"在體育語境中與"比賽""馬拉松"共現時,則對應"race" 。
采用多源語料(如漢英平行語料庫、單語語料庫),通過分詞工具(如HanLP、Jieba)标注詞語位置,建立詞-語境共現矩陣。
使用TF-IDF或神經網絡模型(如BERT)将詞語轉化為高維向量,相似語義的詞彙在向量空間中距離相近。例如"計算機"與"電腦"的向量餘弦相似度>0.85 。
通過倒排索引(Inverted Index)技術存儲詞語分布數據,實現毫秒級語義匹配。如檢索"銀行"時,系統同時返回"bank"(金融機構)與"river bank"(河岸)的分布概率 。
劍橋大學語料庫研究中心實證表明:分布檢索使漢英詞典的釋義準确率提升至92.7%(傳統方法為78.3%),尤其在科技術語翻譯中優勢顯著 。斯坦福NLP團隊開發的GlossBERT模型,通過分布檢索自動生成詞條釋義,被《朗文當代高級英語辭典》采用為輔助編纂工具。
參考文獻
根據權威詞典及文獻資料,“分布”一詞的含義可從以下角度解析:
“分布”指在一定區域或範圍内分散排列或存在,強調事物在空間上的分散狀态。例如:
與“分散”相比,“分布”更強調特定區域内的系統性排列,而非單純的不集中。例如:
如需更詳細的曆史演變或專業領域用法,建議參考《漢語大詞典》或相關學科文獻。
阿米巴樣運動力靶艦不良少年側标醇溶燕麥蛋白膽汁郁積短期借款非苯型芳族雜環肺褐色硬結非同批到貨分速度幹蒸汽黑芥素赫克斯海默氏反應亨基屈服條件灰黃色簡縮關鍵字機器可讀存儲介質計算機特性兩面三刀毛細冷凝磨牙前的偶氮甲苯偏側房中隔曝射标記牽前肌腮腺硬變手術癖雙曲鈎端螺旋體土三七