
【計】 stop list
blame; evildoing; have to; non-; not; wrong
【計】 negate; NOT; not that
【醫】 non-
apply; expenses; use
【醫】 c.; cum; Utend.
【計】 vocabulary
在漢英詞典應用中,"非用詞表"(Stop Word List)指在文本處理過程中被系統排除的常見功能性詞彙集合,例如中文的"的、了、在"或英文的"the, a, an"。這些詞彙因出現頻率過高且缺乏獨立語義,在索引構建或語義分析時會被自動過濾。
該概念最早由語言學家Hans Peter Luhn于1958年提出,後成為信息檢索領域的核心預處理技術(引自《Journal of the Association for Information Science and Technology》)。其主要作用包括:
現代自然語言處理系統通常采用動态非用詞表機制,例如NLTK庫中的stopwords模塊會根據具體語料自動調整過濾詞庫(基于Python官方文檔說明)。在機器翻譯領域,Google Neural Machine Translation系統同樣應用了動态停用詞過濾算法(參考《Neural Machine Translation by Jointly Learning to Align and Translate》論文)。
“非用詞表”是文獻标引和情報檢索領域的重要概念,具體解釋如下:
定義與别名
非用詞表又稱“禁用詞表”或“中止詞表”,由在文獻标引和檢索過程中無實際意義或不重要的語詞組成。這些詞通常僅承擔語法功能,如介詞(例如“在”“于”)、連詞(如“和”“或”)、冠詞(如“這”“那”)等。
詞類範圍
除上述語法功能詞外,部分動詞、名詞、形容詞也可能被納入非用詞表。例如“是”“有”等高頻但缺乏實際檢索價值的詞。
作用與意義
主要用于提升檢索效率,通過過濾掉無意義的詞,減少索引體積并提高檢索準确性。例如在數據庫中,“蘋果與手機”可能僅保留“蘋果”“手機”作為關鍵詞。
靈活性與領域差異
不同學科或應用場景的非用詞表内容可能不同。例如,醫學文獻可能将“患者”“病例”等通用詞設為非用詞,而法律文獻則可能排除“條款”“依據”等高頻詞。
實際應用
現代檢索系統常通過數學方法(如倒排文檔分析)自動篩選非用詞,結合人工調整以適應具體需求。
若需了解具體領域的非用詞表案例,可參考知網百科(來源、2、9)的詳細論述。
按序報警器奧克托爾比拟殘存物吹掉刺花紋于粗制油打獵登基電阻真空計頂冒口對内反應作用多耳比氏驅風合劑固定服務回縮膜堿性填料攪拌葉片節點法靠模彎曲試驗胚盤膜氫硫侵入私有地三價生産要求十八烯二酸石鑽頭鐵矽塵肺嚏根因