
【计】 stop list
blame; evildoing; have to; non-; not; wrong
【计】 negate; NOT; not that
【医】 non-
apply; expenses; use
【医】 c.; cum; Utend.
【计】 vocabulary
在汉英词典应用中,"非用词表"(Stop Word List)指在文本处理过程中被系统排除的常见功能性词汇集合,例如中文的"的、了、在"或英文的"the, a, an"。这些词汇因出现频率过高且缺乏独立语义,在索引构建或语义分析时会被自动过滤。
该概念最早由语言学家Hans Peter Luhn于1958年提出,后成为信息检索领域的核心预处理技术(引自《Journal of the Association for Information Science and Technology》)。其主要作用包括:
现代自然语言处理系统通常采用动态非用词表机制,例如NLTK库中的stopwords模块会根据具体语料自动调整过滤词库(基于Python官方文档说明)。在机器翻译领域,Google Neural Machine Translation系统同样应用了动态停用词过滤算法(参考《Neural Machine Translation by Jointly Learning to Align and Translate》论文)。
“非用词表”是文献标引和情报检索领域的重要概念,具体解释如下:
定义与别名
非用词表又称“禁用词表”或“中止词表”,由在文献标引和检索过程中无实际意义或不重要的语词组成。这些词通常仅承担语法功能,如介词(例如“在”“于”)、连词(如“和”“或”)、冠词(如“这”“那”)等。
词类范围
除上述语法功能词外,部分动词、名词、形容词也可能被纳入非用词表。例如“是”“有”等高频但缺乏实际检索价值的词。
作用与意义
主要用于提升检索效率,通过过滤掉无意义的词,减少索引体积并提高检索准确性。例如在数据库中,“苹果与手机”可能仅保留“苹果”“手机”作为关键词。
灵活性与领域差异
不同学科或应用场景的非用词表内容可能不同。例如,医学文献可能将“患者”“病例”等通用词设为非用词,而法律文献则可能排除“条款”“依据”等高频词。
实际应用
现代检索系统常通过数学方法(如倒排文档分析)自动筛选非用词,结合人工调整以适应具体需求。
若需了解具体领域的非用词表案例,可参考知网百科(来源、2、9)的详细论述。
【别人正在浏览】