|
检索技术知识介绍(1)
计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。下面介绍几种常用的信息检索技术方法。
1.布尔逻辑检索
在检索实际中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:
(1)逻辑“与”
逻辑“与”(用and 或*表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A
和概念B 的文献,可表示为:“A and B”或“A*B”。检索结果如图1-4 所示,图中阴影部分即为同时包含A和B两个概念的命中文献。
(2)逻辑“或”
逻辑“或”(用OR 或“+”表示)是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有检索项A
或检索项B 的文献,可表示为:“A OR B”或“A+B”。检索结果是将含有检索项A 的文献集合与含有检索项B 的文献集合相加,形成一个新的集合。检索结果如图1-5
所示,图中阴影部分即为包含A 或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。
(3)逻辑“非”
逻辑“非”(用“NOT”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A
的文献集合中,排除同时含有概念B 的文献,可表示为:“A NOT B”或“A-B”。
在上述逻辑算符中,其运算优选级顺序为NOT,AND,OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR D) AND
B,表示先执行“A OR D”的检索,再与B进行AND运算。
2.位置检索(目前维普不提供全文检索)
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同,美国DIALOG
检索系统的位置算符的用法意义如下:
(1)(W)—With
(W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为(
)。
例如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。
Computer( )aided( )design 可检索出含有Computer aided design 的文献记录。
(2) (nW)—nWords
(nW)表示在此算符两侧的检索词之间最多允许间隔n 个词(实词或虚词),且两者的相对位置不能颠倒。
例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献记录。
(3) (N)—Near
(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。
例如:computer(N)network 可检出含有computer network、network computer 形式的文献记录。
(未完待续)
|