收藏|信息检索技巧年终大盘点

据统计,科研人员开展项目时有51%的时间都花费在查找和阅读科技资料上。能够快速有效地查找科技信息,已经成为科研人员的一项重要且亟待解决的问题。

然而,大数据时代,想要在短时间内从浩如烟海的资源中搜索出有价值的信息并非易事。原来从100篇里就能搜出10篇有用的信息,而现在可能要从1万篇里寻找才能搜出。检索不到、检索不准、检索不全,都是目前科技信息检索中面临的严峻问题。

如何找到有价值的资源库?如何选取关键词?如何从纷繁复杂的资料中挖掘出准确、有价值的信息?本文就信息检索过程中遇到的实际问题,提出了一些实用技巧和方法。

数据库的选择对信息检索工作的开展具有十分重要的意义和作用。每个数据库都有其倾向的专业范围,在检索时,根据所需信息的内容可以判断出从哪些数据库中获得能减少查询时间的合适数据,以此来提高检索效率和准确度,提升检索质量,达到事半功倍的效果。比如中文数据库的话,可选择中国知网。

检索字段的选取与确认

在选取检索字段时,我们应遵循“选全、选准的原则,尽量避免遗漏主题词,应根据检索信息的中心内容和研究对象进行客观、细致的主题分析,找出最能表达主题内容、最具检索价值的词汇,尽量不遗漏文中涉及的新观点、新方法、新技术、新成果概念等关键性的主题词,其选取范围不能局限于文章标题,还要从文章的摘要、各级层次标题、正文、结论中进行遴选。

 检索范围的调整

在检索结果不理想的情况下,可以考虑调整检索范围,对检索字段进行适当的扩展,使搜索到的信息准确性高、针对性强。检索字段的扩展应从其是否存在同义词、近义词、上下位类词、音形相近词、专有名词、截词、外来词等方面进行分析,最后确定检索字段。

检索策略的优化

采用简单的检索字段容易造成检索结果不准确,无法满足检索需求的后果。所以,为保证检索结果的全面性和准确性,在检索过程中,科研人员应充分利用大型数据库检索系统所提供的“高级检索”、“专业检索”等方法,对关键的检索字段进行合理组配、扩展、组合,完善检索途径和优化检索策略,从而提高检索字段的检索效率。

如果想要使检索达到较高的专业度,就需要对检索字段、检索范围及检索策略等方面进行不断的修正、校准、优化。

 特殊检索符号的使用

不同的算符会组成不同的检索式,因此,检索结果会截然不同。巧妙使用各种算符,编写恰当的检索式,可以合理地限制检索词,优化检索策略,提高检索精度。

1.  双引号

双引号表示精确匹配。如果输入一个名称进行直接搜索,比如,天津总后军事交通运输研究所,可以搜出上百页,大概100多万条记录;如果加上双引号再搜,只剩下两条!为什么会出现这种状况呢?双引号表示全字符匹配,就是一个字都不能差;可如果不加双引号,“天津”这个词能搜出10万条,“总后”这个词能搜出10万条,“军事”这个词又会搜出10万条,这样累加起来,数量极其庞大!所以,给要检索的主题词加上双引号,检索结果可以实现精确匹配,滤掉很多冗余信息。

这个功能也可以直接使用中国知网高级检索的“精确”选项进行检索。

2. 减号

“-”的作用是去除标题中不相关的结果,找出不相关结果的特征关键词,将它减掉,查询结果中将不出现该关键词例如,检索时输入“超市—家乐福超市”,表示最后的查询结果中一定不包含“家乐福超市”。

3. 逻辑算符AND

用AND连接两个关键词进行搜索时,两个词必须同时出现在查询结果中,实现有效检索。例如,导弹的一体化设计,如果直接将导弹(missile)和一体化设计(integrated design)两个词同时输入:missile integrated design,则数据库中只显示2条记录;而使用missile AND integrated design 组合查询,则显示270条记录。

可见,逻辑运算符的使用技巧决定着检索结果的满意程度。

4. 位置算符

★ NEAR,表示两个检索词必须紧密相连,词序可以颠倒,但除了空格和标点符号外,不得插入其他词或字母。例如,检索education NEAR technology,结果中同时包含education和technology,也可以technology NEAR education。

★ WITH,表示两个检索词必须按顺序出现,两个检索词的词序不可以颠倒。中间不允许插入其他词或字母,只能有空格和标点符号。例如,high(W)class,检出的匹配词可能有high class或high-class。

5. 布尔逻辑算符

运用布尔逻辑算符将具有简单概念的检索项组配成能完整、准确地表达检索内容的检索式,运用此检索式进行检索,可以剔除不需要的概念,使检索结果更加全面、准确。

★ OR,将若干个检索词组合起来,检索结果中至少包含一个检索词,与检索词的先后顺序和位置无关。例如,education OR technology的检索结果中必然包含education或technology中的一个。

★ NOT,排除一个检索词,检索结果中不包含紧跟在NOT后面的检索词,可以排除无关的检索项。例如,education NOT technology 的检索结果中必然包含education而不包含technology。布尔运算符可以扩大或缩小检索范围,改变检索策略,直接影响检索结果。

6. 截词符 

★“*”用于通配多个字符,只能用于英文和数字。例如,使用“aero*”可以检索到所有包含aero开头的单词(如:aerospace,aerobus等)的文献,但“*”不能置于表达式开头。

★“?”用于通配单个字符,只能用于英文和数字。例如,使用“aero???”可以检索到所有包含aero开头,共7个字符单词(如:aerocab,aerobus等)的文献。截词检索虽减少了输入的字符数目,但可以有效预防漏检,提高查全率。

其他重要检索事项

1. 注意英文检索词的选择

在查找专业领域的资料时,为了保障查找资料的准确性和完整性,往往需要对照翻译前的英文原文。但在实际检索过程中,会发现英文原文给出的关键词有不准确或不全面的情况,除此之外,还会出现中文直译成英文的情况,这些都有可能导致搜集到的资料出现错误或不全。

例如,查找“小卫星”这个词时,如果用直译的small satelite检索,搜出的资料肯定不全。可以尝试多种表达方式,如mini satelite、smallsat、tiny satelite、micro satellite等。

2. 搜索引擎的灵活应用

搜索引擎名目繁多,应根据不同的检索需要选择合适的搜索引擎,灵活运用各种检索方式。

大多数搜索引擎都支持元词(metawords)检索功能,把元词放在关键词前面,搜索引擎要检索的内容就具有了明确特征。

例如,在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。另外,百度等搜索引擎都具有高级搜索功能,可以很好地限制搜索范围、搜索时间、搜索格式以及过滤关键词等。优化标题时,还可以灵活使用短线“-”、下滑线“_”、空格“”、竖线“|”或者“———”等符合搜索引擎规则的间隔符。

检索技巧的运用,在科技信息检索中起着非常重要的作用,它直接影响检索策略,影响检索效率和检索效果。

在数据量激增的今天,掌握有效的信息检索方法,提高检索技巧和搜索能力,对于科研人员获取科技前沿信息会有很大的帮助。

国家知识产权平台七弦琴新闻网 » 收藏|信息检索技巧年终大盘点
分享到: 更多 (0)

评论 抢沙发

产品和服务

合作伙伴