时间:2022-05-05 10:46:22
导语:在网络信息检索论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了一篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
[摘要]搜索引擎是人们使用Internet信息资源的重要工具。本文对目前的中文搜索引擎进行了简要的分析,指出了其存在的缺陷和发展的方向。
[关键词]信息检索中文搜索引擎存在的问题发展方向
随着Internet信息资源的迅速增长,如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了迫切需要解决的问题,从1995年开始出现的信息检索工具——搜索引擎很好地解决了这一问题。然而各种搜索引擎,特别是尚处于发展初期的中文搜索引擎还存在着很多的缺陷有待改进,本文旨在分析目前中文搜索引擎存在的主要问题,并为解决此类问题提出一些建议和方法。
一、搜索引擎的概念和及类型
搜索引擎又称检索引擎,是指运行在Internet上,以信息资源为对象,以信息检索的方式为用户提供所需数据的服务系统,主要包括信息存取、信息管理和信息检索三大部分。
目前,中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎(又称全文搜索引擎)和元搜索引擎。
1.目录式搜索引擎。目录式搜索引擎是以人工或半人工方式收集信息,建立数据库,由编辑人员在访问了某个web站点后,对该站点进行描述,并根据站点的内容和性质将其归为一个预先分好的类别。由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度较高,导航质量也不错。但因其人工的介入,维护量大,信息量少,信息更新不及时都使得人们利用它的程度有限。国内著名的新浪、搜狐、中文雅虎都属于这种类型。
2.机器人搜索引擎。这是一种目前运用较广泛的搜索引擎。国内以百度,google、天网为代表。它是使用自动采集软件Robot,搜集和发现信息,并下载到本地文档库,再对文档内容进行自动分析并建立索引。对于用户提出的检索要求,通过检索模块检索索引,找出匹配文档返回给用户。
机器人搜索引擎具有庞大的全文索引数据库。其优点是信息量大,范围广,较适用于检索难以查找的信息或一些较模糊的主题。缺点是缺乏清晰的层次结构,检索结果重复较多,需要用户自己进行筛选。
3.元搜索引擎。元搜索引擎是一种调用其他搜索引擎的引擎。它是通过一个统一的用户界面,帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索。中文元搜索引擎开发较少,较成熟的则更少,万纬搜索是目前有一定影响的中文元搜索引擎。
二、现阶段中文搜索引擎存在的主要问题
1.信息覆盖面有限。现阶段搜索引擎所覆盖的数据库的规模是非常有限的,据美国科学期刊Natures一篇报告中称,全球最大的搜索引擎也只能覆盖现有网页的16%。中文搜索引擎因起步慢、中文信息所占互联网全部信息的比例小(只占全部网络信息的5%)等原因在这方面尤为突出。
2.查全率不高。查全率是指检索出的相关信息量与存储在检索系统中的全部相关信息量的百分比,是判断检索系统质量的度量之一。
国内绝大多数的网站组织的信息大多都是通过浏览方式获得内容。即使是经过精心组织、编排非常合理的网站,也会有70%~80%的网页不能被搜索引擎检索到。中文目录式搜索引擎因需人工介入、维护量大,在这方面表现较明显。
3.查准率较低。查准率更是判断检索系统质量的重要尺度。是指系统所检索到的真正与查询内容相关的文档占检索出的所有文档数的百分比。
造成查准率低的原因是,部分搜索引擎的分类体系与科学知识体系之间缺乏内在联系;类目之间逻辑关系模糊,导致检索路径与搜索引擎类目错位;信息加工深度不够;检索功能单一;检索词的专指性较差;大部分的检索结果是题录式而非全文式,其内容简单等等。机器人搜索引擎的分类和索引缺乏人工的参与,其查准率不如目录式搜索引擎,且检索结果中还含有大量的重复、虚假的信息。
4.专业性的搜索引擎发展迟缓。专业性的搜索引擎是为专门收录某一行业,某一主题的信息而建立,能够提供专题信息查询服务的搜索引擎。目前中文搜索引擎大多是综合性的,能同时收录各行业、各学科的多种信息,但在反映某一行业或某一专题的信息方面很难做到全面、精确,不能给用户提供特定的信息服务。这就使得专业人员,特别是某一领域的学者、专家不愿意利用中文搜索引擎去查询资料。
5.检索功能方面存在缺陷。一是检索中符合布尔逻辑运算符的搜索引擎极为有限;二是关键词检索输出的结果相关度排序方式杂乱,不能根据用户需要来选择信息输出的方式;三是多数的搜索引擎是面向主题搜索不是面向用户搜索,不能重复利用用户检索过的成果,更不能对特定的用户进行定题跟踪服务;四是检索网站的主页不规范,有些太简,有些又太繁,而且广告内容太多,无法进行有效检索。三、中文搜索引擎的发展方向
1.提高查全率。首先是需要开发分布式的系统。这种系统可以把各个接点当作是新的信息资源,扩大数据库的规模,正在兴起的元搜索引擎属于这种系统,它在接受了用户的查询命令后,可同时用多个搜索引擎进行查询;二是把专业数据库资源纳入自己的检索范围。除了Web信息资源外,网上还有大量的非Web信息资源,如联机检索系统、光盘检索系统、专业数据库系统。如中文搜索引擎能把这些Web和非Web资源结合起来使用,即使有的只能查到题录、文摘等内容,也大大扩展了检索范围,能为用户提供较全面的检索需求。
2.提高查准率。需解决以下几个难关:首先需提高搜索引擎的信息过滤功能。在对网络信息进行集中的搜集之后,搜索引擎还需对这些信息进行鉴别和过滤,即剔除大量的无用信息,而把有效的信息提炼出来并加以聚集;第二则是需对专家过滤后的信息进行一定的检索标引,并给予相关的标识符号,如关键词、分类号、主题词等各种标识,其关键是利用智能检索技术,提高准确性;把检索的结果存储在相应的数据库中,并由URL与Internet建立链接供用户使用;还需注意信息定期更新,以保证信息的新颖性和链接的可靠性。
3.建立垂直化专业领域的搜索引擎。网络用户所从事的职业千差万别,不同的用户对信息搜索往往有不同的要求。综合性的搜索引擎收录的范围太广、太大无法满足某一特定的需求。垂直化专业搜索引擎则可解决这一难题。它只面向某一特定的领域,专注于自己的特长和核心技术,能保证对该领域的信息的收录齐全与更新迅速。在提供专业信息方面有着大型综合搜索引擎无法比拟的优势,所采用的技术都是些较成熟的技术。
中文垂直化专业搜索引擎的发展已取得了一定的成功,如新浪的新闻搜索,博客搜索、雅虎的个性化旅行路线搜索、百度的MP3搜索、Google的学术搜索,航班搜索等都为用户提供了较好的搜索功能,为今后的继续发展奠定了基础。
4.搜索引擎的智能化发展。智能搜索引擎是未来搜索引擎的发展趋势。可以通过自然语言与用户交互,最大限度地了解用户的需求。智能检索一是表现在搜索引擎技术的智能化,研究重点放在自然语言处理技术和人工智能技术的研究上;另一表现是体现在搜索引擎面向检索者的智能化,它致力于通过分析检索者的检索和浏览行为来学习检索者的需求,利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。
5.加强搜索引擎的检索功能。首先需强化全文检索功能。利用Robot实现对站点页面文字内容的全面检索技术。比起目录检索,全文检索提供了全新的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源,全面、准确、快速是衡量全文检索系统的关键指标;同时改善用户检索界面,设计简洁、明白的界面引导用户进入检索状态;更方便、实用的检索技巧的利用,中文搜索引擎需简化和统一语法规则,如布尔逻辑检索符号的利用:空格或“*”代替“与”、“+”代替“或”、“-”代替“非”,规范语法符号,节省用户的检索时间;还需研发查询图像、声音、图片和电影的搜索引擎。
6.完善元搜索引擎。元搜索引擎弥补了独立搜索引擎不全的特点,提高了检索的全面性。现开发出的中文元搜索引擎的数目很少,还有诸多缺陷,需在各方面进一步改进。
元搜索引擎要对各独立的信息特色进行较细致的调查,以确定自己要收录的范围;在对目标搜索引擎的组织中突出独立搜索引擎的检索特色,并设计各搜索引擎之间的检索方式的转换算法,提高用户检索行为的针对性;建立更为灵活的,面向用户的信息检索服务。检索界面要统一和友好,检索方法的设置要提供给用户更多的自由空间,使用户可以按照自己的意愿合理的组织检索式;在检索结果的显示中要开发出一个有效的检索结果去重、选择、排序和优化算法,这是中文搜索引擎开发中的一个重点和难点。
1 引言
所谓信息检索(Information Retrieval),广义地说,是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要指出其中相关信息的过程,因此它的全称叫“信息存储与检索”(Information Storage and Retrieval)。狭义的信息检索则仅指该过程的后半部分,即主要是如何从存储的信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询(Information Search)。
进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。
2 网络环境下信息检索的特点
2.1信息检索的范围不断拓宽
因特网本身就是由分布在全球的各个计算机网络组成的一个“网际网”,它跨越了地域的界限,真正实现了全球化连接,是一个全球性的网络。其信息资源分布在世界各地的服务器上,各类信息资源通过网络互联,实现了全球范围的共享,可供检索的资源包括大量的主页、多种报纸期刊全文、各种组织机构的信息以及原始技术报告、各类数据库等,人们可以随时进行文献、数据、图片等资源的检索,以获取所需的信息。网络信息资源分布及服务的全球化,极大地扩展了网络信息检索的空间和范围。
2.2信息检索手段更加容易
随着网络和计算机的普及,信息检索用户逐渐由专业人员向个人用户转移,这就决定了大部分信息检索用户不可能像图书情报专业的专业人员那样熟练地使用主题词、分类号、逻辑组合等严格的专业查询语言来检索网上的信息资源。而互联网良好的“人-机”会话界面、强大的搜索引擎和方便的帮助支持系统,不需要用户花太多时间去学,只要掌握一些简单的检索方法和技巧就可以检索自己需要的信息,使用起来简单、方便。
2.3信息检索的途径更加灵活
网上信息种类繁多,因此用户可以根据需要从多种载体、多种角度进行检索,如可以利用搜索引擎从网站、网页等各种途径检索自己所需的信息。另外,在专门的数据库检索系统中,多提供标题、作者、机构、刊名、关键词等检索途径,用户可以根据需要灵活选择,可以大大提高检索效率。
3 网络环境下信息检索的发展趋势
随着计算机的普及,以及计算机技术、网络技术及数字化技术的发展,网络信息检索将越来越受到广大用户的青睐及广泛应用,这也就决定了网络信息检索必将朝着智能化、可视化、多样化方向发展。
3.1智能化
智能化将是网络信息检索发展的主要方向。因为智能检索是基于自然语言的检索形式,可以用自然语言和用户交互,采用诸如语义网络、框架等各种知识方法来充分体现各个主题概念和标识之间的关系,还可进一步在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典形成一个知识体系或概念网络,给予用户智能知识提示。另外,智能检索还包括歧义信息的检索处理,甚至还能体会用户的言外之意,最终帮助用户获得最佳的检索结果。
3.2可视化
可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。据统计,人获取信息有70―80%靠视觉,20%靠听觉,10%靠触觉。用图像取代文字帮助人们检索的优点在于:图像的表达更生动、形象、准确,效率更高,具有交互性、多维性、可视性等特点,可以大大加快检索速度,使时刻都在产生的海量数据得到有效利用。
3.3多样化
首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画等。目前网络信息检索的主体仍是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。其次表现在检索工具的服务多元化。网上检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,例如提供站点评论、天气预报、新闻报道、股票点评、航班和列车时刻表等多种面向大众的信息服务、免费电子邮箱等,以多种形式满足用户的需要。
4 结语
21世纪是信息时代,网络信息资源已成为人们日常工作和生活必不可缺的资源。那么,如何在浩如烟海的网络信息中,获取自己所需的信息呢?相信,随着计算机技术、通信技术和网络技术的逐渐普及,网络信息检索会越来越为人们所熟悉,网络信息用户只需掌握一定的检索工具的使用方法和技巧,就能迅速地在浩瀚无涯、丰富多彩的海量信息中排除不良信息,过滤出适用信息,花最少的时间得到最相关的查询结果,轻松获得所需信息。
摘要:本文分析了现有分词算法存在的不足,研究了机械分词方法、堆栈技术理论以及最大匹配法自动分词工作流程,在此基础上,构建了堆栈-最大匹配自动分词模型,详细阐述了该模型基本结构和运行流程。最后针对该算法,进行了简单举例分析。
关键词:堆栈;最大匹配法;分词算法
自动分词问题是搜索引擎的核心问题,本文针对该问题,在对现有的分词算法分析研究的基础上,结合最大匹配分词法(MM法)和堆栈技术理论,提出了堆栈-最大匹配自动分词模型,该分词算法在对文章中的词进行自动切分时,具有良好的效果,实现了对MM分词算法的进一步改进。
一、机械分词方法和堆栈技术理论
机械分词方法的思路是先查词库进行匹配,然后再适当利用部分词法规则进行歧义校正。机械分词法之所以称之为“机械”,是因为它的切分过程是依赖于词库进行。词库中词条的数目、词条的选择直接影响到最后的分词效果。机械分词法加歧义校正属于机械分词法的一种改进,它主要利用词法规则对歧义进行校正,以提高切分精度,事实证明这种改进是有效的,而且这种改进最终导致了知识分词方法的出现。目前属于机械分词领域的分词方法主要有:最大匹配法、高频优先分词法、双向扫描法等。其中最大匹配分词法是机械分词方法的典型代表。
二、堆栈-最大匹配自动分词模型构建
堆栈-最大匹配自动分词技术主要是结合最大匹配分词法和堆栈技术对文章中的词进行自动切分,是对最大匹配法的改进。基于最大匹配自动分词的思想,结合堆栈技术理论,我们可以得出:最大匹配法重视的是字符长度,如果遇到在分词过程中后面字符串出现不可分的情况,能自动弹栈回退,并且重新检索出另一个成功匹配的词作为分词结果,就有可能解决后面字符串不可分的窘境。所以堆栈-最大匹配自动分词模型构建基本设计思想是:
首先按照文章中的标点符号将文章内容切分成语义块,每个语义块就是一个字符串,针对每一个字符串作循环。每次只处理一个汉字,将该汉字假设为词首,并且在词库中检索以该汉字为词首,检索该汉字后的字符匹配。根据检索出来的词作为分词结果的备选项,按长度排列,首先取出长度最长的那个词,即最大匹配,假设这个词就是以该汉字为首的分词结果,加入到这个语义块的分词结果栈中,然后继续该词语位置之后的下一个汉字的处理。在该方法实现的过程中,笔者将语义块中已经分词成功的那部分字符串在压栈的同时,从语义块中去掉。如果分词结果栈中出现分词歧义需要弹栈时,将弹出的结果加在原来语义块字符串的首部。这样就不需要在每得到一个分词结果后计算下一个即将处理的汉字的位置了。
三、堆栈-最大匹配自动分词算法
根据堆栈-最大匹配自动分词方法的基本思想和模型,形成了相应的堆栈最大匹配自动分词算法。堆栈-最大匹配自动分词的核心算法如下:
①在现有的句子中以标点符号为标界,且分成多个语义块block,存为字符串数组;设置另一个字符串数组result,存放单个block的分词结果;设整型数组undone,用来记录不可分的汉字的出现位置。②循环字符串数组,对数组中每个语义块block进行步骤③,直到整个字符串数组被处理完毕。③对单个的语义块每次都是从block的首个汉字开始进行分析,执行下一步;④如果result的总长度与原语义块的长度相等,或者是block的长度为零,说明该语义块分词完毕,执行步骤⑩;当分词过程遇到该汉字时,将该汉字暂时略过;执行步骤③;⑤取singleword=block.SubString(0,1),继续;⑥在词语表中查找以singleword为首词语,存为一个字符串数组temp,作为分词的备选项,继续以下判断;⑦如果temp的长度为零,即if(temp.Length==0),则说明不存在以该字为首的词语;比较该汉字的位置是否在不可分数组undone中有记录,如果有则略过该汉字,执行步骤③;⑧如果temp的长度为1,即if(temp.Length=1),只有一个分词结果备选项,那么该结果就是所要的分词结果,该词语压入分词结果栈中result数组中,执行步骤③;则说明在词语表中从block首部取出;⑨如果temp的长度大于1,即if(temp.Length>1),则说明分词结果备选项中存在多个结果,按照temp数组中的字符串长度的次序由小到大排列,取数组最后一个元素的字符串,在block首部去掉该词,压入分词结果栈result中,执行步骤③。⑩如果不可分数组undone不为空,则对数组中的元素和分词结果中的元素进行人为干预,将新词录入词库,执行下一步;⑪开始下一个语义块的分词,将上一个语义块的分词结果输出,并且将分词结果栈result清空,执行步骤②。
四、自动分词举例
假设在文章的句子中,已经有了切分好的语义块。例如,有一句话“这些学生会员都来了”。词库中已经有以下的词语了:这些、学生、学生会、会员、都、来、了
那么,应用上述的自动分词算法,依次对该句的汉字进行分析,其详细过程如下:①检索“这”,发现“这些”在词库中并且与原文匹配;②检索“学”,发现有两个匹配,分别是“学生”和“学生会”,取字符长度最长的那个匹配项“学生会”;③检索“员”,发现词库中没有以“员都”或“员”这样的词语,因此不存在匹配,于是将先前的栈顶元素弹出,压入第二长的分词备选项“学生”:④检索“都”,这是一个副词,在词库中;⑤同理,“来”和“了”依次被分出来。
实践证明,利用该分词算法进行自动分词,其分词复杂度得以大的改善,该分词算法在对文章中的词进行自动切分时,可以大大降低分词过程中的匹配次数,提高了分词的响应速度,尤其适合大量中文信息的分析与处理。
摘要:互联网是一个巨大的信息资源库,其内容包罗万象,覆盖了不同学科、不同领域、不同地域、不同语言的信息资源;在这个信息海洋中,如何准确、迅速地找到并获得自己所需的信息呢?“工欲善其事,必先利其器。”这就需要掌握有关的检索工具以及使用的方法和技巧。通过以百度地图搜索等为例,介绍相关网络信息检索工具以及如何在短时间内能够掌握利用和运用Internet的资源找到自己所需要信息的方法。
关键词:网络信息检索;百度地图搜索;Google学术搜索;天网搜索
网上的信息浩如烟海,网络资源以十倍的速度增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确又专业,使得检索结果中出现太多无用的信息。
在信息检索工具趋向于专业化、服务内容趋向于深化的发展下,一些检索工具已经不再盲目追求加大收录和标引量,而是更加注重突出其专业特色。因此,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一席之地,比如像股票、天气、新闻、MP3及地图等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。
下面,介绍一些常用的专门网络检索工具。
1 百度地图搜索
登陆百度//网址。如图1所示,百度产品线中,除了网页搜索外,还提供了MP3、新闻、知道、地图、图片、影视及法律等等细分的专业主题搜索。
图1 百度产品线
下面百度地图为例介绍一下。百度地图搜索是百度联合国内知名的电子地图服务提供商推出的本地化地图搜索服务。通过百度地图搜索,你可以找到指定的城市、城区、街道、建筑物等所在的地理位置,也可以找到离你最近的所有餐馆、学校、银行、公园等等。百度地图搜索还为你提供了路线查询功能,如果你要去某个地点,百度地图搜索会提示你如何换乘公交车,如果你想自己驾车去,百度地图搜索同样会为你推荐最佳路线。
百度地图搜索的使用很简单,无论你是要找地点(如:王府井 餐厅)还是乘车路线(如:从银科大厦到月坛公园),均只需在一个搜索框内直接输入,按回车键或者点击“百度搜索”按钮,即可得到最符合你要求的内容。例如,搜索“王府井餐厅”,可得结果页面如图3所示。点击小图标,将在地图中显示此地点的简单信息。你还可以在地图上进行移动、放大、缩小及测距等操作。
3 天网搜索
天网搜索的前身是北大天网。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在 CERNET上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。天网搜索致力于探索和研究中英文搜索引擎系统的核心技术并不断推出更新的搜索产品。目前天网搜索引擎维护的文档数量达到 6亿之多,并正在以平均每月一千万页文档的数量扩大着规模。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。
图6 天网资源搜索界面
目前天网搜索主要提供三种搜索服务:网页搜索、资源搜索和商机搜索。
1) 网页搜索
天网网页搜索是基于页面文字内容的搜索,主要是http文件搜索。通过关键词检索,用户可以单击浏览关键词所在的原始网页和网页快照。
2) 资源搜索
天网资源搜索是为高级用户查找特定文件尤其是FTP文件提供的方便、快捷的检索服务。它提供关键词检索和资源分类浏览检索两种检索功能。用户只需要在检索框输入检索词,即可进行检索。同时,关键词检索还提供文件类别限定功能。检索的结果包括文件全名,创建日期、文件大小、网页快照、原始地址等信息。
3) 商机搜索
天网商机搜索是面向中国企业的搜索服务,目前包括全部网站、职位信息、供求商机、黄页、所有网页等类型的搜索。
4 结语
本文详细地介绍了一系列在短时间内如何利用和运用Internet的资源找到自己所需要信息的方法。运用的时候,需要具体按照使用信息资源目的进行相关的操作。熟练情况下,大家就可以按照自己的习惯畅游在Internet浩瀚大海之中,快速地摘取需要的信息。
摘要:在介绍P2P 网络及其应用的基础上,分析了P2P网络共享文件的可靠性及安全性问题。介绍了基于文件内容和基于节点的信誉评价系统模型,这两种体系模型都是通过收集各个节点的评价信息,来保证共享文件的真实性和可靠性。在P2P 网络环境中,节点间的信任来自于两个方面:一个是对节点本身所能提供的服务质量的信任;另一个是节点对于其他节点的评价的信任。
关键词:P2P网络;信任;文件共享;安全性;信誉系统;评价体系
1 引 言
计算机对等网peer-to-peer(P2P)大幅地提高了Internet中信息、带宽和资源的利用率,这种技术可以广泛地应用于网络互联技术各个领域。P2P文件共享是P2P 网络目前发展迅速的方面,比如Napster和Freenet都是文件共享方面的著名应用。P2P网络和传统的网络体系一样,面临着各种各样的安全问题;同时,由于自身体系结构的特殊性,P2P网络还需要解决自己特有的一些安全问题。本文主要讨论P2P共享文件的安全性。本文的第二部分罗列了共享文件安全的主要内容,第三部分强调了p2p的核心安全需求,第四部分给出了一个基于信誉的评价系统。文章最后总结了p2p安全技术的现状和不足。
2 P2P共享文件的安全需求
共享文件的安全需求包括:(1)信任关系,在分布式系统中,如何建立不同网络节点间的信任关系是建立系统安全的一个基础问题 (2)标识,对等用户必须能够通过标识建立唯一的、可验证的数字身份。(3)认证和授权,网络用户必须能够通过网络远程,安全地验证一个对等点的标识,并通过授权控制对本地资源和服务的访问。(4)机密性和完整性,提供了对用户进行篡改、重发等主动或被动攻击下的保护。这些是P2P 应用系统所必须提供的安全服务。
3 p2p的核心安全需求
P2P文件共享的核心安全需求是信任关系。由于这种文件共享系统的目的特殊,它们所需要的安全性不是很高。在信任关系上,系统信任者所的内容是“真实”的,消费用户信任者,者和管理员对消费用户的信任度没有特别的要求。但是,文件共享应用中信任关系管理仍然是十分必要的,系统成员间信任关系的建立是
保证系统可用性的基础。下面就简单介绍一个目前较先进的基于内容的信誉评价系统。
4 基于内容的信誉评价系统
在实际的P2P网络文件共享系统中,文件下载者最关心的是被共享文件本身是否真实可信,而该文件是由哪个节点提供的则不是很重要。所以,直接基于共享文件本身内容的评价比基于节点行为的评价更能描述共享文件的真实程度,也更加满足下载者的需求。而对节点行为的评价可以进一步描述共享节点的可信度。这两方面的评价结合起来,就组成了比较完整的信誉评价系统。
4.1 对共享文件的评价
对共享文件的评价其实就是对文件内容真实性的一种描述。
例如,节点A共享了一个文件a,并且注明作者、版本、文件内容等相关信息。节点B下载该文件后,发觉文件a内容和文件描述完全一致,则节点B把该文件标记为“内容与描述完全一致”,并把这个评价反馈给P2P网络系统,从而完成本次评价过程。
系统则建立起该文件的档案(包括文件名、文件大小、文件创建时间、下载者的评价等)。C、D、E、F等节点下载完该文件a后,也做出相应的评价,系统根据评价不断修改补充评价内容和数量,从而逐步建立起对于该文件的评价描述。当节点P需要下载该文件时,根据前面B、C、D、E、F等节点对该文件的评价描述就可以决定是否下载该文件,而不需要关心从哪个节点下载的文件更可靠。如果节点B、C、D、E、F等下载a后也向其他节点提供共享,虽然它们和节点A的信誉值不一样,但是共享的这个文件拥有相同的可信度,因为都是共享的同一个文件。如果某个节点更改了这个文件的文件名或其他描述信息,虽然内容还是完全一样,但是也要被系统区分为不同的文件,重新建立新的评价档案。
4.2 对节点的评价
如果节点A共享了一个新文件,节点B下载该文件时还没有任何评价或者评价太少,不足以判断该文件的真实性,那么节点A的信誉值就是判断的一个重要依据。节点的信誉值反映该节点以前的共享行为,并不代表节点将来的行为。但是,节点B可以根据节点A以前的行为推测将来的行为:节点A的信誉值高,说明节点A以前共享的文件可信度高,其将来共享文件的真实性也越大;信誉值低,说明以前共享文件的可信度低,其将来共享文件的真实性也越值得怀疑。这种推测是符合常规和实际的。节点的信誉值直接用数字描述,正数为节点的正面评价,负数为节点的负面评价。
4.3 做出反应
通过对共享文件和节点的评价,用户在下载前不仅对将下载文件内容的真实性一目了然,而且对提供文件下载服务节点的可靠性也放心,从而避免了大量垃圾文件和有害文件的传播。在评价体系中,一方面文件提供者接受其他节点的评价,从而获得自己的信誉评价值,另一方面文件接收者也应该受到约束,不能任意甚至恶意地对文件提供者进行评价。
为了保证网络系统的正常运行,需要对不同行为的节点采取不同的奖惩措施:(1)奖励,信誉评价系统应对信誉值高的节点,应提供奖励机制。一些专家建议,奖励机制应包括两种,提高信誉值高的节点的服务和给予信誉值高的节点经济上的奖励。(2)惩罚,奖励机制在P2P网络中可以有效地发挥作用,但为了削减P2P网络中的恶意行为,还需要对恶意节点进行惩罚。如果信誉评价系统能够识别出在线的恶意节点,系统应能不仅仅警告其他节点,还要能做出反击,禁止其访问网络。最后,P2P系统在使用上述策略时,要特别谨慎,以免恶意节点利用这些策略来破坏系统。
5 总结
虽然目前的Peer-to-Peer应用日益广泛,但仍然缺乏有效的机制以提高系统整体的可用性,这非常显著地表现为应用中大量欺诈行为的存在以及不可靠的服务质量。以众多的文件共享应用为例,25%的文件是伪造文件(faked files),同时,不负责任的用户随意地中止(文件上载)服务,使得服务质量无法得以较好的保证。一种可能的办法是对用户评定信任等级,在多个同样服务可选的情况下,信任等级高的节点成为首选。本文通过对P2P文件共享的安全性进行具体分析,得出了详细安全需求。在此基础上,我们进一步总结了P2P 应用的一般安全需求,并指出信任关系是其中的核心安全需求。介绍了共享文件的信任关系的分类,重点介绍了一种基于共享文件内容本身的信誉评价系统,和传统的方法相比,增加了对文件内容的具体分析,提高了共享文件的可信度。通过对共享文件的内容评价和节点的信誉评价,共同保证P2P网络中共享文件的可信度。信誉评价系统建立后,还需要对各节点的行为作出反应。
作者简介:中国矿业大学05级硕士研究生。
摘要:Web2.0网站在现有网站中的比例越来越高,其具有的互动性、提倡个人体验等特点给信息搜索带来了新的挑战。该文分析了Web2.0的特点,指出Web2.0的某些特点会导致很多信息隐蔽化,并从隐蔽信息检索的角度尝试性地提出了解决办法。
关键词: Web2.0;隐蔽化;信息检索
1 Web2.0的特点
Web2.0的概念始源于Tim Reilly和MediaLive International分会。Web2.0作为一个新的商业概念,根据会议的观点,具有自由平台、集体智慧、用户体验等七个特征[1]。
国内和国外学者对于Web2.0有不少研究,但是对其实质还没有统一的理解。Web2.0在学术界和实际工作领域有不同的内涵和外延,至今没有清晰的定义。技术研究者眼中的Web2.0是SNS、BLOG、RSS等社会性软件的繁荣昌盛;blogger认为Web2.0是人与人之间更个性更便捷的互动;而在风险投资商眼中,Web2.0代表了新商业的规则逐渐形成[2]。
为便于分析,本文所指的Web2.0是相对Web1.0的新一类互联网应用的统称。是以Flickr、等网站为代表,以Blog、TAG、SNS、RSS、Wiki等社会软件的应用为核心,依据六度分隔、xml、ajax等新理论和技术实现的互联网新一代模式。Web2.0具有个性化服务、用户参与、集体智慧和网络社区等特点。
Web1.0到Web2.0的转变,模式上,是从读向写、信息共同创造的一个改变; 基本结构上,则由网页向发表和展示工具的演变;转变工具上,是由互联网浏览器向各类浏览器、RSS阅读器等内容的发展;运行机制上,由Client service向Web service的转变,互联网内容的缔造者也由专业人士向普通用户拓展。
Web2.0使互联网络用户从信息接受者转变成为信息制造者和传播者,从受众转向主体,从个体转向社团的新型互联网服务模式与理念,其成型的核心应用主要有Blog、WIKI、RSS、SNS、Podcast等。
1.1 Blog
Blog是Webblog的简称,是个人或群体以时间顺序所作的一种记录,并且不断更新。用户以网络日志的形式简易迅速地自己的心得,及时有效地与他人进行交流,简单使用与维护网站。
对知识管理和创造而言,Blog提供了新的形态和途径。从交往形态考察,网志空间设定了积极的读者、作者、编者互动转换关系,针对一定的话题和读者创造信息。
1.2 WIKI
WIKI:百科全书,是一种多人协作的写作工具。这种超文本系统支持面向社群的协作式写作,同时也包括一组支持这种写作的辅助工具。WIKI的写作者构成了一个社群,WIKI系统为这个社群提供简单的交流工具。与其它超文本系统相比,WIKI有使用方便及开放的特点,可以在一个社群内共享某领域的知识。
1.3 RSS
RSS是站点用来和其它站点之间共享内容的一种简易方式。它能够把网站内容如标题、链接、部分内容甚至全文转换为可延伸标示语言的格式。
RSS搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。一个RSS文件后,包含的信息就能直接被其它站点调用。
1.4 SNS
SNS:社会网络。理论依据是六度分隔理论,通过互联网的方式,可以将人际关系网的资源完全挖掘出来。在SNS的帮助下,可以轻松认识“朋友的朋友”,扩展自己的人脉,还可以更科学地管理人际网络资源。
SNS这种新兴的网络社交方式一出现,迅速流行欧美国家,已经成为精英阶层拓展人际关系的主要方式之一。
1.5 Podcast
Podcast:播客,它是收音机、ipod、博客和宽带互联网的集体产物。它是数字广播技术的一种,与一些便携播放器相结合而实现,是一种在互联网上音频内容并允许用户订阅feed以自动接受新文件的方法,它使用RSS2.0文件格式传送并允许个人进行创建与。
2 Web2.0网站信息的隐蔽化
隐蔽网络,也称不可见网络(Invisible Web)或深网(Deep Web),是一个与可见网络相对应的概念。最初由Dr. Jill Ellsworth于1994年提出,意指那些普通搜索引擎难以发现的信息内容。2001年,Christ Sherman和Gary Price合著《隐蔽网络:揭开搜索引擎看不到的信息源》,将隐蔽网络定义为:虽然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能,或者经审慎考虑后而不作索引的那些文本页、文件或其他通常是高质量、权威的信息[3]。
隐蔽网络所储存的信息有7500TB,可见网络所储存的信息有19TB,隐蔽网络所储存的信息是可见网络的440~550倍。当前存在超过20000个隐蔽网络站点。60个最大的隐蔽网络站点拥有大约750TB的信息,一半以上的隐蔽网络站点内容存在于主题数据库中,95%的隐蔽网络信息是公开的,不需付费和订阅。发表在《自然》杂志的一份日本NEC公司研究院的研究报告估计,具有最大搜索能力的Google 和Northern Light也只能搜索到全部网络信息的0.03%[4]。
Chris Sherman和Gary Price(2001)认为产生隐蔽网络的原因有技术和非技术两个因素[5]。非技术因素是指搜索引擎开发公司出于费用方面的考虑,不愿意索引某些网络内容。技术因素主要有:1) 普通搜索引擎对非ASCII文本格式的内容,如Postscript、Flash、影音文件、压缩文件等进行索引时存在困难;2) 社区论坛、数据库入口处设置的账号、口令等提问是机械式搜索引擎难以跨越的障碍。
Michael K. Bergman(2004)将隐蔽网络划分为阴暗网络(the opaque Web)、私人网络(the private Web)、专有网络(the proprietary Web)、真正的隐蔽网络(the truly invisible Web)等4种类型[6]。
2.1 不透明网络
不透明网络是指搜索引擎可以索引但没有索引的网页,主要由以下几个因素造成:1) 搜索深度,受经济因素制约,搜索引擎只搜索一定深度的网页,超过搜索深度但有价值的网页就成为了不透明网络;2) 搜索的最大数,即使在搜索深度之内搜索的网页数也有可能超过其最大容量,超过容量部分就成为不透明网络;3) 搜索频率,互联网上的信息日新月异,而搜索引擎的搜索速度有限,新出现的网站(页)也就成为不透明网络。
2.2 私人网络
私人网络就是指含有个人的非公开信息、限制访问的网页,其形成原因主要有:1) 网站口令的设置,目前许多私人网站需要注册并使用用户名和密码登录后才能访问,这一部分内容搜索引擎难以索引;2) 知识产权的负面影响,有些网站出于保护知识产权或个人隐私的考虑,会使用“Robots.txt”协议来阻止搜索。
2.3 专有网络
专有网络是指只对注册用户开放的网页,这部分网页都需要用户输入用户名和密码,其资源才可被利用。机械式的搜索引擎无法填表注册,当然也就无法索引。另外收费的商业在线信息服务商如DIALOG、OCLC、SIRS、InfoTrac等,或是在线百科全书,对于未付费的用户来说也是不可见的[7]。
2.4 真正的隐蔽网络
真正的隐蔽网络主要包括非HTML格式的文档、动态网页、实时数据及网络数据库,其形成原因主要包括:1) 目前大部分搜索引擎只能索引HTML,而对于其它包含pdf、mp3、avi等格式的网页,搜索引擎无法搜索其包含的内容;2) 搜索引擎索引动态网页及网络数据库的能力有限,不能实现实时更新。
3 Web2.0使更多网站信息“隐蔽化”
Web2.0崇尚个性化的服务,用户体验和社会网络,拥有用户参与的一个“社会网络”将包含比现有网络更多内容的数据信息。个性化和用户参与信息,一般都是以数据库或其他动态的方式存在,加大了搜索引擎搜索的难度,而用户参与的信息,出于个人隐私或个人其他方面考虑,很多是带有访问权限的,有些即使不带有权限,但是没有链接到其他的网站,形成了一个个孤立的信息“岛屿”,深层化和隐蔽化的程度明显增加。
《中国Web2.0 现状与趋势调查报告》调研发现,高达61.7%的人认为Web2.0 带来一个属于自己的空间,能够更加自由和个性化,其次才是能够进行更好的资源和思想的分享和交流。由此可见,拥有访问权限的“自己的空间”可能在给搜索引擎进行一般搜索的时候造成访问权限上的阻碍。比如设置权限的msn live空间,如果拒绝RSS联合,那么搜索引擎将无法进入空间进行有效的搜索。
其次,个性化的搜索要求已经使得现有的搜索引擎力不从心。基于一般搜索的搜索引擎,很难以再满足顾客个性化的搜索要求。个人的信息偏好受个人的教育背景差异和兴趣的影响。越来越多网民自发在网上结成不同的社区来讨论和关注他们所关心的事物,从而形成一个个小的圈子。这种小的圈子,小的社区,往往是互联网中最活跃群体,所探讨的话题往往也是很深入的。但是这些是一般搜索引擎搜索不到的。
第三,法律上的障碍。对敏感信息检索问题,法律上还没有明确的规定。很多Web2.0的网络按照Chris Sherman和Gary Price的分类属于私人网络,对这些网络的搜索和引用在法律上尚存在盲点。
第四,Web2.0实时更新速度快,很容易造成搜索引擎在两次搜索之间很多网页“不透明”。根据Chris Sherman和Gary Price的搜索引擎搜索速度“大概为1-2千万页/天”,在大量Web2.0网页出现的时代这样的搜索速度很难跟上网络的发展。
4Web2.0信息检索对策
4.1 建立Web2.0网站选择性指南
Web2.0具有集体智慧,网络社区等特点,每个网站或子网站具有特定的主题。选择性指南是一个主题指南,按照主题分类提供大量网站的链接。检索精度高、资源权威、使用方便且大部分可免费获取,用它来查找主题相对宽泛,质量相对较高,已经过选择、评价、标注的信息资源来说效果较好,目前常用的选择性指南包括Findlaw、InfoMine、The Invisible Web Directory及等。
4.2 改进搜索技术与工具
当搜寻Web2.0的范围比较狭窄或者是希望能利用更新的检索技术时,可以通过一般的或专业的搜索引擎进行检索。因为搜索引擎能根据用户的检索要求到各网络数据库进行检索并返回符合检索要求的资源,而不需要像目录指南那样一层层地去浏览、查询。
但是现有的搜索技术对于Web2.0迅速更新的信息检索还是力不从心,且往往不能检索像Podcast形式存在的多媒体文件和由不同程序产生的非格式文件。因此必须改进现有的搜索技术:1) 发展多元搜索技术,提高检索准确度;2) 改进常规搜索引擎,使之能够索引更多格式的文件,研发检索音频、视频的搜索技术;3) 开发各类专门搜索引擎,必要时人工处理部分信息;4) 开发部分监控技术,对Web2.0不断产生的新信息不断监控,侧重检索新增信息。
4.3 元数据与Web2.0相结合
元数据(Metadata)是关于数据的数据,是对网络数据进行组织和处理的基础。元数据的思想由来已久,都柏林核心集(Dublin Core)的不断发展,现已经得到广泛应用。利用元数据来标注网络资源可以大大提高检索效率,那么将元数据思想应用于Web2.0也就理所当然。
Web2.0很多信息都是由特定的程序产生并组织,所以在相关程序编制的时候就必须考虑采用一定的标准方便搜索引擎检索,比如在产生的网页上加上网页性质描述和关键词,多媒体信息以tag标签的形式说明内容等,并严格按照元数据的要求组织和处理包含的信息,方便信息检索。
4.4 提高用户的信息素质
所谓信息素质,即指从各种信息源中检索、评价和使用信息的能力,是影响网络信息资源利用的一个重要方面。Web2.0用户体验、集体智慧等特点决定了Web2.0信息具有非权威性,对采集到的Web2.0信息的甄别也是信息检索的一个重要内容。培养用户的信息素质,提高其信息意识、信息能力,也是有效检索Web2.0信息的一个重要方面。首先,提高用户的信息意识,使其认识到自己是一个积极的“寻猎者”而非被动的“检索者”,培养其敏锐的洞察力;其次,培养用户的信息能力,增强其判断、分析、查找、整理、利用信息的能力,合理有效地利用好Web2.0网络所包含的信息。
4.5 完善网络信息呈缴制度
从网络信息生产的趋势看,很多价值高、规模大的信息存在于网络社区等数据库中,而现在大部分的网络机器人无法对Web2.0网络中的Flash和Script等动态网页和数据库进行采集。为了解决这一问题,很多国家的网络信息资源保存机构开始采用制度和技术两种手段并重的方式保障Web2.0信息资源的采集和保存。在网络环境下,由图书馆、档案馆等保存机构与网络出版机构进行协商,将呈缴本制度扩展到网络领域,出版社根据协议定期将被选择的网络信息通过物理载体移交或网络传递给保存机构,或者是保存机构根据协商从出版社网站上进行镜像复制或直接使用软件获取。通过呈缴的方法,可以保证所采集Web2.0信息的相对完整性,同时也避免搜索引擎在采集过程中遭遇的技术、法律等障碍。
提要:介绍了相关反馈技术的基本思想,设计了网络信息检索中相关反馈系统的功能与结构,探索如何在现有的公共网络搜索引擎基础上,利用Java语言实现具有相关反馈功能的搜索引擎接口。
关键词:相关反馈;搜索引擎;信息检索;Java
相关反馈(Relative Feedback)技术是近年来信息检索领域的一项热门技术,它利用用户的反馈信息来研究用户需求,力求达到检索结果与检索要求之间的最佳匹配。一些著名的检索系统如:WAIS、SMART等,很早就应用了该项技术,并取得了良好的效果。但是目前相关反馈技术在因特网信息检索中的应用却并不多见,大部分的搜索引擎都没有提供用户反馈机制。因此本文将从网络信息检索出发,就如何利用Java语言实现基本的相关反馈功能作一些探讨。
1 设计思想和系统结构
相关反馈技术的研究对象主要是用户的查询要求,在一般的网络搜索引擎中,通常先由用户输入查询词,再寻找与这些查询词相匹配的信息记录。但是,用简单的查询词来表达查询要求并非易事。网络搜索引擎的绝大部分普通用户在检索的初始阶段时常常会“词不达意”,只有在查看过检索结果后,才会意识到真正需要哪些查询词。但是,一般的网络搜索引擎在用户输入查询词后就不再与用户进行交互,因此无法进一步提高相关性。如果应用了相关反馈技术,用户就可以从检索结果中选择出相关的信息,系统对这些信息进行分析,计算出最能够表达这些信息内容的标引词,由于这些标引词是从用户认为符合其要求的信息中提炼出来的,因此在一定程度上反应了查询要求。如果将这些标引词有选择的作为查询词加入到查询式,就有可能提高查询式表述查询要求的准确程度。
为了以较小的代价实现相关反馈的功能,本文中的系统将被设计成为一个介于用户和公共网络搜索引擎之间的接口。它的主要功能是接收用户的查询式并提交给搜索引擎,然后将搜索引擎返回的结果显示给用户进行选择,根据用户选择的相关信息计算新的查询式,经用户确认后再次提交给搜索引擎,如此反复,直至用户获得满意的结果为止。
根据其设计目的,本系统可以由如下几个功能模块组成:分词模块、权值计算模块、查询式修改模块、数据库读写模块和用户界面。系统结构如图1所示。
2 实现方法
本系统采用Java语言进行设计,设计环境是Window操作系统,开发工具选用JBuilder企业版,公共网络搜索引擎选用“百度网页搜索引擎”()。
本系统的数据库管理工具选用Microsoft Access。数据库中的数据包括:检索结果记录、标引词和查询词。因此数据库FBDB(feedback database)可以由SearchResult、WordDictionary和QueryItem三个表组成,表中的字段及数据类型如表中。
下面对系统中的几个主要功能模块的实现方法进行讨论。
2.1 分词模块的实现
分词模块从SearchResult中读出相关的检索结果的内容(一段文本),分割成单个的标引词,并在WordDictionary中为每个标引词建立一条记录。
本系统中的分词函数库采用的是东北大学计算机科学研究所中文信息处理实验室研究开发的词性标注函数库(CipPos-SDK Ver1.01)(研究版)。由于该函数库采用C++语言开发,提供了动态函数库文件(CipPosSDK.dll、CipPosSDK.lib、CipPosDll.h),因此在本系统中使用时,必须利用JNI(Java Native Interface)实现Java和C++的接口。
利用上面代码可以同时实现分词和标注词性的功能,例如:传入文本“中文信息智能处理软件开发”,函数将返回“中文(n)信息(n)智能(n)处理(v)软件(n)开发(v)”,其中括号中的英文字母代表该词的词性,如n代表名词,v代表动词。分词完成后,对新字符串进行解析,根据词性去除掉没有实际意义的词,再将剩下的标引词和它的词性、所在的检索结果记录号一起组成一条记录,存入WordDictionary表中。
2.2 权值计算模块的实现
权值代表了标引词与查询要求之间的相关程度。一般权值越大的词,就越能反应查询要求,也就越有可能被选择作为新的查询词,因此权值的计算是相关反馈中的重要环节。计算权值的算法有很多,本系统中将某个标引词在相关信息中出现的总次数作为其权值,主要是利用JDBC和SQL语句对WordDictionary表进行词频统计,并将频度最大的5个词作为查询词,记录到QueryItem表中。
2.3 查询式修改模块的实现
对查询式的修改就是将新的查询词添加到查询式中,或者是将无用的查询词去掉的过程。在本系统中,用户可以通过用户界面选择是否将某一查询词加入到查询式中,还可以手工输入新的查询词或去掉已有的查询词。
由于本系统是用户和网易搜索引擎间的一个接口,因此查询式是以URL的形式发送到网易的搜索页面的,例如:要检索“中国对保护环境的政策”,查询词是“中国”、“保护”、“环境”和“政策”,URL是“///s?wd=中国+保护+环境+政策”,因此修改查询式的过程就是生成新的URL的过程。
2.4 用户界面的实现
本系统的用户界面利用JBuilder的可视化开发环境设计,用户可以通过它输入查询式、查看结果、选择相关信息和选择查询词,并随时可以打开Internet Explorer查看结果网页。具体实现方法同其他的视窗环境下的Java程序大同小异,故此不再赘述。
3 结论
本系统实现了相关反馈的基本功能,增强了搜索引擎和用户之间的交互,可以一定程度上帮助用户更准确地表达查询要求,以检索“到武汉中山公园的行车路线”为例,初始查询式为“武汉 中山公园 路线”,经过相关反馈后,系统返回“公汽”、“地址”、“乘车”、“公交”、“旅游”等新的查询词,选择添加“公交”、“地址”,并去掉“路线”,再次检索后系统返回的结果减少了,但是精度却提高了。
应该指出的是,本系统旨在验证网络检索中相关反馈技术的可实现性,着眼于基本架构和基本思想。事实上,在此基础上还有很多可以改进的地方,比如:对于权值的计算,可以利用许多更精确的算法,如tf-idf算法。另外本系统中只考虑了相关文献,而实际上,不相关文献的选择也可以反映查询要求。针对这些问题,在今后的研究中将对系统模型做进一步的完善,以更好的发挥相关反馈技术的作用。
摘 要:数字图书馆是计算机领域综合发展重要成果,它实现了文献信息的整合和优化,提高了信息查询的效率和实用性,促进信息的传播和共享。
关键词:数字图书馆;信息检索;网络环境
随着信息时代的来临,信息的重要性日益突出,计算机技术的发展,为数字图书馆的发展和普及提供了良好的环境,数字图书馆正朝着多样化、个性化和智能化的方向发展,为人们检索信息和文献提供了极大的便利。
一、数字图书馆
数字图书馆是以计算机技术为支持,实现图书文献资源存储和处理、信息整合的新型图书馆。数字图书馆的建设基本包括如下几个环节:(1)加工和存储。数字图书馆将图书资源信息整合到自身的图书馆数据资源库中,并发展了多样性的存储方式,提供不同的数据处理方法,方便用户对信息检索的需求。(2)检索和传输。用户根据自己的需要,在数字图书馆中检索文献和信息,系统在图书馆数据资源库中迅速反应,整合资源,对用户所需信息进行传递,具有及时性和有针对性。整个过程都对计算机技术和软件有很强的依赖性,日益发展的计算机技术让数字图书馆的功能日益强大,为读者提供更多更便捷的服务。
二、数字图书馆信息检索的过程
(1)确定检索要求:包括学科、时间、文献类型等方面。(2)选择信息检索系统:选择贴近个人所需、收录相关文献的检索系统。(3)确定检索关键词:使用规范的检索词,应该以所需文献内容的主要内容词汇为主要检索词,提高检索筛选的效率。(4)确定检索策略:在进行检索之前,要熟悉检索系统的性能,以用户所需内容和要求为参照进行准确输入。(5)检索结果的处理:根据用户检索的需求进行匹配,输出符合需求的内容。(6)获取原始文件:获取原始文件有多种方式,信息检索数据可以帮助用户更迅速获得大量原始文件。
三、网络环境下数字图书馆信息检索的发展现状
数字图书馆正处于不断发展当中,计算机技术的突破和发展也为数字图书馆的建设提供了技术支持,提高了搜索的速度和准确性,但是也应该看到,仍然有很多问题限制了信息检索的效率。
(一)信息检索效率低下
信息分散性是提高检索效率的一大障碍,网络内容庞杂分散,信息系统难以一次性定位准确的内容,人们需要反复检索同一内容才能获得符合需求的内容。部分网站通过标题吸引但是内容不符方式来提高网页点击量,妨碍了信息检索的效率的提高。
(二)检索对象范围受限
随着信息时代的发展,人们对文献信息的需求量也不断加大,但是互联网在处理音频和视频等文件形式的检索上仍存在技术缺陷,无法满足日益增长的需求,这也就造成了对这些文件检索上的困难,导致了检索效率的低下。
(三)信息覆盖率有限
随着对文献需求的加大,人们要求信息艘若的覆盖面也不断加大,但是实际情况是,检索范围和信息更新速度总是难以跟上用户需求的增长。
(四)检索功能单一
计算机技术虽然极大的促进了数字图书馆的发展,但是信息检索功能仍然比较单一化,无法为用户提供精确的信息检索服务。
(五)缺乏个性化服务
随着时代的发展,人们对个性化的要求越来越高,这与目前数字图书馆信息提供缺乏个性化形成了巨大的矛盾,搜索引擎职能提供大量但却与用户需求匹配不高的内容,用户需要花费大量时间重新在其中进行选择,不利于用户及时获得有效信息。
四、网络环境下数字图书馆信息检索的发展趋势
数字图书馆的重要性不断凸显,这项工程的发展也带来了很多衍生产品,图书馆信息检索技术日益向多功能、智能化和个性化方向发展,不断提高检索的效率和便捷服务。
(一)信息检索的智能化
信息检索的智能化的主要形式是自然语言检索和可视化检索。计算机软件根据用户输入的关键词,在搜索出来的信息基础上分类加工,选择出更贴近用户需求的信息。智能化建立在多个专家系统基础上进行检索,结合律人工智能与检索技术,提高了检索效率。
(二)信息检索服务多样化
信息检索将突破原来的单一化方式,逐步向多样化发展。随着信息检索服务的普及,信息共享也不断提升,信息检索将不断融合多种功能,包括文献检索功能和文献提供功能等,不断完善检索体系。另外,信息服务也将趋于集中化,提供更全面丰富的信息资源,可以满足不同用户的需求。同时,信息检索服务的质量也不断得到提高,更加凸显个性化服务。
(三)网络虚拟信息的组织与管理
数字图书馆拥有大量的信息资源,这些资源具有数量庞大、分散、种类多等特点,这对用户筛选和整理信息造成了一定的妨碍,所以信息的组织和管理就显得更加重要。准确定位有效信息是用户对数字图书馆的期待,所以网络虚拟信息的管理和组织应该努力解决这一问题,让用户在更短的时间内完成信息的检索和整合,提供贴近用户需求的资源。
五、结语
通过上述论述,我们可以知道,数字图书馆在当今时代扮演着越来越重要的角色,信息时代的发展也对数字图书馆的建设提出了更多的要求,而检索服务是用户使用这一资源的通道,我们应该关注目前检索服务所存在的问题,把握检索服务智能化、网络化、多样化和个性化的发展趋势,不断提高数字图书馆的服务水平,满足不同层次客户的不同需求,充分发挥数字图书馆的信息提供功能,促进我国信息社会的发展。