您当前的位置：首页 > 述职报告 > 村官述职报告 > 内容

数据密集型科学环境下的情报服务与发展

无忧文档网时间: 2019-09-02 06:10:43 阅读:次

　　摘要：数据密集型科学环境的兴起与发展，使得情报服务的内容与方式发生了变化，基于科学数据的保存、发现、分析等服务成为了信息服务机构的服务增长点。文章对科学研究的第四范式、数据密集型科学环境的形成与推动因素进行了概述，重点对数据密集型科学环境下的情报服务内容与发展途径进行了分析。
　　关键词：数据密集型科学环境第四范式情报服务科学数据
　　中图分类号： G250 文献标识码： A 文章编号： 1003-6938（2013）06-0105-04
　　大数据时代的到来，使得学术活动的信息数据来源、组成、价值以及处理技术都发生了巨大变化，数据就如传统价值认识中的“黄金”一样，变得无比重要和价值巨大[1]，这些变化也影响到了学术信息的交流环境，使得科学研究向数据密集型科研转变，越来越多的科研工作是基于现有数据的重新分析、组织、认识、解析和利用，数据成为了科学研究的基础。虽然说从目前来看将数据比作“金矿”有夸大之嫌，但也充分的说明了数据的重要作用与价值。同时，我们也看到，在这种数据密集型科学环境下，变化的不只是科学研究，一些服务机构特别是信息服务机构的服务内容、服务方式也在悄然发生着变化，对能为用户创造价值与创新的科学数据日益重视，基于数据的服务也成为了它们的服务增长点，对新型科学环境下的服务发展学术研究也正在如火如荼的进行之中。基于此，本文从数据密集型科学环境出发，对科学研究的第四范式、数据密集型科学环境的形成与推动因素进行了概述，重点对数据密集型科学环境下的情报服务内容进行了陈述，同时也对情报服务的发展途径如数据建设、人才建设、协作机制建设进行了分析。
　　1 数据密集型科学研究兴起的社会环境
　　2007 年，Jim Grey在美国国家研究理事会计算机科学和远程通讯委员会（ NRC- CSTB）的演讲报告中首次提出了以数据密集型计算为基础的科学研究“第四范式”概念[2]，并将其作为与实验科学、理论推演、计算机仿真三种科研范式平行的科学研究[3]，但在对科学研究范式的发展及划分简单论述后，并未对第四研究范式的内涵、科学研究现状等进行深入论述。直到2009 年，微软公司的TonyHey、Stewart Tansley和Kristin Tolle主编的《The Fourth Paradigm：Data- intensive Scientific Discovery》（第四范式——数据密集型科学发现）一书，才较为详细的登载了第四范式的内涵和意义等内容，并从地球与环境、健康与幸福、科学基础设施、科学交流四个方面展示了69 位学者从不同的视角观察、理解、分析和探讨[4]。
　　对数据密集型科学研究来说，科学研究第四范式强调传统的假设驱动将向基于科学数据探索的科学方法方向转变，并在这种数据的转变与方法实现中，数据依靠工具获取、分析与处理，依靠计算机存储。笔者认为，大数据时代的来临，数据的来源、类型、存在形态将异常丰富，可以是实验观察数据、实验数据、仿真数据、互联网数据，也可以是产生于智能终端如智能手机、社交活动如微博、虚拟社区中的信息行为数据等；类型和存在形态可以是已经可以灵活保存于数据库、机构库中的结构化数据，也可能是目前只能通过路径记录、现场拍摄才能记录的半结构化数据、非结构化数据。
　　从数据密集型科学研究的兴起与形成来看，数量庞大、类型丰富、价值巨大的数据产生即大数据时代的到来以及一方面产生数据、一方面又能实现对数据管理与应用的现代信息技术更新、发展是数据密集型科学环境兴起与发展的根本推动因素，而信息爆炸、关联数据运动、数据开放运动等直接推动数据密集型科学环境成熟的运动也都功不可没。
　　2 数据密集型科学环境下的情报服务
　　2.1 科学数据服务
　　2012年6月，美国大学与研究图书馆协会出版了《学术图书馆与科学数据服务》白皮书报告[5]，该报告调查了美国和加拿大的大学与研究图书馆协会的351所成员馆的科学数据服务情况，结果显示尽管目前只有少数美国、加拿大的大学与研究图书馆协会成员馆开展科学数据服务，但也显示许多高校图书馆准备在未来一到两年内开展科学数据服务。这说明在当前的数据密集型环境下，开展科学数据服务将成为情报服务的主要组成部分。数据密集型环境下的科学数据服务，既可以借鉴普渡大学图书馆的D2C2分布式数据保存项目[6]，开展诸如情报咨询、科学数据管理、科学数据查找服务，也可以借鉴澳洲国立大学依靠超级计算机设备进行的存储服务[7]，提供大量范围内的数据存储、数据标注服务。且相信随着技术的发展与用户的需求变化，在未来的情报服务中，诸如科学数据的开发、发现、引用、标识、分析及技术支持等更大范围的数据服务都将会实现。
　　2.2 数据发现服务
　　产生于大量智能终端、社交网站、活动场所的海量、复杂的半结构化数据、非结构化数据的出现，使得传统的情报服务中的数据处理与数据服务变得困难，如何在数据密集型的科研环境下为用户提供数据的发现服务，成为了数据密集型科研环境下的主要情报服务内容之一。Web、本体、XML、RDF、标签等技术的出现，使得数据资源的共享、检索、标注与利用更加便捷，实现系统化、语义化、网络化、自动化的数据发现服务成为了可能，在以谷歌为代表的IT数据发现服务带领下，业界掀起了基于数据发现服务的数据发现服务系统开发热潮，国内外研发了一批基于语义扩展搜索的数据发现系统，如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service（EDS）、Innovative Interfaces公司的Encore等，OCLC的一站式知识资源发现与服务系统Worldcat Local，提供了全世界近2万个图书馆的馆藏纸质资源和部分数字资源的信息共17亿条[8]。在数据密集型科学环境下，数据发现服务不仅能为用户发现和关联可能存储于社会各个行业、多个领域、多个学科的数据知识，也能为用户发现数据表面、少量数据不易于发现的价值，进而为用户的市场预测、信息行为等做出态势分析、前景判断提供知识与数据支撑。