大数据出版的体会和猜想

分享到:
191
下一篇 >

“大数据时代”一词,足显大数据意义之大、影响之深。在PB级尺度下,十亿分之一PB的一本书非常渺小。如果互联出版社和图书馆将如何面对大数据时代?过去,我们只有一个思路,就是“大数据有序化”,希望通过对海量文献数据的规范化、自动化加工,以及对相应检索技术的改进完善,解决海量文献的内容发现问题。但这样做的结果,就是将文献资为例,CSYD收录了1949年以来中国正式出版的全部统计年鉴和年报,以及由国家统计局以月份和季度为单位发布的全部统计数据,反映**各乡镇以上地区和各行各业的经济、社会、文化基本情况及其变化。通过挖掘分析,像产值、产量、人口这样的基本统计指标约1200万个,但数据量却只有1.5%PB。

基本统计指标是国家统计局等有关统计部门,根据相关法律法规制定的可以独立反映我国各方面基本情况的数据,但人们在研究分析过程中关心的是大量有意义的数据,姑且称之为“衍生指标”,其并没有在统计年鉴或月度统计报告中直接呈现(出版)出来,但可以由基本统计指标通过某种运算得到,其量级估计有基本指标数的10倍。如果我们出版了这些衍生指标,CSYD将达到0.15PB,接近大数据尺度。

发布统计数据的一个重要意义,就是产生对数据的评价。但是,现有的统计数据不包含评价数据的数据。加上必要的评价数据,CSYD将可能达到PB量级。从这个例子来看,如果我们出版者真正理解内容,不断地深入挖掘各种用户和读者研究和学习的需求,把出版看成是对读者提供知识服务的过程,出版大数据是有可能的。现在人们议论的“碎片化出版”“动态出版”“重组出版”,其实就有“大数据出版”的一些寓意,只不过缺乏“知识服务”这个市场概念的统领,而失去了明确的动机和目的。

“大数据出版”将产生怎样的应用价值?“大数据出版”不应当是为大而大,“碎片化出版”也不能为碎而碎,大数据的本质特征,是因为其本身具有极大的知识挖掘价值,而成为一种极为重要的研究对象和资源。还说CSYD,它不仅是一个经济社会统计指标数据的大集合,更重要的它将是研究真实中国社会、经济发展变化规律的“社会科学实验室”。通过CSYD,发现“数据关系”,特别是因果关系,是人们对这一出版物*大的期望和追求。为此,我们为CSYD提供了各种计算软件,让人们可以随意利用数据去发现“数据关系”,并配置了协同研究平台、协同创作平台,在这个平台上发表的研究成果,可以发布研究的全过程,其他人可以重复、验证他的工作。可见“大数据出版”,不仅改变了出版方式,更可以改变认识方式和研究方式,成为人们探索世界的一种全新的观念和手段。

“大数据出版”需要观念**。还以统计年鉴为例,实现“大数据出版”,首要的是出版观念转变。

从出版统计年鉴图书,转变为出版统计数据。应该把有意义的每一条数据及其数据关系,都看成是一个出版产品,才能使每个数据体现其自身的价值。

从发布统计数据信息,转变为回答读者的问题。发布本身不是**目的,更重要的是使这些内容产生价值,满足读者发现、理解、解决问题的需要。

从提供数据,转变为提供数据服务。提供数据属于信息服务,而数据服务还包括数据使用目的、使用方式的服务。因为,只有做好这些服务,才能充分实现数据的使用价值和经济价值。

“大数据出版”如何营销?一个大数据出版物一片“云”,还是一个孤云,营销模式和以往的数据库差不多,市场不易做大。如果把“大数据出版”的概念再加以拓展,将其中每一条数据“出版”到互联网上更大的大数据云层之中,就是使微数据与云层中的微数据发生“强耦合”,那么,大数据的内容将与整个互联网虚拟社会融合到一起,而无处不在。比如统计数据和新闻、论文、图书、博客中相应内容关联起来,就可以用来正确地解释种种扑朔迷离的现象和千奇百怪的问题。

在这样的“大数据出版”概念下,出版物不需要营销,出版本身就是*重要的营销。这个场景的出现,难道不是我们很多出版人梦寐以求的吗?(王明亮)  

你可能感兴趣: 云计算 业界新闻
无觅相关文章插件,快速提升流量