本篇文章主要介绍了"国家知识产权局专利数据库 专利:结构化大数据通信协议",主要涉及到国家知识产权局专利数据库方面的内容,对于其他数据库感兴趣的同学可以参考一下:
发明专利技术结构化大数据通信协议发明人:樊永正269779216@qqqq.com技术领域结构化大数据通信协议是一种通信协议,也是一种让数据成为合格的结构化大数...
大数据范围:不同的大数据所涉及到的范围不同。在国际贸易中,大数据范围是全球,国家医疗大数据的大数据范围是医疗行业,广州大数据的数据范围是广州市。
大数据识别码可分为两种,一种是某个具体事物的识别码,犹如设备的序列号,但与设备的序列号有本质的差异,设备序列号是企业自己编写的,大数据识别码需要按国际统一的标准来编码;另一种是某类事物的识别码。例如,在了解某种型号的手机在各个经销商的销售情况时,就需要该种型号手机的大数据识别码,因为手机由全世界数十万个经销商销售,手机厂家需要与全世界数十万信息系统互联互通。与人相关的数据全应含有身份证号,以确保在全球范围内,在任何时间段,与某人相关的数据都是唯一的,可识别为同一个人的。大数据会涉及到多个不同的信息系统,而小数据只是在同一个信息系统中生存,因此在大数据环境中,数据的唯一性就非常重要,没有统一的、标准的、规范的识别码会导致数据挖掘非常困难。数据的唯一性是大数据挖掘、分析的基础。大数据识别码必须使可以方便数据分类统计。
2、数据的归属性
数据的归属性:数据不仅要反映事物的各种属性,也要反映出数据是归谁所有(或者说由谁采集、或者说从何而来)。
数据优化方法二:每一个事物的数据中都要含有“数据来源”数据项。“数据来源”是结构化数据具有了“归属性”,一般情况下,可用单位名称来表示“数据来源”。
大数据源于成千上万家单位,若不标明“数据来源”,在大数据挖掘时会引起识别混乱。
3、数据的识别性
数据的识别性:是指让信息系统可识别,让人也可识别。进一步而言,不但要让自己的信息系统识别,也要能让他人的信息系统识别,不但要让自己能识别,也要让他人能识别。
数据的识别性所针对的问题:关系数据库中的数据只有数据库的设计人员自己和自己的信息系统可识别。其它人、其它信息系统只能通过软件对数据库中的数据进行解释、注释、翻译之后才能识别。
数据优化方法三:以适当的冗余使数据可识别,尽量用标准的、规范的自然语言来表达数据,尽量避免用代码来表达数据。在对数据进行优化时的原则是“让相应领域的技术人员能看懂,让别人的信息系统也能识别,而不能只是数据库的设计人员能看懂,也不只是自己的系统能识别。”
在大数据环境中,数据的最重要、最关键的一个特性就是“数据的识别性”。关系数据库的一个策略是:尽量减少数据冗余。关系数据库在降低了数据冗余的同时却增加了识别数据的难度。结构化大数据通信协议的策略与关系数据库正好相反。结构化大数据通信协议的策略:以适当的冗余而使数据具有可识别性,从而使数据可以让他人读懂,也让他人的信息系统能识别。
关系数据库是一种“数据、数据结构、程序、数据库系统四者密不可分的数据库”。因为关系数据库中的数据脱离具体的表结构和程序以后就变成了无意义的数据,关系数据库中的数据只有在特定的表中才具有意义。
“万能数据结构表”是一种“数据与程序无关的数据结构”,或者说是一种“是什么就是什么,与程序无关”。因为“万能数据结构表”中的数据脱离其数据结构后,其数据的真实含义不变。“万能数据结构表”中的数据是用标准的、规范的自然语言而表达的,只要懂自然语言,谁都可以看懂“万能数据结构表”中的数据的真实含义。
从表面上看,关系数据库减少了数据冗余,这是其一大优点。然而,这也是关系数据库的最大缺点之一。关系数据库在减少了数据冗余的同时,也导致了数据失真。数据失真的结果就导致了“信息交换、信息孤岛、数据挖掘难”等等问题。在关系数据库中,只有通过编写大量的程序,才能解决数据失真问题。无数事实表明,关系数据库因数据冗余问题而付出了非常高昂的代价。当“数据与程序密不可分”时,要存贮、读取、查询数据就必须编写大量的程序。当“数据与程序无关时”,只要编写一个通用的程序,其它人借助这个程序就可以非常方便地存贮、读取、查询数据,而不必每开发一个数据库都开发大量的软件。