本篇文章主要介绍了" 专利:结构化大数据通信协议(2)",主要涉及到方面的内容,对于其他数据库感兴趣的同学可以参考一下:
说明2:数据的唯一性是实现“数据全球通”的基础在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名...
说明2:数据的唯一性是实现“数据全球通”的基础
在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,重名的很多,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。在大数据环境中,有关人的所有数据都必须含有“身份证号”,这是为了表明数据的唯一性。
关系数据库用“ID”来表明每张表中的数据的唯一性。关系数据库所考虑的只是一张表中的数据的唯一性问题,而未考虑大数据环境中的数据唯一性问题。例如,在很多医疗信息系统中,只是用“门诊号”、“住院号”来标识患者的信息,而未含有患者的身份证号。如果要在国家医疗大数据环境中查询某个患者的病史数据,那么,就会由于患者的数据中未含有身份证号而为查询造成非常大的困难,因为患者的病史数据有可能包含在全国97.8万家医疗机构所产生的数百万张以上的表中。
在大数据环境中,每个事物的数据的“数据的唯一性”就是一个非常重要的问题。“数据的唯一性”是确保数据在大数据环境中具有“数据的识别性”的一个关键。例如,在生产厂家、经销商的信息系统中,同一件商品的代号都必须是全球唯一的、统一的、标准的,这样才能确保在大数据环境中数据是可识别的。然而,目前国际上还未做到这一点,各家企业的信息系统都有自己的编码方式,各不相同,针对同一种商品,不同企业的编码是不一样的,这为数据的全球通及大数据分析造成了很大的困难。
合格的大数据应该是:在药店买一盒药,可以根据这盒药上面的唯一的编码而查询到这盒药的整个生产、流通环节各种相关情况,是哪个厂家生产的,何时生产,何时出厂,中间经过了哪几个中间商。
世界经济最需要的是“数据全球通”,即全球所有企业的信息系统中的各种数据都可以“互联互通”,或者说“全球任何两个企业的信息系统之间都可以及时地发送、接收任何商品的数据。”当前的实际情况是:每家企业都有独有的产品编码规则,当企业接到订单时,还需要手工把订单数据转换为自己的信息系统可识别的数据,然后自己的系统才能处理客户的订单数据,只有极少数的企业的信息系统可以直接处理上游企业发来的数据。这种“全球数据都不通”的现象的根本原因就在于当前的数据缺乏“数据的唯一性”,没有国际统一的、标准的商品编码标准为“数据的唯一性”提供支持。
要跟踪一种商品在世界各地的流通情况,“数据的唯一性”是基础。一种商品的数据会出现在全球数百万个企业的信息系统中,只有体现“数据的唯一性”的大数据识别码才能准确无误地从数百万个信息系统中把这种商品的数据识别出来。全球大数据统一编码、解码(可称作为大数据识别码)是大数据中的一项非常重要的工作,也是一项非常复杂的工作。在国际贸易中订单、商品的全球统一编码、解码就非常重要,这是商品“数据全球通”的基础。
对企业而言,在大数据时代,订单、商品数据的国际标准、国家标准、行业标准是全球企业实现“数据全球通”的基础。没有订单、商品的标准,企业就不能进入到大数据时代。
说明3:数据的归属性是区分大数据与小数据的一个关键
如果从关系数据库理论的角度来看,增加“数据来源”会使系统中产生大量的冗余数据。然而,在大数据时代,所要处理的数据来源于数百万个以上的信息系统,因此,就非常有必要说清楚各个数据从何而来,不然,就无法区分众多的数据。在大数据环境中,“数据来源”就是非常关键的数据,也是必不可少的。在大数据中,为每一个数据都增加“数据来源”数据项的目的就是让数据无论在哪里都能独立地、完整地表达出其完整的含义。数据如物,人类社会的各种物都有其主,数据也应有其主。
区分大数据与小数据的一个关键指标就是数据中是否含有“数据来源”。凡是不含有“数据来源”的数据都是小数据,都是不合格的结构化大数据,这是关系数据库高手很难理解的,然而这也是数据库技术人员的思想观念是否已转到大数据时代的一个标志。大数据所面对的是:数十万家以上的单位,数百万个以上的信息系统,数千万以上的表,数万亿以上的数据。在大数据环境中,没有“数据来源”就会引起大混乱。在大数据时代,有了“数据来源”可以大幅度减少编写程序代码的行数,在数据交换时就需要有“数据来源”,数据共享时,需要有“数据来源”。
说明4:数据的标准化、规范化是实现万能查询的关键
结构化大数据通信协议是在模仿大脑的记忆、联想、思维的基础上而创立的,开始于1982年,当时是希望计算机能模仿人的大脑的联想功能(即查询)。人的大脑在处理数据时所采用的技术是“超级高保真数据处理技术”。“数据的标准化、规范化是实现万能查询的关键”,这需要从人的大脑的超级高保真数据处理技术的角度来理解。目前人们都是从计算机技术的角度来解读什么是“数据”,实际上从人的大脑记忆、联想、思维的角度来解读什么是“数据”才是最合适的。
人的大脑是大自然界最优秀的“计算机”。人的大脑中所存贮的才是真正合格的“数据”。人的大脑中的“数据”是“超级高保真数据”。人的大脑中的数据都是模拟数据,几乎是不失真的,是超级的高保真数据,是真正的数据,能非常真实地反映自然界的各种事物,是自然界的各种事物的在大脑中的一个缩影。人的大脑中的数据与数据之间的关系是以事物的自然属性而自然地建立起来的自然关系,可以真实地反映到自然界的各种事物之间微妙关系,这才是大脑具有超强功能的根本。
计算机中的数据是死的,人的大脑中的信息是活的。大脑可以突破时间、空间,随时地激活大脑中的“各种事物”,回放过去的各种场景。计算机也可以放电影,但是计算机不能为电影中的各个事物建立联想关系。人的大脑可以由一个场景而联想到另一个场景,计算机就不能。大脑在回忆北京的故宫、长城时,眨眼间就可回忆起在上海的黄埔,又一眨眼就跑到了贵州黄果树。大脑可实现“瞬间数千年,眨眼九万里”。计算机中的数据与数据之间没有什么关系,然而任何输入到人的大脑中的事物的信息,人的大脑都会自动地与大脑中的相关事物信息之间形成联想关系,这种联想关系是根据事物的自然属性而建立的。
人的大脑的超级高保真数据处理技术主要有四种:1、超级高保真数据采集技术;2、超级高保真数据存贮及再现技术;3、超级高保真形成数据与数据之间的关系技术(形成联想关系);4、超级高保真利用数据之间的关系技术(即以联想来处理数据)。
用当前的技术可以比较好地模仿大脑的“超级高保真数据采集技术”及“超级高保真数据存贮及再现技术”。然而现有技术无法全面实现(甚至说根本无法模仿)大脑的“超级高保真形成数据与数据之间的关系技术”和大脑的“超级高保真数据处理技术”,这两种技术才是大脑具有超级功能的根本。
超级高保真数据采集技术:大脑是通过视觉、听觉、触觉、嗅觉、味觉、痛觉等感觉器官而采集数据。
超级高保真存贮及真实再现数据技术:大脑不但可以以超级高保真的形式存贮数据,犹如把自然界的事物“搬”到了大脑中,而且还可突破时间、空间使以往的事物随意再现(联想)。大脑中的数据是自然界真实的具体的事物的缩影。
超级高保真建立数据之间的关系技术:大脑不但可以采集、存贮数据,更重要的是,大脑可以自动地让数据在大脑中形成相似联想、接近联想、同时联想关系。大脑中的数据联想关系是根据事物的自然属性而自然地建立的。大脑不只是超级高保真存贮了数据,而且还超级高保真地存贮了数据与数据之间的自然关系。这是现有技术难以模仿的。
超级高保真利用数据之间的关系技术(数据处理技术):计算机所处理的只是数字信号,而人的大脑所处理的全是模拟信号。大脑以相似联想、同时联想、接近联想等方式处理超级高保真的模拟数据(即大脑思维)。现有技术根本无法全面模仿这种技术,只能局部模仿。
下面用事例比较详细地说明“大脑的超级高保真数据处理技术”。主要说明:自然事物、事物的属性、大脑根据事物的属性而进行联想、推理,以及数据与数据之间的联想关系是根据事物的自然属性而建立的。
1、“人可以通过听声音而判断出你是在敲铁块,还是在敲木头。”这是因为,在人的大脑的记忆中,敲铁块发出的声音已非常自然地与铁块联系在一起,敲木头的声音已非常自然地与木头自然地联系在一起,这些信息都是人们在日常生活中所接收到的。因此,人们可以通过声音而联想到相应的事物。计算机也可以存贮音像文件,然而计算机不能实现声音与图像之间的自然联系,也不能灵活地识别声音和图像。