首页 > 科技 >

数据管理简史:从人工到人工智能

2019-08-22 00:22:29 暂无 阅读:1564 评论:0

导读:从1790年美国第一次生齿普查,到1946年较量机问世;从2007年iPhone第一代发布,到今日的数字孪生与人工智能,数据变得无处不在。一波又一波的标记性事件,推进着数据治理在海潮中向前成长,从最初指尖上的肩负,到真正能为企业带来买卖价格,数据治理一向在络续立异中成长。

1、 指尖上的肩负(1800年以前,数据治理0.1)

公元1790年,美利坚合众国举办了一次全国性生齿普查,其时美国经济正处于敏捷成长阶段,生齿举止十分频仍,需要统计的项目繁多,如岁数、性别等,而且还要统计出每个社区有几多儿童和白叟,有几多男性公民和女性公民等。再加上统计手段掉队,查询员们花了7年半的时间才把数据处理完毕。也就是说,直到快进行第二次生齿普查时,美国当局才能得知第一次生齿普查的状况。查询员们终日埋在数据堆里,一世界来,也统计不出几张表格的数据。这个时期数据的概念初步形成,但数据相关工作端赖手工,数据治理工作成为查询员们指尖上的繁重肩负。

数据管理简史:从人工到人工智能

图 1 埋在数据堆里面的查询员们

2、 卡片上的艺术(1800-1960年,数据治理0.2)

美国第一次生齿普查事后,Hollerith深知人工统计数据之痛,发现了分拣机、制表机和记录机,用来记录完整的数据,能够说第一次把数据改变成了二进制信息。一向到1910年-1960年月中期,打卡和制表机都是企业办公的前提前提。1946年2月14日,第一台较量机出生,用穿孔卡片输入数据的方式一向沿用,数据处理也成长成为较量机的首要功能之一。这个时期数据酿成了能够存储的较量机说话,然则较量机速度很慢,仍然需要大量的手工劳动才能运行,首要照样依靠人工处理数据,数据不克历久留存,数据不克共享,数据治理工作依然难以进行。

数据管理简史:从人工到人工智能

图 2 工作人员在把持机械

3、 磁盘中的贮备(1950-1965年,数据治理0.3)

50年月-60年月中期,首要经由文件系统对数据进行治理。文件系统是一种可以快速检索打卡信息的机械手段。其时适逢第二代编程说话(汇编说话)鼓起,法式员能使用字母表中的字母进行编程,而不是使用复杂的1和0字符串,法式初步拥有了可读性,使法式员免于繁琐而且轻易失足的较量,是以汇编说话成为了组织用作治理数据的早期方式。这个时期数据首要以磁盘为存储介质,能够初步实现联机实时处理和批处理,而且数据能够历久留存,然则数据冗余多、共享性与自力性差,仍然谈不上实现了系统性的数据治理。

数据管理简史:从人工到人工智能

图 3 用汇编说话编写的代码

4、 构造化的飞跃(1965-1995,数据治理0.6)

20世纪60年月末,美国通用公司研发的第一个数据库系统DBMS降生,也标记着数据治理进入了一个新的时代。同时大容量磁盘的发生,让数据可以实现大规模治理。在这个时期,一批数据库软件系统出生,数据由DBMS统一治理和掌握,第一次实现了数据的构造化,数据有了物理自力性与逻辑自力性,人们能够经由DBMS实现一致的数据处理并削减反复数据的数量。数据能够被联机实时处理、分布处理、批处理,共享性高、冗余度低、易扩充,很大水平削减了数据治理工作人员的人工压力,系统性数据治理初见眉目。

5、 元数据的萌芽(1995-2000年,数据治理0.7)

1995年3月,由OCLC(Online Computer library Center,联机较量机藏书楼中心)和NCSA(National Center for Supercomputing Applications,美国国度超等较量应用中心)结合在美国的都柏林镇召开的第一届元数据钻研会上,发生了一个精简的元数据集——都柏林焦点元素集(Dublin Core Element Set),简称DC。旨在用一个简洁的元数据记录来描述种类繁多的电子信息,达到有效地描述和检索网上图书资源。DC能较好地解决收集资源的发现、掌握和治理问题,1998年9月,因特网工程义务组(IETF)将其作为一个正式尺度予以发布(RFC2413)。DC元数据概念的提出,为现代基于元数据驱动的数据治理奠基了坚韧的根蒂,到此,数据治理的序幕才真正被拉开。

6、 初步认知的竖立(2000-2008年,数据治理0.8)

国外学界关于"数据治理"的熟悉始于2004年,原由是H. Watson商量了"数据仓库治理"在 Blue Cross 和 Blue Shield of North Carolina 两家公司的最佳实践,由此拉开了"数据治理"在企业治理中的大幕。同年,非营利组织DAMA协会成立,以提拔数据治理行业及专业的意识和教育。2005年之后,陆续有学者对"数据治理"睁开研究,商议了数据治理情况下企业、当局、病院的本能脚色、模型、框架、身分与机制等。2008年国际尺度化组织ISO又环绕数据治理和数据治理(ISO/IEC 2008)提出差别化概念。从这个时期起头,数据治理因其在组织内部和外部治理数据使用上的主要性和优势而受到越来越多的存眷,国表里相关组织初步竖立了在数据治理上的认知。

7、 "5V"的驱动(2008年,数据治理0.9)

2008年8月中旬,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中正式提出大数据概念和大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价格)、Veracity(真实性)。大数据和其相关概念的提出,让数据成为公司计谋竞争力,驱动了各大企业在数据治理上的欲望,数据治理工作获得进一步成长。

8、 监管下的推进(2008-2016年,数据治理1.0)

2008-2016年这段时间,国内数据治理工作首要照样面向监管报送系统的纯真的数据质量提拔。以银行为代表,为了知足监管报送的数据质量要求,各大银行都先后凭据1104设计质量检核系统与质量专项规划,旨在提拔报送数据质量,这个时期的数据治理固然能解决和发现监管上的数据质量问题,然则因为数据治理本能在IT中是涣散的,忽略了数据在更普遍的数据情况中的关系,是以照样处于头痛医头,脚痛医脚的水平,难以从整体上提拔数据质量。跟着IT在银行应用的络续深入,银行扶植了大量IT系统并储蓄了海量数据,若何高效开展数据治理工作,对于公司具有主要意义。2012年7月,国际数据治理协会DAMA出书《DAMA数据治理常识系统指南》一书,一度畅销,也进一步推进国内数据治理走向了正轨。

图 4 中国银监会发文

9、 系统中的主数据(2010-至今,数据治理2.0)

跟着MIS、MRP、ERP等系统的发生,企业发现像客户、产物、员工等这些数据老是需要在各个系统之间分享,最早的是外国ERP厂商推出MDM产物,例如Informatica、 Oracle 、IBM、SAP 、微软都接纳了自有产物并供应主数据治理解决方案,旨在集中治理单一版本的、完整的和可托任的主数据信息。到今朝为止,还有好多企业处在这个时期,例如对于一些制造型企业来说,因为制造产物信息的复杂、数据量伟大、信息化水平纷歧,今朝主数据若何治理仍是很大的挑战。

10、 仓库中的尺度(2012-2017年,数据治理3.0)

2012-2017年这段时间,国内数据治理工作的重点转向面向数据仓库的数据尺度的竖立和落地。以银行和大型企业为代表,在Inmon提出数据仓库理论后,2010年摆布,各大企业都起头了数据仓库的扶植,单点解决数据质量问题已经不克知足需求,需要凭据数据尺度规范数据仓库上粗俗数据,实现数据拉通,同时竖立完美的数据治理机制,解决数据治理没有管控流程、数据治理与买卖流程连系的问题。数据治理3.0引入了数据驱动买卖的原则,认可了对协作数据治理的需求,拆除了数据孤岛而且将数据治理责任涣散到了更多脚色。

11、 办事化与消费(2018-至今,数据治理4.0)

2018年到将来2020年,数据治理的重点将放在面向数据办事化的数据消费撑持场景。以银行、当局、公安等行业为代表,在数据质量根基获得保障,近几年,在元数据治理手艺和..日益增加的配景下,大中型企业根基实现了主动剖析数据资产,同时可以在二代系统的根蒂上供应数据资产可视与数据办事化能力,数据治理由纯真的内部治理转型为企业撑持买卖数字化的需要手段。

12、 云与人工智能(将来,数据治理5.0)

一方面,跟着办事的斥地,很多企业起头将大部门数据存储和处理转移到云端。公司从传统的单片架构转向分布式夹杂云架构。云将凭据需要为组织供应专用的数据治理资源,数据治理将与底层根蒂架构无关。它使用新和谈的新形式接见媒体边缘和移动设备,用一种新的络续扩展的数据构造、容器和接口,支撑数据驱动,例如自助数据预备、自助剖析等。将来数据治理方面将会有新的立异,以知足在这些新的夹杂云情况中珍爱和治理数据的需求。

另一方面,能够预见,在将来十年内,人工智能将匡助企业识别和分类大量存储数据,并对根基数据治理法式做出例行决议。作为数据治理的助手,人工智能将变得越来越有价格。包罗处理、治理和存储非构造化数据;去掉不相关的冗余数据、实现最大化数据集成、确定存储数据的最佳位置等。

数据管理简史:从人工到人工智能

图 5 数据和剖析治理和主数据治理成熟度模型

相关文章