大规模流数据的机遇与挑战(2)

2018-11-05 17:11:55 网络整理阅读：158 评论：0

传统的关系型数据管理模型虽然已有众多标准规范和技术积淀，但仍难以管理复杂多变的数据。

一方面，数据的关系框架的设计成本较高，既定的数据框架结构很难适应数据种类、格式的频繁变化；

另一方面，关系型数据库中，基于关联信息的计算代价很高，如表格的联结操作等，这使得在大规模数据场景下关系型数据库管理模型难以满足数据分析处理的需求。

图模型的点、边元素非常适用于建模复杂数据中的对象以及对象间的关联和交互，点和边上的属性、标签以及相关数据等的自由定义使得图模型能够很容易地以统一的形式表达不同的对象及其间的交互行为。

例如，在社交网络上，基于用户好友关系建模的图和以文本关键字共现关联建模的图可以很容易通过增加用户与文本的发表关系快速融合成一个图。因此，图模型非常适合用来建模大规模复杂数据。然而，图模型上的计算却很难应对图数据高速更新的场景。

图数据上的计算往往通过构建复杂的索引来加速查询。在静态图数据上，因为索引只需要离线构建一次，所以高构建代价对整体性能的影响有限。而在图数据高速更新的场景下，索引也需要频繁更新，越是复杂的索引往往更新越困难，甚至需要完全重新构建。尽管索引能够加速查询，但在流场景下的频繁索引更新也会严重影响整体性能。

数据流模型及其相关研究虽然都有针对数据更新的设计，但已有的数据流模型中缺少对图结构数据的支持。数据流中的元素往往具有统一简单的格式，并且元素之间相对独立，缺少对对象关联的建模。因此，数据流模型的相关算法也很难扩展到需要图模型建模的复杂数据上。

在大规模复杂数据流的场景下，已有的图与数据流相关的模型和算法均有明显缺陷。尽管大规模实时更新的复杂数据给人们带来了获取高价值信息的重大机遇，但也带来了数据管理和计算上的巨大挑战。人们急需一种既能够为复杂数据建模，又能够应对更新挑战的新的数据模型、技术来满足相应的信息管理需求。