美团
image
image
数据收集特征:
对于数据收集..,日志数据是多接口的,能够打到文件里视察文件,也能够更新数据库表。关系型数据库是基于Binlog获取增量的,若是做数据仓库的话有大量的关系型数据库,有一些调换没法发现等情形,能够经由Binlog手段能够解决。经由一个Kafka新闻队列集中化分发支撑粗俗,今朝支撑了850以上的日志类型,峰值每秒有百万介入。
流式较量..特征:
构建流式较量..的时候充裕考虑了斥地的复杂度,基于Storm。有一个在线的斥地..,测试斥地过程都在在线..上做,供应一个相当于对Storm应用场景的封装,有一个拓扑斥地框架,因为是流式较量,我们也做了延迟统计和报警,如今支撑1100以上的实时拓扑,秒级实时数据流延迟。这上面能够设置公司内部定的某个参数,某个代码,能够在..上编译有调试。
离线数据..:
最下面是三个根蒂办事,包罗Yarn、HDFS、HiveMeta。分歧的较量场景供应分歧的较量引擎支撑。若是是新建的公司,其实这里是有一些架构选型的。Cloud Table是本身做的HBase分装封口。我们使用Hive构建数据仓库,用Spark在数据挖掘和机械进修,Presto支撑Adhoc上查询,也或者写一些复杂的SQL。对应关系这里Presto没有布置到Yarn,跟Yarn是同步的,Spark是on Yarn跑。
【大数据斥地进修资料领取体式】:到场大数据手艺进修交流扣扣群458345782,点击到场群聊,私信治理员即可免费领取
微软
lambda 架构 -> Kappa 架构
lambda 架构首先由 Nathan Marz 提出,经由建立两个数据流路径来解决此问题。 所有进入系统的数据都经由这两个路径:
批处理层(冷路径)以原始形式存储所有传入数据,对数据进行批处理。 该处理的究竟作为批处理视图存储。
速度层(热路径)可实时剖析数据。 设计此层是为了降低延迟,但价值是正确性也会降低。
image
Kappa 架构由 Jay Kreps 提出,用于替代 Lambda 架构。 它具有与 lambda 系统构造沟通的根基方针,但有一个主要区别:所稀有据流经一个路径,使用一个流处理系统。
image
Airbnb
image
Airbnb 数据源首要来自两方面:数据埋点发送事件日志到 Kafka;MySQL 数据库 dumps 存储在 AWS 的 RDS,经由数据传输组件 Sqoop 传输到 Hive集群。
包含用户行为以及纬度快照的数据发送到 Hive“金”集群存储,并进行数据清洗。这步会做些买卖逻辑较量,聚合数据表,并进行数据校验。
Airbnb 采用 Presto 来查询 Hive 表,取代 Oracle、 Teradata、 Vertica、 Redshift 等。在将来,进展能够直接用 Presto 保持 Tableau。
Airpal,一个基于 Presto,web 查询系统,已经开源。Airpal 是 Airbnb 公司用户基于数据仓库的即席 SQL 查询托言,有跨越 1/3 的 Airbnb 同事在使用此对象查询。义务调剂系统Airflow ,能够跨..运行 Hive,Presto,Spark,MySQL 等 Job,并供应调剂和监控功能。
迁徙到 Mesos 较量框架后,能够选择分歧类型的机械运行分歧的集群。好比,选择 AWS c3.8xlarge 实例运行 Spark。AWS 后来发布了“D 系列”实例。从 AWS c3.8xlarge 实例每节点长途的 3 TB 存储迁徙数据到 AWS d2.8xlarge 4 TB 内陆存储,这给 Airbnb 公司将来三年节约了上亿美元。