首页 > 体育 >

关于数据挖掘的基础,这些基本知识你应该了解!(2)

2018-06-01 16:57:20 网络整理 阅读:54 评论:0

我们通常所理解的数据挖掘都假定是从数据库中进行挖掘,也就是说,如果真的需要数据的时候,所有的数据都可用。

但是还存在另一种假设:数据以一个或多个流的方式到来,如果不对数据进行及时的处理或者存储,数据将会永远丢失。此外,我们假定数据到来的速度实在是太快,以致将全部数据存在传统数据库并在我们选定的时间进行交互是不可能的。

关于数据挖掘的基础,这些基本知识你应该了解!(2)

流查询

对流进行查询主要有两种方式,其中的一种称为固定查询。固定查询永远不变的执行并在适当的时候产生输出结果。

流抽样

一个需要解决的一般性问题是从流中选择一个子集,以便能够对它进行查询并给出统计性上对整个流具有代表性的结果。

关于数据挖掘的基础,这些基本知识你应该了解!(2)

考虑这样一个问题,如果我们要回答查询:在过去一个月中典型用户所提交的重复查询的比例是多少?,并假设我们只希望存储大概1/10的流元素。

想学习数据挖掘,几个基础知识是必备。首先是线性代数,包括向量,矩阵等。否则你根本不会是用科学工具。其次是维归约,包括PCA,SVD等技术的使用。还有概率统计,回归方程,优化,也是必备知识。

关于数据挖掘的基础,这些基本知识你应该了解!(2)

尚学堂的老师们说整个入门阶段,千万不要抱着学完一个在学一个的思想。同时学!比如,语言入门了,就找算法实践。看到一个算法,一定要程序跑出来。中间累了,把数学基础补一补。看算法的时候,数学哪里不懂,百度哪里。

总结一句话:反复实践。半年入门。

相关文章