大数据掘金——数据挖掘过程

大数据掘金——数据挖掘过程

数据库知识获取过程

大数据掘金——数据挖掘过程

跨行业标准化数据挖掘流程

大数据掘金——数据挖掘过程

1.商业问题理解

全面了解管理对新知识的需求以及对企业目标的明确认识。

公司最近因竞争对手影响而损失的客户有什么共同特点?
公司典型客户档案如何?
每位客户能为公司带来多少价值?

进行项目规划,明确负责收集数据、分析数据、汇报结果的人员。在这一早期阶段,还应当对进行研究的经费预算,至少要给出预算上限和大致数据。

2.数据理解

将商业问题与使用数据完美匹配。

准确的描述数据挖掘任务以便确认所需的数据组。
深入了解数据源,数据存储位置,存储格式,数据收集是自动化还是人工,谁负责收集数据,数据更新周期。
清楚地认识变量,与问题最相关的变量是哪些、变量中有哪些是同义词或同音异义词、变量之间是独立的吗、它们之间构成完整的数据源还是存在交叉和冲突的地方。

定量数据:用数值来衡量,可以是离散的,也可以使连续的。也成为分类数据包括定序和定类两种,定序数据有有限多个可排序的取值(差、好、极好),定类数据具有有限不可排序的取值(男、女)。定量数据可以由几组概率分布来表示。概率分布显示了数据是如何分布的

定性数据:可以进行编码,通过频率分布表示。

3.数据准备

数据处理。真实世界的数据通常都是不完全的(缺乏属性值、特殊性或只有总数)、杂乱的(包含错误或异常值)、不连续的(编码或名字中存在矛盾)。由于数据来自不同的数据源,它们之间具有不同的格式,如选取的数据可能来自平面文件、音频、图片或网页,必须转化为持续统一的格式。

4.建立模型

需要利用多种模型,经过多次实验和测量,找出解决某个实际问题的最佳方案。甚至对于单个模型或公式而言,也是需要对参数进行标准化才能得到最优结果。某些方法对数据格式有特殊要求,因此还需要退回到数据准备阶段重新处理。

数据挖掘建模的标准流程是将大规模未经处理数据分为小组,以进行测试或检验。然后分析师就可以根据一部分数据(实验组)建立模型(可以使用任何建模方法或公式),用另一部分数据(测试组)测试建立起来的模型。

5.检验和评估

对建立起来的模型进行测量和评估,确定其准确性和一般性。在实际环境中测试模型是否符合时间和财务的要求。这一发现过程的成功与否取决于数据分析师、商业分析师和决策者(如企业管理者)的互动。为了更好地解读数据,我们通常使用表格或可视化技术(如数据透视表、交叉表分析、饼图、柱状图、箱线图和散点图等)。

6.部署

数据部署这一步可能仅仅是给出一份报告,但也有可能要将整个数据挖掘过程在全公司重复一遍。

SEMMA

大数据掘金——数据挖掘过程

大数据掘金——数据挖掘过程

六西格玛方法

大数据掘金——数据挖掘过程

数据挖掘中的数据属性

大数据掘金——数据挖掘过程

数据挖掘中的数据预处理

大数据掘金——数据挖掘过程

大数据掘金——数据挖掘过程

数据挖掘方法

大数据掘金——数据挖掘过程

加入我们

热门文章