DataMining

[1] Pang-Ning Tan Michael Steinbach Vipin Kumar等著，范明范宏建等译.数据挖掘导论[M].人民邮电出版社.2006年5月第一版.[2]陈安陈宁周龙骧等著，数据挖掘技术及应用[M].科学出版社.2006年3月第一版.[3]Gordon S.Linoff Michael J.A.Berry著，神钧毅，宋擒豹，燕彩蓉等译.Web数据挖掘：将客户数据转化为客户价值[M].电子工业出版社.2004年3月第1次印刷.

DM与其他技术的关系

与联机分析处理OLAP（On-Line Analysis Processing）

据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知，有效和可用三个特征

与知识发现KDD(KnowledgeDiscovery in Database)

据挖掘是知识发现的一个关键步骤

Web数据挖掘

分类

网络内容挖掘(Web Content Mining)

网络结构挖掘(WebStructure Mining)

网络用法挖掘(Web Usage Mining)

主要包括三个部分

预处理

数据清洗

其目的在于把日志文件中一些与数据分析、数据挖掘无阖和项清除掉, 如: 剔除 CS- Uri- Stem 项。此外, 还可剔除用户请求访问失败的记录, 及用户请求方法中不是 GET 的记录。

用户识别

这是预处理的第二步,因为日志文件只是记录了主机或代理服务器的 IP 地址,而要识别每一个用户,则可采用 Cookie 技术, 或用一些启发规则来帮助识别

会话识别

在时间区段较大的 Web 服务器日志中, 用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别, 如果用户请求页面之间的时间超过一定间隔, 则认为用户开始了一个新的会话

路径补充

事件识别

模式发现(挖掘算法）

模式分析

特点

远程教育应用

收集源数据

挖掘什么

日志文件

用户与站点的交互数据库

课件树

站点文件

服务器端数据的收集( Server Level Collection) 。可以从 Web 服务器、代理服务器的 Web log 文件中收集数据

可以从 Web 服务器、代理服务器的 Web log 文件中收集数据，此部分信息是最简单和最方便的数据来源，它记录了每一次网页请求信息

包监测技术( packet sniffing technology)

辅之于监视所有到达服务器的数据，提取其中的 HTTP 请求信息。此部分数据主要来自浏览者的点击流(Click_stream) ，用于考察学习者的行为表现

后台数据库里的原有数据

后台数据库存储了学习者和教学资源两个方面信息

数据处理

网络用法挖掘(Web Usage Mining)

模型