DataMining
DM与其他技术的关系
与联机分析处理OLAP(On-Line Analysis Processing)
据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征
与知识发现KDD(KnowledgeDiscovery in Database)
据挖掘是知识发现的一个关键步骤
Web数据挖掘
分类
网络内容挖掘(Web Content Mining)
网络结构挖掘(WebStructure Mining)
网络用法挖掘(Web Usage Mining)
主要包括三个部分
预处理
数据清洗
其目的在于把日志文件中一些与数据分析、数据挖掘无阖和项清除掉, 如: 剔除 CS- Uri- Stem 项。此外, 还可剔除用户请求访问失败的记录, 及用户请求方法中不是 GET 的记录。
用户识别
这是预处理的第二步,因为日志文件只是记录了主机或代理服务器的 IP 地址,而要识别每一个用户,则可采用 Cookie 技术, 或用一些启发规则来帮助识别
会话识别
在时间区段较大的 Web 服务器日志中, 用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别, 如果用户请求页面之间的时间超过一定间隔, 则认为用户开始了一个新的会话
路径补充
事件识别
模式发现(挖掘算法)
模式分析
特点
远程教育应用
收集源数据
挖掘什么
日志文件
用户与站点的交互数据库
课件树
站点文件
服务器端数据的收集( Server Level Collection) 。可以从 Web 服务器、代理服务器的 Web log 文件中收集数据
可以从 Web 服务器、代理服务器的 Web log 文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息
包监测技术( packet sniffing technology)
辅之于监视所有到达服务器的数据,提取其中的 HTTP 请求信息。此部分数据主要来自浏览者的点击流(Click_stream) ,用于考察学习者的行为表现
后台数据库里的原有数据
后台数据库存储了学习者和教学资源两个方面信息
数据处理
网络用法挖掘(Web Usage Mining)
模型