作者:zhang jiali 15 年以前
540
[1] Pang-Ning Tan Michael Steinbach Vipin Kumar等著,范明 范宏建等译.数据挖掘导论[M].人民邮电出版社.2006年5月第一版.
[2]陈安 陈宁 周龙骧等著,数据挖掘技术及应用[M].科学出版社.2006年3月第一版.
[3]Gordon S.Linoff Michael J.A.Berry著,神钧毅,宋擒豹,燕彩蓉等译.Web数据挖掘:将客户数据转化为客户价值[M].电子工业出版社.2004年3月第1次印刷.
后台数据库存储了学习者和教学资源两个方面信息
辅之于监视所有到达服务器的数据,提取其中的 HTTP 请求信息。此部分数据主要来自浏览者的点击流(Click_stream) ,用于考察学习者的行为表现
可以从 Web 服务器、代理服务器的 Web log 文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息
站点文件
课件树
用户与站点的交互数据库
日志文件
主要包括三个部分
模式分析
模式发现(挖掘算法)
预处理
事件识别
路径补充
会话识别
在时间区段较大的 Web 服务器日志中, 用户有可能多次访问该站点。会话识别的目的就是将用户的访问记录划分成单个的会话。一般采用超时识别, 如果用户请求页面之间的时间超过一定间隔, 则认为用户开始了一个新的会话
用户识别
这是预处理的第二步,因为日志文件只是记录了主机或代理服务器的 IP 地址,而要识别每一个用户,则可采用 Cookie 技术, 或用一些启发规则来帮助识别
数据清洗
其目的在于把日志文件中一些与数据分析、数据挖掘无阖和项清除掉, 如: 剔除 CS- Uri- Stem 项。此外, 还可剔除用户请求访问失败的记录, 及用户请求方法中不是 GET 的记录。