搜索
查看: 9589|回复: 79

数据挖掘参考资料,供有兴趣的朋友一阅

[复制链接]

签到天数: 1500 天

发表于 2005-3-2 15:29 |

数据挖掘参考资料,供有兴趣的朋友一阅

来自:MACD论坛(bbs.macd.cn) 作者:fract 浏览:9589 回复:79

数据库中的知识发现KDD,是一门交叉性学科。它不但涉及到机器学习,而且涉及到模式识别、统计学、数据可视化、高性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用在科学研究、信息管理、过程控制、决策支持等各个方面。
数据挖掘是KDD 最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段。
现在已有几十家软件公司展示了他们的数据挖掘软件产品,不少软件已在欧美等国得到应用。近几年,也引起了国内一些人的注意。
现转贴一些数据挖掘参考资料,供有兴趣的朋友一阅。暂时先转帖两篇知识性的文章,以后视需要而定。

1、数据挖掘的分析方法综述

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

签到天数: 1500 天

 楼主| 发表于 2005-3-2 15:32 |
2、数据挖掘工具的评判

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2005-3-2 16:10 |
学习ING..................
发表于 2005-3-2 16:18 |
fract
看你在另帖中的意思似乎是开始时取的数据及变量定义有很多的毛病或有很大的讲究,是吗?
发表于 2005-3-2 17:03 |
确实是这样,一般来说data preparation 占了整个数据挖掘绝大部分的时间。我有一些数据挖掘的原版电子书,如果大家需要的话,可以上传。
发表于 2005-3-2 18:49 |
刚才看天书般看完软件自带的英文快速帮助,英文认的少,懂不多,我大概的感觉有了点,只是有些地方,想不明白.
如我把数据准备好,导入进去成表格,各变量名自然都设好,但软件怎么知各变量间是什么关系,特别是价这种东西,不同于一般数据表格,价有时间先后顺序,我是怕它把K线数据的文本记录形式当成公司人员名单了去搞,那还不玩完啊!
发表于 2005-3-2 20:03 |
谢谢!
发表于 2005-3-3 00:15 |
建议冰雪改用SAS,很强大的数据管理软件,还有附带ENTERPRISE MINER(DATA MINING),我们老师说任何号称一键式的数据挖掘软件都是不可靠的。只是SAS很难下载到 特别是附带ENTERPRISE MINER 的,逛逛盗版市场或许有收获,至于学习资料,它的帮助已经完全足够了,但不清楚是否有中文版的帮助。

签到天数: 1 天

发表于 2005-3-3 06:47 |
Originally posted by 冰雪寒香 at 2005-3-2 18:49
... 但软件怎么知各变量间是什么关系,特别是价这种东西 ...

多数数据发掘方法使用了概率里的最大可能原理 (maximum likelyhood) ,或条件概率来寻找变量间的关系,或自变量与目标的关系。如果变量间有稳态的统计关系,那是可以找到的。但是,象股票这种时间序列,并不见得有稳态的模式。在这里直接使用通用型的数据发掘软件通常会失败。
发表于 2005-3-3 15:17 |
读取Wind.NET证券行情日数据的SAS程序


/***********************************************
程序功能:将Wind.NET证券行情日数据(*.DAY)导入SAS数据集。
使用方法:将本SAS程序COPY到SAS编辑器,修改程序末尾有关参数后提交SAS执行。
变量含义:
date:日期
code:证券代码
opening:开盘价,单位:元
highest:最高价,单位:元
lowest:最低价,单位:元
closing:收盘价,单位:元
volume:成交量,单位:股
amount:成交金额,单位:元
本程序在SAS V9下调试通过,仅供参考。

**********************************************/
%macro ReadWindDay(DataFile,SasDataSet);
data &SasDataSet;
  infile "&DataFile" recfm=f lrecl=28 STOPOVER;
  input dt ib4. opening float4. highest float4. lowest float4. closing float4.
  amount float4. volume float4.;
  opening=round(opening,0.01);
  highest=round(highest,0.01);
  lowest=round(lowest,0.01);
  closing=round(closing,0.01);
  volume=volume*100;/*成交量单位为股*/
  amount=amount*1000;/*成交额单位为元*/
  date=mdy(int(mod(dt,10000)/100),mod(dt,100),int((dt/10000)));/* yyyymmdd to sas date*/
  attrib date format=yymmddd10.;
run;
%mend;
*以下参数需要修改;
%ReadWindDay(c:\RiskAge\wind\000001.SH.day,Work.Test);

[[i] Last edited by 冰雪寒香 on 2005-3-3 at 15:20 [/i]]
发表于 2005-3-3 15:31 |
谢谢上面朋友的建议和指导,目前我是这样想的:
我正在用SPSS 13.0,这个软件只可实现,数据整理及先行理论假设的证明或否定,自然只是统计学意义上的,
而从这里面再选出能够有相当高概率的才能对我来说是有意义的.如90%以上.
而我把sas em,matlab 14,spss clementine 8.1这类较智能化的数据挖掘软件看成是依据数据来自行按产品
带有的一些算法或集成包中的专业领域算法去找寻所存在的关系,进而再确定理论出来.
我可以这么认为吗?

目前我的感觉是我的统计学知识太少,对spss 13的计算结果的理解方面很费劲,
至使我对sas这类软件的用法感到实在是有点恐惧,同样对matlab这种模拟核实验的软件也是如此.
希望几位以后能够在此方面多多指导我,我感到自己真无知啊.

[ Last edited by 冰雪寒香 on 2005-3-3 at 16:37 ]
发表于 2005-3-3 17:16 |
需要数据挖掘的原版电子书,谢谢
发表于 2005-3-4 02:54 |
发现上传文件的大小只有200K。
过两天有空的时候在提供给大家。
发表于 2005-3-4 23:48 |
谢谢!
发表于 2005-3-6 08:55 |
谢谢!
发表于 2005-3-6 21:36 |
Morgan Kaufmann - Data Mining -- Concepts and Techniques

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2005-3-6 21:38 |
Morgan Kaufmann - Data Mining -- Concepts and Techniques

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2005-3-6 21:39 |
Morgan Kaufmann - Data Mining -- Concepts and Techniques

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2005-3-6 21:40 |
Morgan Kaufmann - Data Mining -- Concepts and Techniques

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
发表于 2005-3-6 21:41 |
Morgan Kaufmann - Data Mining -- Concepts and Techniques

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本站声明:1、本站所有广告均与MACD无关;2、MACD仅提供交流平台,网友发布信息非MACD观点与意思表达,因网友发布的信息造成任何后果,均与MACD无关。
MACD俱乐部(1997-2019)官方域名:macd.cn   MACD网校(2006-2019)官方域名:macdwx.com
值班热线[9:00—17:30]:18292674919   24小时网站应急电话:18292674919
找回密码、投诉QQ:89918815 友情链接QQ:95008905 广告商务联系QQ:17017506 电话:18292674919
增值电信业务经营许可证: 陕ICP19026207号—2  陕ICP备20004035号

举报|意见反馈|Archiver|手机版|小黑屋|MACD俱乐部 ( 陕ICP备20004035号 )

GMT+8, 2024-4-28 17:01 , Processed in 0.062140 second(s), 8 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表