各位朋友,各位同仁,各位老师,同志们,请教如何处理数据才贴近市场,

小白2000 · 发表于 2006-4-1 12:03

我想对预测来讲，数据预处理最关键的就是属性归约，泛化和处理数据缺失、错误等问题吧
属性归约、泛化涉及到特征提取，就是提取与你预测目标相关性比较大的属性，剔除与预测无关的属性
还有各属性本身相关性比较大的话，要考虑合并处理或者其它一些处理
这个过程对业务的理解十分关键，还有对模型的调整，预测本身就是一个循环迭代反复验证修改的过程
很难直达目标
至于数据本身不规范的问题，提出的处理办法也很多，多尝试多实验

张溪溪 · 发表于 2006-4-1 21:58

讲的非常好,而且对预测的含意理解的很准确,数据预处理的属性归约，泛化都没有很大的疑虑,

数据缺失、错误等问题目前是最主要,而且最难处理的,因为,数据本身的缺失、错误,会导致予测

的结果.错误还会冲击正确的结论,使结论无可认知,如有可能请您能详谈处理办法,谢谢了,

alexjin · 发表于 2006-4-1 23:35

如果是神经网络的逆向传播和自组织映射，噪声数据会被自动处理
统计学，我绝对不看好统计学，没有用的，因为你用自己的大脑总结规律的时候会错过很多条件

张溪溪 · 发表于 2006-4-1 23:54

方法没有多大问题,大概率统计会有好结果,能讲一下逆向传播和自组织映射的基理?谢了,

alexjin · 发表于 2006-4-2 13:56

原帖由 张溪溪 于 2006-4-1 23:54 发表
方法没有多大问题,大概率统计会有好结果,能讲一下逆向传播和自组织映射的基理?谢了,

大致说一下吧，我自己的表述能力非常有限，可能说不清楚，你自己理解吧

神经网络分为三个层次，输入层，中间层，输出层。
输入层指的是数据输入，关于数据的选择我想你有一定了解，不过神经网络对于从-1到1的数值计算起来比较方便（为啥方便不好一两句话说清楚），在实际运用的时候可以根据自己的算法把数值放大（为了让数学运算简单，数据处理速度加快）。
中间层是数据处理过程，可以划分为几个层次，对于现阶段的桌面级计算机运算水平，三到四层比较适宜，而且三层肯定够用了（为啥够用还是说不清楚）。每个具体的中间层有多个节点，节点的数量根据输入层的数据种类数量确定，比数据种类数量多几个或少几个比较合适（为啥合适自己理解），从输入层到第一中间层，第一中间层到第二中间层，第二中间层到第三中间层，第三中间层到输出层之间的所有运算都是分类处理（这个你懂吧），最后得到输出层数据。
输出层的数据设定为打算预测的结果，比如涨还是跌可以设定为1和-1。

神经网络的训练过程，就是设定好输入和输出层，当数据通过神经网络之后得出的结果会和设定好的结果有一定的偏差，神经网络调整每一个节点到节点之间的算法，同时对数据作一定的修正（就是去除噪声数据，应该也是用概率，这样做的合理性很容易理解，一个百年不遇的个例是没有研究价值的），在一次让数据通过神经网络，重复训练。你可以设定重复训练的次数，根据输出层的数值离差来检验神经网络的收缩速度，也可以设定一个训练结果的离差值作为训练结束的条件。貌似收缩速度越快，结果越具有指导意义。这个训练过程叫做叠代算法（节电与节点间的算法调整使用的是逆向传播和自组织映射？我也说不清楚，念书的时候学得东西早就忘了。）

训练结束后的神经网络就可以作为预测模型了，一个新的数据输入之后，会得出一个输出层的结果，就是涨和跌。

我水平太有限了，你还是赶快买本书吧，免得被我的胡说八道误导了。

alexjin · 发表于 2006-4-2 14:09

原帖由 小白2000 于 2006-4-1 12:03 发表
我想对预测来讲，数据预处理最关键的就是属性归约，泛化和处理数据缺失、错误等问题吧
属性归约、泛化涉及到特征提取，就是提取与你预测目标相关性比较大的属性，剔除与预测无关的属性
还有各属性本身相关性比较 ...

老兄是高手高手高高手啊，几句话就点破了真谛。
数据挖掘只是工具，最最关键的还是怎么用，用在什么地方，用好了可以解放人的大脑去做更关键的工作，让计算机利用其快速、准确、抗干扰的特长，完成繁重枯燥的工作。
重中之重是数据的选取，像我这样的还没接触过股市的人，根本不知道股市是什么东西，选择的数据估计大半没有实际意义，挖来挖去也是瞎挖，所以还是等我下海湿了衣服再说。

小白2000 · 发表于 2006-4-2 16:04

原帖由 张溪溪 于 2006-4-1 21:58 发表
讲的非常好,而且对预测的含意理解的很准确,数据预处理的属性归约，泛化都没有很大的疑虑,

数据缺失、错误等问题目前是最主要,而且最难处理的,因为,数据本身的缺失、错误,会导致予测

的结果.错误还会冲击正确 ...

数据预处理没有统一的标准，只能说是根据不同类型的分析数据和业务需求，在对数据特性
做了充分的理解之后，再选择相关的数据预处理技术，一般会用到多种预处理技术，而且对
每种处理之后的效果做些分析对比，这里面经验的成分比较大，即使是声称数据挖掘专家的人
可能在某一个方面研究得很深入，但面对新的应用情况和数据，一开始他也不可能很有把握
地说能挖掘出有价值的东西，数据挖掘这个术语原来也叫数据采矿，就好比采矿，需要耐心
，需要经验，学要总结。其本身是一个综合学科：人工智能，机器学习，数据库，统计学等学科
的大综合。个人认为在挖掘中对某一个具体问题做过多的纠缠是无益的，理论上再适合，但
没经过你动手去检验，去比较之前那都是虚的。数据挖掘是一个反复的过程，而不是一劳永逸的
一次性处理，比如SPSS的CRISP-DM处理过程模型就是个很好的诠释。
再就是在挖掘的每个过程中，个人认为采用组件化，模块化的思想会有不错的效果，比如预处理
过程你选择那些处理模块（实际上就是处理技术，算法）的组合，挖掘模型中采用那些算法组件
[聚类算法有那些，分类算法有那些]的组合，展示的时候采用那些展示组件[直方图，散点图，曲线图等...]进行对比。整个挖掘过程就是个搭积木的过程，不同的搭配会有不同的效果，这就需要实验，分析，
对比，再分析，再实验，再对比...

小白2000 · 发表于 2006-4-2 16:05

主要的数据预处理技术：

一、数据清理
通过填写空缺值，平滑噪声数据，识别删除孤立点，并解决不一致来清理数据，主要是达到如下目标：
格式标准化
异常数据清除
错误纠正
重复数据的清除

(1)数据集压缩处理，主要策略:
数据聚集
维规约
数据压缩
数据规约

(2)空缺值处理，主要策略：
忽略元组
人工填写空缺值
使用固定值
使用属性平均值
使用最有可能值

(3)噪声数据处理，主要策略：
数据平滑技术:
需要做分箱处理
箱的深度：表示不同的箱里有相同个数的数据。
箱的宽度：每个箱值的取值区间是个常数。
平滑方法:
按箱平均值平滑
按箱中值平滑
按箱边界值平滑

聚类技术：
每个簇中的数据用其中心值代替
识别检测并忽略孤立点

计算机和人工检查相结合技术：
先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。
人工再审查这些孤立点

回归技术：
通过构造函数来符合数据变化的趋势，这样可以用一个变量预测另一个变量。
线形回归
多线形回归

二、数据集成：
将多个数据源中的数据结合起来并统一存储，建立数据仓库的过程实际上就是数据集成。
实体识别实体和模式的匹配
冗余：某个属性可以由别的属性推出。
相关分析
重复同一数据存储多次
数据值冲突的检测和处理

三、数据变换：
平滑
聚集
数据概化
规范化
  最小最大规范化
  小数定标规范化
  属性构造：由给定的属性构造和添加新的属性，以帮助提高精度和对高维数据结构的理解

四、数据归约：
详细技术和算法可以参考：http://www.chinabi.net/blog/more.asp?name=duzhaoyi2000&id=215
1、维归约
删除不相关的属性（维）来减少数据量。
属性子集选择
找出最小属性集合，使得数据类的概率分布尽可能地接近使用所有属性的原分布
如何选取？
贪心算法
逐步向前选择
逐步后向删除
向前选择和后向删除相结合
判定树归纳

2、数据压缩
有损，无损
小波变换
将数据向量D转换成为数值上不同的小波系数的向量D’.
对D’进行剪裁，保留小波系数最强的部分
主成分分析

3、数值归约
回归和对数线形模型
线形回归
对数线形模型
直方图
等宽
等深
V-最优
maxDiff
聚类
多维索引树：对于给定的数据集合，索引树动态的划分多维空间。
选样
简单选择n个样本，不放回
简单选择n个样本，放回
聚类选样
分层选样

五、离散化和概念分层
离散化技术用来减少给定连续属性的个数，这个过程通常是递归的，而且大量时间花在排序上。
对于给定的数值属性，概念分层定义了该属性的一个离散化的值。

数值数据离散化和概念分层生成方法有：
分箱
直方图分析

分类数据的概念分层生成方法有：
由用户和专家在模式级显式的说明属性的部分序
通过显式的数据分组说明分层结构的一部分
说明属性集，但不说明他们的偏序
只说明部分的属性集

张溪溪 · 发表于 2006-4-2 21:15

我非常感激你的语言,我听的懂,因为,我已作了很多年,有些专有名词可能一下子还对不上号,但内容

大部分都已在应用中,我想你是非常有前途的,人和人的差距并不是很大,多努力吧,有希望,谢谢,

小白2000 · 发表于 2006-4-2 22:35

原帖由 张溪溪 于 2006-4-2 21:15 发表
我非常感激你的语言,我听的懂,因为,我已作了很多年,有些专有名词可能一下子还对不上号,但内容

大部分都已在应用中,我想你是非常有前途的,人和人的差距并不是很大,多努力吧,有希望,谢谢,

呵呵，谢谢鼓励
让我们一起努力！
我现在很多东西也只是停留在理论层面
业务知识方面也还有待加强：）
以后肯定有很多问题请教坛里的朋友的

张溪溪 · 发表于 2006-4-2 23:24

你讲的数据预处理技术,在哪些书里能找到?

小白2000 · 发表于 2006-4-3 11:06

原帖由 张溪溪 于 2006-4-2 23:24 发表
你讲的数据预处理技术,在哪些书里能找到?

数据挖掘入门教材《数据挖掘概念与技术》，看英文原版效果要好些
再就是《数据挖掘原理》讲得比较深入，我现在看第二遍，有些问题还是没弄懂：（
这两本书是学数据挖掘的经典书籍
还有几本比如《数据挖掘导论》好象只有影印本，也不错

中医世家 · 发表于 2006-4-27 13:32

提示: 作者被禁止或删除内容自动屏蔽

lowfi · 发表于 2006-4-28 16:25

野狐禅是严谨的.数据并没有完全代表真实的市场,只是在一定程度上反映了市场.就拿一根有上下影K线来说,起码可以代表完全两种不同的走势.最近的走势可能是向上也可能在向下.

jasmoline2005 · 发表于 2006-5-6 14:37

提示: 作者被禁止或删除内容自动屏蔽

张溪溪 · 发表于 2006-5-6 22:03

就和早晨和傍晚需要定义一样,虾米需要定义吗?

雨过天青13 · 发表于 2006-5-7 12:44

学习。
然，为见树魂而求叶稍，过分精细执著于一隅，未必好事吧。

野狐禅 · 发表于 2006-5-7 20:48

原帖由 张溪溪 于 2006-5-6 22:03 发表
涨,跌不需要定义,
就和早晨和傍晚需要定义一样,虾米需要定义吗?

算命先生的说法。

张溪溪 · 发表于 2006-5-9 23:56

野和尚:道指和日经指数启动的年,月,日,谢了.

野狐禅 · 发表于 2006-5-10 04:05

原帖由 张溪溪 于 2006-5-9 23:56 发表
道指和日经指数启动的年,月,日,谢了.

1884 July 03 Dow Jones publishes its first average of U.S. stocks in the Customer's Afternoon Letter, forerunner of The Wall Street Journal.

1896 May 26 Dow Jones publishes its first "Industrial" average (DJIA) consisting of 12 stocks closing at 40.94.

下半年翻五倍的标的查询	只要觉得你的资源有价值，找我	超长线翻倍股6个，299元	想知识变现，点这里
广东线下聚会即将开始	帮你配置仓位	领五倍以上大牛	不做制度的牺牲品

各位朋友,各位同仁,各位老师,同志们,请教如何处理数据才贴近市场,

感谢小白2000

是数据挖掘为基础的,

小白2000 :

小白2000

涨,跌不需要定义,

请教

		搜索
热搜: macd K线与均线飞狐分时指标共振指标分时橡胶牛股炒股入门

中医世家中医世家当前离线金币: 奖励: 热心: 注册时间: 2005-2-19		发表于 2006-4-27 13:32 \| 提示: 作者被禁止或删除内容自动屏蔽
中医世家中医世家当前离线金币: 奖励: 热心: 注册时间: 2005-2-19

jasmoline2005 jasmoline2005 当前离线金币: 奖励: 热心: 注册时间: 2005-5-18		发表于 2006-5-6 14:37 \| 提示: 作者被禁止或删除内容自动屏蔽