搜索
查看: 4883|回复: 4

非参数建模

[复制链接]

发表于 2007-12-23 00:31 |

非参数建模

来自:MACD论坛(bbs.macd.cn) 作者:ly6873 浏览:4883 回复:4

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
——记考普斯“总统奖”得主,香港中文大学教授范剑青
  “这是个人的幸运,也是中国人的荣誉”,获得2000年度国际统计
学最高荣誉考普斯“总统奖”的香港中文大学教授、统计系主任范剑青
在接受笔者的采访时不无感慨地说:“能够在中国的大学以中国人的身
份获奖是十分自豪的,同时也让世界再次认识到中国人在学术领域的成
就。”
  考普斯“总统奖”是由美国统计学会、数理统计学会、美东及美西
计量协会及加拿大统计学会等五个统计学会会长组成的委员会(简称C
OPSS考普斯)提名颁奖,每年只颁奖给一位40岁以下的统计学最杰出的
学者。范剑青是以独创精确统计法“非参数建模”在许多领域有着广泛
利用而得奖。由于诺贝尔奖项中没有统计学,所以此奖在国际上被视为
统计学“诺贝尔”奖,该奖从1981年开始颁发以来,37岁的范剑青成为
该奖项得主中最年轻的华人学者,也成为中国留学生群体中获此殊荣的
第一人。
独创精确统计法“非参数建模”
  范剑青的得奖,是因为他首创了“非参数建模”的基础理论和方法
,这对现代统计理论及应用的发展做出了极其卓越的贡献。该理论的基
本思想就是让数据本身透过电脑自动寻找一个统计模型来描述和刻画,
该模型能寻找最精确的非线性系统来预报未来和描述变量之间的内在关
系,这就完全避免了传统的参数模型带来的人为偏差,而且也节省了许
多人力。这种非参数方法还更普遍地应用在现代的信息工程和统计表中
的图像处理、压缩、识别。这种方法在股票市场上也被广泛地运用着,
经济学家和统计学家认为,可以利用非参数建模来检验一些经济理论,
对于企业家来说,利用它能更有效地评估企业承受的金融风险能力和蒙
受损失的上限,企业亦可参考这些计算结果,从而作出正确的投资决定
。有例可证,1998年亚洲金融危机从一个侧面反映出亚洲在这一方面工
作中的滞后————反应太慢,有的甚至完全看不出危机。
  这种非参数建模方法特别适用在香港这个科技与商业发达的社会,
特别是在经济和金融方面的应用上,而在公共卫生方面,它更实在地确
定哪些是重要的影响健康的变量和因素,用它去评估他们对健康影响的
大小,从而帮助人们制定公共政策和方案。
  对于自己研究的领域,范剑青充满强烈的自信,他认为统计学是资
讯世纪不可或缺的工具,他说:“在过去的十年,对人类影响至巨的,
毫无疑问是互联网的发展和资讯科技的革命,这使我们可以更快、更容
易地搜集大量的资料。而实际上,有很多数据都没有好好地被整理利用
,统计学作为处理数据的必需工具,在未来的资讯世纪,将显得愈来愈
重要,”他还说“统计学是一门研究数据收集、表达、整理与分析的科
学,它广泛应用于工程、医学、资讯工程、风险管理、生物讯息学以及
工商业等自然科学和社会科学等范畴,统计学改称为信息科学可能更确
切些。”
从小对数学并无特别的兴趣
  作为一名杰出的统计学家,不少人认为范剑青自小一定是个数学迷
,谁知他却说:“我小时候对数学并无特别感兴趣,只不过当年在莆田
老家时,成绩好的学生都会选修数学、物理、化学,所以我就拣了数学
系。”
  “地瘦栽松柏,家贫子读书”。范剑青1962年底出生于福建莆田县
新度镇洋埕村一个贫穷的农民家庭,他作为有六个兄弟姐妹的长兄,过
早地领略了生活的艰辛,从小学到高中,范剑青一边念书还要一边参加
劳动,在渠桥一中,范剑青幸运地遇到了蔡瀛洲等一批才华横溢的教师
。这些被斥为“臭老九”的教师在“文革”结束后迸发出巨大的教学热
情,他们独特的人格魅力深深地感动着范剑青幼小的心灵。1978年全国
恢复高考的次年,范剑青以优异的成绩考进复旦大学数学系。
  “穷能生志”。来自农村的范剑青来到大上海,并未因贫穷而丧失
奋斗的志向,复旦四年,他打下了扎实的数理基础知识,也领略到数学
的内在严谨逻辑联系,从中感受到数学的快乐。临毕业时的范剑青面临
着重大的人生抉择,一边是毕业后马上到一家部级单位上班领工资,可
以替父母分担其他5个弟妹的学习生活费用,这在当时是多少人的梦想
呀;而另一边是我国刚刚恢复研究生制度,自己又学有余力,统计王国
的奥妙在向自己召唤。此时的范剑青真是左右为难,难下决断。还是劳
累一生却又开明的父亲范金标一咬牙:“孩子有出息,我们当父母的再
苦几年也不冤枉”。一句话使日后多了一个国际级的统计学家。1982年
,范剑青以优异的成绩考取了中国科学院数学研究所的国内统计学权威
方开泰教授的研究生。在这里,他的人生开始扬帆,有了自己的研究方
向和奋斗目标,他开始在数学应用方面的前沿打下了良好的基础,发表
十篇有影响的论文,也开始了著书立说的学者生涯。1985年,范剑青研
究生毕业后留在数学研究所,当时的数学所集中着以华罗庚为所长的一
批杰出人物,范剑青从华老身上领悟到一种勤勤恳恳为人,生命不息,
奋斗不止的学者的人生追求。
  由于国内条件的限制,同时希望自己能在统计领域取得更大的发展
,范剑青决心到国际统计学前沿的美国加州的柏莱克大学攻读博士学位
:由于入学成绩优异,范剑青领受着双份奖学金,这使他免除了许多后
顾之忧,得以全身心投入自己的学业中。1989年,范剑青提前获得了博
士学位,这时的他在统计学研究领域已涉及小波技术,图像压缩等新兴
学科,其博士论文引起同行专家们的广泛关注,被公认为统计学界的希
望之星。获得博士的范剑青随后在美国北卡教堂山大学、加州洛杉矶大
学先后担任助教、教授、终身教授。书山有路勤为径,学海无涯苦作舟
,学位和职称的获得并未阻挡他在统计前沿探索的脚步,其间于1992年
和1993年,范剑青先后对自己提出的方法,新理论中比较模糊而容易混
淆的概念进行修正,使之更趋向完善。以至两个十三岁和十岁的女儿常
常不解地问他:“爸爸,他是大学终身教授了,为什么还要不断地钻研
呢?”而他常常会这样教诲女儿说:“这就是为了追求一个学术理想,
‘求真探究释疑难’”。
“身上流着中华的血”
  如今的范剑青是著名的《美国统计协会》、《统计年鉴》的副主编
、《泛华杂志》副主编,拥有两本英文专著,在国际最具权威统计杂志
上发表数十篇有影响的论文,也是“国际数理统计研究院院士”和“美
国统计学会会员”,还兼任国际上十个“学官”的任务。作为一名顶尖
级的统计学者,他涉足欧亚美几十个国家进行学术上的交流。尽管身居
海外,但自称“身上还流着中华的血”的范剑青从1995年至今,已三度
赴港担任中文大学讲座教授,每次任教半学期或一学期,而这次从200
0年5月开始与香港中文大学进行为期三年的合作,担任讲座教授和统计
系主任,并设立风险管理系,为香港培养统计学人才。
  在物质高度发达的美国,范剑青拥有丰厚得多的待遇,而且同样获
得统计学博士的妻子在美国最大的医药公司工作,是什么促使他做出这
种回流香港的选择呢?范剑青说自己受中华传统教育至深,无论身处何
地,他都为炎黄子孙而自豪。况且香港是中国的领土,具有文化上的共
鸣,感情上也容易沟通。其次香港是一个金融发达的大都市,特别需要
这些精确、省时的方法“非参数建模”去计算大量的即时金融数据,如
恒生指数、股票、利率和兑换率等等,可以减少投资风险。第三是妻子
的鼎力支持,他的妻子是长春人,一位非常传统的东方女性,视丈夫的
事业为自己的成就。巧合的是,他得奖的那天,正好是他的结婚纪念日
。当谈到自己的妻子时,范剑青把笑意写在脸上:“太太也是一名统计
博士,她既要照顾家庭,又要支持我的工作,我觉得她的成就比我大!

  在国外时,范剑青已把目光投到了国内,从1998年11月起他还兼任
四川联合大学统计学兼职教授,还应邀到上海用自己的专业知识为上海
证券风险基金进行风险评估。他常常鼓励自己能以13亿人口的一分子为
祖国默默奉献而自豪,不久前国内准备出版一本《当代科学前沿论丛》
,他认为这对国内开展学术研究有很好的参考价值,就出面在海外找了
17—18位有成就的学者共同承担了其中一部分的工作。不久前,他还和
北京大学签订合同,希望能培训这方面的内地人才,用自己的事业回报
故土。
  殷殷游子情,拳拳爱国心。虽然身居海外,但作为学者的范剑青认
为:正是“中国心”促使他逆境奋进拼搏不止,才能使他获得国际统计
学大奖,“范剑青”三个字不重要,重要的是华人学者摘走了桂冠。他
深信中国人具有天生的数学头脑,在数学领域完全有能力占据国际领先
地位,将来能有更多的学者能为祖国和家乡争光。
有统计学“诺贝尔”奖之称的考普斯“总统奖”是国际统计学的最高荣
誉,中国旅美学者范剑青是该奖2000年度的得主,
成为中国留学生群体中夺取此殊荣的第一人,然而,15岁就考入复旦大
学数学系的他坦言小时候对数学并无特别的兴趣……

 楼主| 发表于 2007-12-23 00:34 |
非参数和半参数回归模型吸引了许多代表的目光,其中美国数理统计学会主席范剑青,Horowitz Joel,Nielsen Jens Perch的研究最具代表性,他们主要研究了生存分析和经济计量学中的非参数和半参数回归模型。范剑青建议一种估计状态价格密度和金融衍生产品定价的新的半参数技术,这种方法建立在将非参数方法引入估计标准化状态变量的状态价格分布的物理模型基础上,被称为定价公式中的自动误差修正。实证研究显示,与其它定价模型相比,该方法在预测和避险能力方面表现出。Horowitz Joel研究了使用链接函数估计非参数可加回归模型的可加分量的问题。他的研究同时考虑了均值回归和分位数回归。研究表明,如果可加成份和链接函数是二阶可微的,那么可加成份可以使用概率论中的一维非参数点态收敛速度进行估计,且每一个可加成份的估计都是oracle有效的,不存在维数灾难问题。还表明在均值回归情况下,对于链接函数未知的情况,不存在渐近惩罚。Nielsen Jens Perch研究了对截断或删失数据使用降维信息和平尾转换的多变量密度估计。在简单的独立同分布变量情形下Buch-Kroman, Guillen, Linton and Nielsen (2007)建议多变量密度估计的非参数和半参数估计方法,并在某些情况下在尾部使用误差消除和方差减少技术对它们进行改进,从而变换核密度估计方法被扩展到多变量情形,并与半参数方法结合起来。Nielsen Jens Perch的研究得出了一种允许左截断右删失滤波数据情形下的类似方法,给出了建立在计数过程理论基础上的分布理论。使用不同水平的模拟滤波,这种方法被应用到与Buch-Kroman 等(2007)相同的数据库,结果证明新的滤波数据方法效果良好。

  关于半监督学习算法,学者Belkin Milkhail、Mease David和Seeger Matthias研究了半监督学习的原理、自我训练的半监督学习、以及半监督学习的分类系统。

  Mease David研究了使用基于随机森林的自我训练的半监督学习。自我训练是一种用于实施半监督学习的迭代程序。在每一次迭代中,用基础分类器将数据根据对分类标签所做的训练进行分类。每一点的权数是这些预测出来的分类标签信度测算的比例。由于使用随机森林可以得到比许多其它流行分类器更精确的分类概率估计,因此建议使用随机森林作为基础分类器。Seeger  Matthias建议了一种简单的半监督学习问题概率图模型分类系统。对于每一族方法,给出了一些算法的粗分类,并指出它们在文献中的具体实现;同时更详细地说明了使用投入依赖规则的方法族,并证明了它与合作训练范例相似。

  关于空间统计理论,学者Calder Catherine,Diggle Peter和Fuentes Montserrat报告了他们的最新研究成果。地质统计学涉及到空间连续模型对空间离散数据的拟合。传统的地质统计学方法假定,抽样是没有偏好的,即使当外部环境使得这一假定不可能时也是如此。Diggle Peter用一个理想的模型来描述不正确地假定抽样无偏好时的结果,说明了当拟合偏好抽样模型时可能遇到的困难,给出了两个已知为偏好抽样的环境监测的例子,并讨论可能的分析策略。风暴潮常常导致沿海地区居民的财产和生命损失,海洋模型对于实现沿海地区风暴潮的预测非常重要。传统海洋模型并不总能准确描述飓风的非对称性动态特征。为此,引入了一种新的贝叶斯多变量空间统计模型框架,将其与关于风场物理知识的数据结合起来,目的在于改进风矢量的估计。许多空间模型假定数据服从高斯分布,而这对于常常显示出不稳定行为的风场数据来说可能是过度约束的。Fuentes Montserrat为这些数据发展了一个半参数多变量空间数据模型,建立了飓风海面风场模型框架的多变量非参数贝叶斯空间模型框架。研究表明,对于飓风伊万的风场来说,与通常的贝叶斯-克里金方法相比,该半参数空间模型改进了预测效果。

  关于多尺度分析和提升问题,学者Jansen Maarten,Nunes Matthew和von sachs Rainer的研究最具代表性。Jansen Maarten研究了有转折点的光滑数据的边缘自适应提升。这是一种新奇的基于提升方法的非线性多尺度构造算法。经典的小波转换受到一些在实践中常常难以满足的假定条件的限制,解决这些问题的一个非常有效的方法是采用提升转换方式建立一个第二代小波。Nunes Matthew建议了一种自适应提升算法,描述了这一自适应技术的建立过程和特点,将这一方法与能够处理不规则数据的现行小波和非小波方法进行了比较,讨论了它在非参数回归中的应用,并给出了使用实际数据的例子。von sachs Raine回顾了著名的HAAR思想如何转换为成套的非均衡设计,这些设计创始了最近在非参数统计中的一些研究,包括一维和多维多尺度提升以及当出现结构突变时的非参数函数估计。尝试对提升给出更一般的解释;引导建立一种特殊类型的“第二代小波基”,生成一种非常广义的小波变换。由于多尺度提升方法论及其应用的文献在过去几年内激增,所以,该研究并未追求包括所有的内容。

  贝叶斯理论和实践是吸引代表注意力的另一个研究主题,Liseo Brunero、Silva Giovani L等研究者在这方面分别进行了介绍。Liseo Brunero考查了多变量偏正态分布的贝叶斯推断问题。多变量偏正态模型的经典推断常常遇到一些困难,并且对于估计和检验问题没有广泛令人满意的解决办法。在Celeux 等(2005)对多变量偏正态随机变量的随机表现进行研究的基础上,建议了一个一般的迭代重要性抽样方法,目的在于提供模型的一个全面的贝叶斯分析。这一方法可以被定义为弱信息量的,因为对于形状参数向量,使用接近实际参考先验的先验信息。该项研究使用了Chib (1995)的方法,提供了参数的全面后验分布的IIS近似,以及检验多变量正态或偏正态的贝叶斯因子的近似。对于过度分散的纵向空间相关二元数据,一般建议使用多层贝叶斯分析模型。Silva Giovani L研究了相关二元数据的时空层次模型。这一类模型在使用随机效应的基础上,解释了不同地区之间的相关性,并灵活模拟使用平滑样条得到的时空差异。

  贝叶斯推断的先验描述几乎总是不完备的。常用的方法是用公式表示一个与能得到的先验信息一致的、有方便函数形式的先验分布,如共轭先验分布。但这种先验表示可能显示出较差的稳健性,因此有必要采用先验的更稳健形式。Sweeting Trevor给出了已知部分先验信息情形下的稳健预期推断。研究集中于讨论以预测作为统计分析主要目标的情形,考虑了一个或更多未来观测的预测分布的先验稳健性。分析建立在由基本的对数得分规则产生的预测后悔值的相对熵指标基础上,从一组与给定先验信息一致的先验估计中选择最小化最大渐近后悔值的先验估计。这一方法的优势在于,无论仅仅考虑一个未来观测或许多未来观测的预测分布,都将得到相同的最小最大先验估计。报告了许多正态基础上模型的结果,包括一个正态层次模型,并说明了如何使用仿真计算方法得到最小最大先验估计。尽管没有考虑含糊先验信息,但是注意到最小最大先验估计可以从所有的连续非退化先验估计中推导出来。

  Nicholas Longford,Li-Chun Zhang 和Parthasarathi Lahiri 等研究者以美国等国家为例,尝试测算和报告了小范围估计的质量。Li-Chun Zhang研究了信息缺失情形下评价以行政记录为基础的小区域成分的问题。政府机构经常实施大样本调查,目的在于报告全国和一些重要的大区域内社会经济、卫生健康等方面的状况。Parthasarathi Lahiri认为,使用简单的随机抽样和一步聚类抽样设计,即使对于点估计量相当可靠的较大区域,传统的基于设计的方差估计量也可能高度不可靠。为理解大规模复杂抽样调查中不同方差估计量的行为,使用美国当前就业统计调查数据库设计了一个稳健的模拟实验,从一个真实的有限商业基层单位总体使用CES抽样设计生成样本,研究月度就业增长率,目的在于测算美国当前就业统计调查中小区域估计的测算质量,研究基于模型的小区域估计量标准误。模拟研究表明,月度就业增长率估计量基于设计的方差常常不稳定,即使在全国范围的行业水平上(此时样本能够得出良好的点估计)也是如此。还发展了一个新的线性经验贝叶斯方差估计量,并将其与现有的基于设计的方法进行比较。

  Paolo Giudici研究了金融数据挖掘问题,主要考察了运营风险管理的贝叶斯模型。过去的几年间,巴塞尔银行监管委员会发布了为战胜银行业组织面对的风险、尤其是营运风险(包括所有那些可能决定不能预期的损失的管理事件)必须做出的正确资本决策方面的建议。而对于银行业组织来说,有必要发展有效的统计模型来测算、预测以及减轻营运风险。Paolo Giudici比较了各种方法,提出了具体建议:采用贝叶斯模型,使质量专家的观点和数量损失数据紧密结合在一起。

发表于 2007-12-25 14:41 |
股票是一个概率的东西,任何模型只能有限的提高概率,而不能准确的预测

发表于 2008-5-24 09:03 |
任何模型只能有限的提高概率,而不能准确的预测

飞飞浪王波浪研究家园股指家园道亦有道特训营

发表于 2008-7-17 23:18 |
注意,非参数方法的一个弱点是外推性不好,因此做预测并不理想
我曾经试过,作出来的图很漂亮,但还没有找到可利用的地方
本站声明:1、本站所有广告均与MACD无关;2、MACD仅提供交流平台,网友发布信息非MACD观点与意思表达,因网友发布的信息造成任何后果,均与MACD无关。
MACD俱乐部(1997-2019)官方域名:macd.cn   MACD网校(2006-2019)官方域名:macdwx.com
值班热线[9:00—17:30]:18292674919   24小时网站应急电话:18292674919
找回密码、投诉QQ:89918815 友情链接QQ:95008905 广告商务联系QQ:17017506 电话:18292674919
增值电信业务经营许可证: 陕ICP19026207号—2  陕ICP备20004035号

举报|意见反馈|Archiver|手机版|小黑屋|MACD俱乐部 ( 陕ICP备20004035号 )

GMT+8, 2024-5-4 04:40 , Processed in 0.123388 second(s), 7 queries , Redis On.

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表