用R 也能做精算—actuar 包学习笔记(一) 李皞 (中国人民大学 统计学院 风险管理与精算) 本文是对 R 中精算学专用包 actuar 使用的一个简单教程。actuar 项目开始于 2005年,在 2006 年 2 月首次提供公开下载,其目的就是将一些常用的精算功能引入 R 系统。actuar 是一个集成化的精算函数系统,虽然其他 R 包中的很多函数可以供精算师使用,但是为了达到某个目的而寻找某个包的某个函数是一个费时费力的过程,因此,actuar 将精算建模中常用的函数汇集到一个包中,方便了人们的使用。目前,该包提供的函数主要涉及风险理论,损失分布和信度理论,特别是为非寿险研究提供了很多方便的工具。 如题所示,本文是我在学习 actuar 包过程中的学习笔记,主要涉及这个包中一些函数的使用方法和细节,对一些方法的结论也有稍许探讨,因此能简略的地方简略,而讨论的地方可能讲的会比较详细。文章主要是针对 R 语言的初学者,因此每种函数或数据的结构进行了尽可能直白的描述,以便于理解,如有描述不清或者错漏之处,敬请各位指正。闲话少提,下面就正式开始咯! 1 数据描述 本节介绍描述数据的基本方法,数据类型主要分为分组数据和非分组数据。对于非分组数据的描述方法大家会比较熟悉,无论是数量上,还是图形上的,比如均值、方差、直方图、柱形图还有核密度估计等。因此下文的某些部分只介绍如何处理分组数据。 1.1 构造分组数据对象 分组数据是精算研究中经常见到的数据类型,虽然原始的损失数据比分组数据包含有更多的信息,但是某些情况下受条件所限,只能获得某个损失所在的范围。与此同时,将数据分组也是处理原始数据的基本方法,通过将数据分到不同的组中,我们可以看到各组中数据的相对频数,有助于对数据形成直观的印象(比如我们对连续变量绘制直方图);而且在生存函数的估计中,数据量经常成千上万,一种处理方法是选定合适的时间或损失额度间隔,对数据进行分组,然后再使用分组数据进行生存函数的估计,这样可以有效减小计算量。现在假设我们要把一组连续变量分为 r 组:,那么就需要定义 r+1个边界。实际中的损失数据或生存数据都是取非负值,因此经常取 0。 对于分组数据来说,只需要知道每个组的数值范围及落在该组的观测频数,因此要构造一个完整的分组数据只需要提供上面两个信息即可。下面是分组数据的构造函数,注意这个函数是构造一个分组数据的结构,而非对现有连续数据进行分组,该...