Stata教程
§1.1 Stata的功能、特点和背景
Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。
Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或字处理软件如WORD等直接调用。 一、 Stata的数据管理能力
1. Stata的数据管理空间受计算机的操作系统和计算机扩展内存的影响。对640k内存的微机,3.1
版本的Stata可以管理2400个记录×99个变量,并随计算机扩展内存的增加而增加;对4.0的WINDOWS版本,Stata可以管理4800个记录×99个变量;对WINDOWS 95下的5.0版本,可根据计算机的配置情况设置变量数和记录数,如32M扩展内存的计算机,可处理2千万个数据。变量数和记录数可以互相交易(trade),即减少记录数可以增加变量数,减少变量数可以增加记录数。 2. 可以将分组变量转换成指示变量(哑变量),将字符串变量映射成数字代码。 3. 可以对数据文件进行横向和纵向链接,可以将行数据转为列数据,或反之。 4. 可以恢复、修改执行过的命令。
5. 可以利用数值函数或字符串函数产生新变量。 6. 可以从键盘或磁盘读入数据。
二、 Stata的统计功能
Stata的统计功能很强,除了传统的统计分析方法外,还收集了近20年发展起来的新方法,如Cox比例风险回归,指数与Weibull回归,多类结果与有序结果的logistic回归,Poisson回归、负二项回归及广义负二项回归,随机效应模型等。具体说,Stata具有如下统计分析能力:
1. 数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互
效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。
2
2. 分类资料的一般分析:参数估计,列联表分析( 检验,列联系数,确切概率),流行病学表格分
析等。
3. 等级资料的一般分析:秩变换,秩和检验,秩相关等。
4. 相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性
回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数(中位数)回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型,等。
5. 危险度分析:条件和非条件的logistic回归,多类结果与有序结果的logistic回归,Probit回
归,及其他广义线性模型,随机效应的logistic回归,随机效应的Poisson回归,等。
6. 生存分析:基线生存曲线的估计、相对危险度的估计,Kaplan-Meier生存曲线、寿命表分析,对
数秩检验,Mantel-Haenszel检验,Wilcoxon-Gehan检验,Cox比例风险模型,正态截尾及Tobit回归,指数回归和Weibull回归,等。
7. 其它方法:质量控制,整群抽样的设计效率,诊断试验评价,kappa,等。
三、 Stata的作图功能
Stata的作图模块,主要提供如下八种基本图形的制作: 直方图(histogram),条形图(bar), 百分条图(oneway),百分圆图(pie),散点图(twoway),散点图矩阵(matrix),星形图(star),分位数图。这些图
1
形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。详见第五章。
四、 Stata的矩阵运算功能
矩阵代数是多元统计分析的重要工具,Stata提供了多元统计分析中所需的矩阵基本运算,如矩阵的加、积、逆、Cholesky 分解、Kronecker内积等;还提供了一些高级运算,如特征根、特征向量、奇异值分解等;在执行完某些统计分析命令后,还提供了一些系统矩阵,如估计系数向量、估计系数的协方差矩阵等。 尽管Stata的容量最大只容许400 400的矩阵(默认为40 40),用它来完成日常工作中的统计分析显然不现实,但用它来做一些练习,提高多元统计分析的教学效率,无疑是很有帮助。详见第十八章。
五、 Stata的程序设计功能
Stata是一个统计分析软件,但它也具有很强的程序语言功能,这给用户提供了一个广阔的开发应用的天地,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。事实上,Stata的ado文件(高级统计部分)都是用Stata自己的语言编写的。下面这段程序是笔者自行编写的,用于产生n个参数为 的Poisson分布的随机数。 prog define rp set obs `2’ set seed `3’ gen rp=. local lamda0=exp(`1’) local j=1 while `j’<`2’+1 { local i=1 local r0=1 while `i’>0 { local r1=uniform() local r0=`r1’*`r0’ if `r0’< `lamda0’{ local n0= `i’-1 local i=-1 } local i= `i’+1 } quiet replace rp=`n0’if _n==`j’ local j= `j’+1 } end
§1.2 Stata的界面
/* 定义程序名 /* 定义数据库的最大记录数 /* 设置随机数种子, /* 定义变量rp,用于存放Poisson分布随机数 /* 计算lamda0=exp( ) /* j=1 /* 对 j
一、 DOS版本的Stata的进入和退出
前已述及,要将Stata程序所在的路径放入autoexec.bat中,我们可在DOS下任何目录位置进入Stata,但我们假定d:\\盘上进行。 D:\\>Stata
进入Stata后,屏幕显示Stata的版本号,公司所在地等信息,Dos版本下的Stata即出现圆点提示符。这时即可键入Stata的各种命令。
若已在Stata状态读入了数据,并且已将数据按Stata指令存盘,或读入的数据虽经分析,但对数据及数据结构等未作任何修改,则只须键入: . exit
即可退出Stata。
如未将数据按Stata指令存盘,或读入的数据或数据结构已被修改(Stata的有些命令会自动修改数据结构,如按某变量排序等),这时,Stata将拒绝退出Stata状态。若确实不需要存盘而退出Stata,可键入: . e,clear
(e为exit的简写)即可强行退出Stata。或分两步,即先放弃所有数据, .drop _all 再退出Stata, . exit
二、 WINDOWS版本的Stata的进入和退出
3
在桌面上双击Wstata的图标:
即可进入 Stata,并出现命令窗口。
在Stata的菜单中选 File ,再选 exit ,如数据已经存盘,则可退出Stata。如数据未存盘,则Stata给出如下提示:“Data has changed without being saved. Do you really want to exit?”(数据已改变,但未存盘,是否真的要退出?)如要退出,则按 确定 ,否则按 取消 。将数据存盘后再退出。 在WINDOWS下,亦可用DOS的命令退出Stata。 §1.4 Stata的数据输入与储存
Stata可以从键盘输入数据,也可以从文件读入数据。WINDOWS下的Stata还可以用Stata的数据编辑器输入、修改和管理数据。这里简单介绍如何从键盘输入数据,有关更详细的数据读入方式将在第三章中讲述。
一、 从键盘输入数据
例1.1 某实验得到如下数据
x y
1 4
2
3
4
5
5.5 6.2 7.7 8.5
进入Stata后,操作过程如下,其中划线部分为操作者输入部分。 . input x y x y 1. 1 4 2. 2 5.5 3. 3 6.2 4. 4 7.7 5. 5 8.5 6. end
用list命令可以看到输入的数据。 . list x y 1. 1 4 2. 2 5.5 3. 3 6.2 4. 4 7.7 5. 5 8.5 二、 保存数据
为了方便以后应用,输入Stata的数据应存盘。如欲将上述数据存入d:\\mydata\\子目录中,文件名为ex1.dta,命令为: . save d:\\mydata\\ex1
file d:\emp\\ex1replace.dta saved
该指令在d:盘的mydata子目录中建立了一个名为“ex1.dta”的Stata格式的数据文件。后缀dta是Stata内定的数据格式文件。该格式文件只能在Stata中用use命令打开: . use d:\\mydata\\ex1
如目标盘及子目录中已有相同文件名的文件存在,则该命令将给出如下信息:file d:\\ mydata\\ex1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。如欲覆盖已有文件,则加选择项replace。命令及结果如下: . save d:\\mydata\\ex1 , replace
4
file d:\emp\\ex1.dta saved
这样,Stata在d:盘的mydata子目录中建立了一个名为“ex1.dta”的Stata格式数据文件,并替换了原有文件。
§1.5 Stata的结果文件
Stata在屏幕上显示的运行结果有两种,一种是纯字符型的(如方差分析结果,回归分析结果等),一种是图形。
若要将操作过程和纯字符型结果记录下来,需事先打开一个log文件: .log using 文件名
设结果文件名为result1,则Stata自动加上后缀“.log”,亦可由用户自己加上其他后缀。执行该指令后的所有操作指令和文字结果(除help下显示的结果)将记录在结果文件“result1.log”中。若执行某一指令后的结果没有必要记录下来,则可事先用指令“log off”暂停记录,需要记录时再用“log on”继续记录,最后用“log close”关闭文件。
如果结果文件“result1.log”已经存在,用“log using result1”不能打开已有文件result1. log。如要覆盖文件result1.log,则加选择项replace。即键入: . log using result1, replace 如要在其后进行添加,则键入: . log using result1, append
文件“result1.log”可在EDIT、PE2、WPS或WORD等字处理软件下编辑、打印,也可在DOS下用type或print命令通过显示器浏览或打印机输出硬拷贝。
若要将图形结果打印下来,需要在绘图指令中加上“saving”选择项。例如,画例1.1中x与y的散点图并存入文件“ex1.gph”,可用下述指令: .graph y x ,c(l) saving(d:\\mydata\\ex1)
这时屏幕上显示y与x的散点图,并将被存入d:\\mydata\\子目录中,文件名为“ex1.gph”(gph是Stata内定的图形文件后缀,用户亦可自己定义后缀名)。该图形可在Stata状态用“ graph using d:\\mydata\\ex1”重新显示在屏幕上,可在 File 的 Print Graph 打印,也可用打印命令“gphdot”打印。 DOS版本的Stata可在DOS提示符下用“gphdot” 命令打印: D:\\MYDATA>gphdot ex1.gph 更详细的内容见第五章。 §1.6 Stata的操作方式
Stata的操作有交互式操作和非交互式操作两种形式。 一、 交互式操作
5
在Stata状态直接键入指令,每输入一个指令,Stata执行一个,这种方式称为交互式操作。 例1.2 用例1.1数据建立回归方程。 .use ex1 .reg y x
二、 非交互式操作
若分析内容很多,有时甚至涉及到多个数据库,有几十个甚至成百个分析内容,若仍采取交互式操作,不仅要将许多时间花在等待运算结果上,而且容易漏掉一些主要的分析内容或做一些无益的重复劳动。这时最好在EDIT,PE2,WORD等文字处理下将这些指令写入一个以“do”为扩展名的命令文件(文本格式,即ASCII码),并仔细核对分析内容、命令格式,直至组织数据文件的合理性等,修改好后再在Stata状态执行该命令文件。
例1.3 用非交互式操作对例1.1数据进行相关和回归分析。
第一步,在字处理软件下写入如下指令,并以文件名“ex1.do”存入磁盘d:\\mydata\\子目录中。 set more 1 log using d:\\mydata\\ex1.log use d:\\mydata\\ex1.dta gra y x,saving(d:\\mydtata\\ex1) cor y x reg y x log close set more 0 /* 指定结果窗口中,当输出结果满一屏后,不再显示--more--,直接显示下一屏 /* 打开结果文件ex1.log /* 调用数据文件d:\\mydata\\ex1.dta /* 作y与x的散点图,并存入d:\\mydtata\\ex1.gph /* 作y与x的相关 /* 作y与x的回归 /* 关闭结果文件ex1.log /* 指定结果窗口中,当输出结果满一屏后,显示-- more--,直到按任意键后,再显示下一屏 第二步,在Stata状态键入: .do d:\\mydtata\\ex1.do
Stata将首先打开一个名为“ex1.log”的结果文件,然后打开数据文件“ex1.dta”,画散点图并将图形存入文件“ex1.gph”,进行相关分析、回归分析,最后关闭结果文件。此时,Stata执行这些命令是自动的,不间断的。
§1.7 Stata的帮助功能
Stata具有很强的帮助功能。帮助功能的使用有两种方式。
一是在Stata状态,需要了解某个指令的格式和功能,这时只需键入help(或按功能键F1),然后空一格键入该指令即可。例如,若需了解回归分析的指令格式,则: . help regress 则可得到帮助。
二是利用菜单,在Stata的菜单上按 Help ,出现帮助窗口。
6
此时输入需要帮助的命令关键词,如regress,按 OK 即可得到帮助。
7
如需了解Stata的全部命令,可键入help contents,可得到Stata的全部命令及其简单解释;或在帮助窗口按 Contents ,则出现如下的帮助内容窗口。
在知道所要帮助的命令时,在命令窗口键入help加命令,即可获得帮助;在不知道所要帮助的命令时,用菜单操作更好。Stata的常用命令见附录。
下面以多元线性回归命令为例,介绍Stata的命令的格式。多元线性回归命令为regress,欲得到命令格式,键入help regress即可得到:
[by varlist:] regress [depvar [varlist1 [(varlist2)]]] [weight] [if exp] [in range] [, level(#)
beta hascons noconstant noheader eform(string) depname(varname) mse1 ]
命令中,[ ]内为选择项,括号外为必选项。
这里介绍命令的公共选择部分,该命令的专用选择项将在相应章节作介绍。
1. by varlist,是指定按变量varlist的取值逐一作多元线性回归。如变量名为group,且取值为1,
2,3,4,则“by group:”是指定Stata分别按group=1, group=2, group=3和group=4的观察值分别作4个回归方程。在选用该选择项前,要对变量排序,即先执行sort,如: . sort group
2. weight,是指本命令允许使用加权或频数,有[fw=频数变量]和[aw=加权变量]两种形式。 3. if exp, 用条件语句指定条件。如,下列条件是合法的:
if group==1 /* 对满足group=1条件的观察值进行分析 if group>2 /* 对满足group>2条件的观察值进行分析
if group==1 | group==2 /* 对满足group=1或group=2条件的观察值进行分析 if group~=3 /* 对满足group不等于3条件的观察值进行分析 if group==1 & sex==0 /* 对满足group=1,同时sex=0条件的观察值进行分析
4. in range,指定观察值的范围,对在范围内的观察值作分析。下列语句是合法的: in 1/25 /* 对观察值范围为1~25号的观察值作分析 in 26/44 /* 对观察值范围为26~44号的观察值作分析
in 26/l /* 对观察值范围为26~最后(last)的观察值作分析 in 5/l /* 对最后5个观察值进行分析
这些公共选择项在很多命令中都可选用,本书在介绍各命令时将省去这些公共选择项。
另外一个选择项,也可用于很多命令,它就是for。例如,在作回归分析时,自变量为x1,x2,…,x22共22变量,而因变量有y1,y2,…,y10,z1,…,z5共15个变量。欲分别建立每个因变量yi和zi与x1,x2,…,x22的回归,则需要写15个命令。而用for选择项只需一个命令即可: for y1-y10 z1-z5 : regress @ x1-x22
命令中,for 后面的变量是选定的,regress是作回归分析,@是替换符,Stata自动用for语句指定的变量逐一替换作为因变量,而自变量为x1-x22。 又如,
for y* : summ @,detail
表示,对以y字母开始的变量作详细的统计描述。
第一章 数据输入,存盘和调用文件命令以及数据管理命令
[ [1] ]
本 节 STATA 命 令 摘 要 输 入 数 据 命 令:
8
1) input 变量名1 变量名2 … 变量名m ( 各 变 量 数 据 之 间 用 空 格 隔 开, 每 行 一 个 记 录, 最 后 以 end 表 示 结 束) 2)infile 变 量 名1 变 量 名2 … 变 量 名m using 文 件 名 (该 文 件 为 文 本 文 件,各 变 量 数 据 之 间 用 空 格 隔 开, 每 行 一 个 记 录) 存 盘 命 令: save [路径] 文 件 名[,replace] (以STATA格式存盘,缺省扩展名为dta,replace表示覆盖同名同路径的 文件;也可以在菜单File中选SAVEas或SAVE进行操作) outfile using [路径]文 件 名[,replace] (以文本格式存盘,缺省扩展名为raw,replace表示覆盖同名同路径的文 件) 调 用 已 存 的 STATA 格 式 文 件 use [路径] 文 件 名[,clear] (也可以在菜单 File 中选 open 进行操作 ) 产 生 新 变 量 gen 新 变 量 名= 表 达 式 修 改 变 量 值 replace 变 量 名= 表 达 式 [in 范 围][if 逻 辑 表 达 式] ( 变 量 的 缺 省 值 (mining data) 表 达 式 为 . ) 在STATA 软 件 中 数 据 输 入 通 常 有 三 种 方 式: 键 盘 直 接 输 入, 从 外 部 的 文 本 文 件(ASC 码 文 件) 读 入 数 据 和 在DOS 环 境 下 应 用Transfer 软 件 直 接 把 Fox 或 其 他 格 式 存 盘 的 文 件 转 换 成 Stata 软 件 格 式 的 文 件。 1、 键 盘 输 入 方 式: 命 令 格 式:
input 变量1 变量2 … 变量m
输 入 数 据, 变 量 之 间 用 空 格, 每 个 记 录 一 行 当 数 据 输 完 后, 输 入 end 例: 应 用 克 矽 平 治 疗 矽 肺 患 者 10 名, 治 疗 前 后 血 红 蛋 白 的 含 量 如 下( 数 据 摘 自 金 丕 焕 主 编 <医 用 统 计 方 法>,pp 37):
血 红 蛋 白 含 量 治疗前 113 150 150 135 128 治疗后 140 138 140 135 135 治疗前 100 110 120 130 123 治疗后 120 147 114 138 120
在 下 列STATA 操 作 中 用 变 量 x1 和 x2 分 别 代 表 治 疗 前 和 治 疗 后。 STATA 数 据 输 入 操 作 命 令: 1. 键 盘 直 接 输 入
input x1 x2 113 140 150 138 150 140 135 135 128 135 100 120 110 147 120 114
9
130 138 123 120 end 2. 调 用 外 部 文 本 数 据 文 件
如果数据已经用其它软件(如:Foxbase)输入,并已以文本格式生成一个文本数据文件,并且满足上述每个记录一行和两个变量之间用空格分割的格式。则用STATA命令:
infile 变量1 变量2 … 变 量m using [路径]文本数据文件名
如:上例数据已以文本方式存在C:\,"p":{"h":15.839,"w":55.085,"x":310.575,"y":257.143,"z":175},"ps":null,"t":"word子目录中的文件ex1.txt,并满足每个记录一行和两个变量之间用空格分割的格式,则: STATA命令:
infile x1 x2 using c:\\ex1.txt 以 STATA 格 式 存 盘 save ex1
以ex1.dta为文件名在当前目录中存盘。
(因为STATA格式的数据文件的缺省扩展名为.dta)
如果ex1.dta在当前目录中已存在,并且打算把当前数据所存的文件覆盖当前目录中已存在的文件ex1.dta,则:
save ex1,replace
如 果 打 算 把 ex1.dta 文 件 存 入 c:\子 目 录 中, 则 save c:\\ex1.dta
或 save c:\\ex1.dta, replace
以 文 本 方 式 存 数 据 文 件: STATA 命 令:
outfile 变量1 变量2 … 变 量m using 路径]文本数据文件名[,replace]
其 中 子 命 令[,replace] 表 示 覆 盖 现 有 同 目 录 中 与 该 文 本 数 据 文 件 相 同 的 文 件
设 上 述 资 料 已 在STATA 状 态 下 输 入 到 计 算 机 中, 准 备 生 成 一 个 文 本 数 据 文 件 ex1.txt 并 存 入 c:\, 则: STATA 命 令:
outfile x1 x2 using c:\\ex1.txt
若 在 c:\中 已 经 有 ex1.txt, 并 打 算 用 当 前STATA 环 境 中 的 数 据 覆 盖 它。 则
outfile x1 x2 using c:\\ex1.txt,replace
调 用 现 有 数 据 文 件( 以STATA 格 式 存 盘 的 文 件, 又 称 STATA 系 统 数 据 文 件) use [ 路 径] 文 件 名[,clear]
若当前STATA状态已调入数据,则要调入新的数据时,需要用clear子命令,表示清除原先已在计算机中的数据。
如:调用在c:\,"p":{"h":15.839,"w":55.259,"x":167.79,"y":959.263,"z":569},"ps":null,"t":"word子目录下的ex1.dtaSTATA系统数据文件,则: use c:\\ex1
若 当 前 状 态 已 有 数 据 在 计 算 机 内, 则: use c:\\ex1,clear 注意:use 与 save是一对调用STATA系统数据文件和以STATA系统格式 存盘的命令;infile 和 outfile也是一对调用外部文本数据文件和以 文本文件格式存盘的命令。 数据管理命令
产 生 新 的 变 量:STATA 命 令: gen 新变量名=表达式
10
例如:当前计算机中正处于STATA状态下,并有二个配对变量x1和x2的数据,因此需要计算两个变量的差:x1-x2,则: gen x=x1-x2
修 改 数 据:STATA 命 令:
replace 变量名 = 表 达 式 [if 逻辑表达式] [in 范围]
如:变量x中所有值为999的数据是缺省资料,现改为STATA缺省值的记号,所有大于100的数据将改为2;x小于或等于100且大于5的所有数据改为1;x小于或等于5的所有数据为0。 则:
replace x=. if x==999 replace x =0 if x<=5
replace x=1 if x>5 & x<=100 [2] replace x=2 if x>100
[1]、方括号[]中的子命令表示可以省略,但方括号中的子命令是处理一些特殊情况的。
[2]在逻辑表达式中:“等于”用==表示;“不等于”用~=表示;“或”用|表示;“并且”用&表示。
第二章 描述性统计命令与输出结果说明
本 节STATA 命 令 摘 要
by 分组变量:]summarize 变 量 名1 变 量 名2 … 变 量 名m[,detail] ci 变 量 名1 变 量 名2 … 变 量 名m [, level(#) binomial poisson exposure(varname) by(分组变 量) ] cii 样 本 量 均 数 标 准 差 [, level(#) ] tab1 变量名 [,generate(变量名)] 资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度)
例:某地测定克山病患者与克山病健康人的血磷测定值如下表(数据摘自四川医学院主编的卫生统计学,1978出版,p21): 患 者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53 健康人 1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78 并假定这些数据已以STATA格式存入ex2.dta文件中,其中变量x1为患者的血磷测定值数据,变量x2为健康人的血磷测定值数据。上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。 计 算 资 料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例: use ex2,clear summarize x1 x2 结 果:
变量 样本数 均 数 标准差 最小值 最大值 Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------------------------- x1 | 11 4.710909 1.302977 2.6 6.53
11
x2 | 13 3.354615 1.304368 1.67 5.78 即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize以及子命令detail,仍以述资料为例:
use ex2,clear
summarize x1 x2,detail 结 果:
------------------------------------- Smallest( 最 小 值) 2.6 3.24 3.73 Obs 11(样 11 4.710909(均数) (低四分位) 3.73 Sum of Wgt. (中位数) (最大值) Mean Dev. 1.302977(标准差) (高四分位) 5.58 4 5.78 6.4 6.53 Variance 1.697749 (方差) Skewness -.0813446(偏度) Kurtosis 1.809951 (峰------------------------------------- allest 1.67 1.98 1.98 Obs 13 2.33 Sum of Wgt. 13 Mean 3.354615 ⑥ Dev. 1.304368 4.17 4.57 ⑥Variance 1.701377 4. 82 ⑦Skewness .2963943 5.78 ⑧ Kurtosis 1.875392 由上述结果可知:summarize命令并使用子命令detail,不仅可以得到各变量资料的均数和⑥标准差,而且可以得到主要的非参数描述指标:①低四分位(lowerquartile),②中位数(Median)以及③高四分位(upperquartile)。对于非正态资料,一般不应用均数±标准差进行描述,而应使用中位数以及(低四分位-高四分位,称interquartilerange,IQR)进行描述。如:若本资料不正态[1],则x1的Median以及IQR为:4.73(3.73-5.78)以及x2的Median以及IQR为:3.6(2.33-4.17)。⑥为样本方差;⑦为偏度,偏度的绝对值越小,表明该数据的正态对称性越好;⑧峰度,峰度值越大表明该数据的正态峰越明显;④在该数据中最小的四个数据;⑤在该数据中最大的四个数据。
12
若调用ex2a.dta文件,进行描述性统计,可用下列命令: use ex2a,clear
sort group ( 将 资 料 以 group 变 量 为 例 从 小 到 大 排 序) by group:summarize x 结 果: = 0 ----------------------------------------------------- les Smallest 2.6 2.6 2.6 3.24 3.24 3.73 Obs 11 3.73 3.73 Sum of Wgt. 11 4.73 Mean 4.710909 Std. Dev. 1.302977 5.78 5.58 6.4 5.78 Variance 1.697749 6.53 6.4 Skewness -.0813446 6.53 6.53 Kurtosis 1.809951 = 1 ----------------------------------------------------- les Smallest 1.67 1.67 1.67 1.98 1.98 1.98 Obs 13 2.33 2.33 Sum of Wgt. 13 3.6 Mean 3.354615 Std. Dev. 1.304368 4.17 4.17 4.82 4.57 Variance 1.701377 5.78 4.82 Skewness .2963943 5.78 5.78 Kurtosis 1.875392 上 述 结 果 与 前 面 的 结 果 对 应 相 同。
根 据 样 本 数 据 计 算 可 信 限 [2] 95% 可 信 限 计 算: 正 态数 据:ci 变量名
0-1 数 据:ci 变量名, binomial
poisson 分 布 数 据: ci 变 量 名,poisson 90% 可 信 限 计 算( 其 它 可 信 限 类 推) 正 态数 据:ci 变量名, level(90)
0-1 数 据:ci 变量名, level(90) binomial
poisson 分 布 数 据: ci 变 量 名,level(90) poisson 以 ex2.dta 为 例 计 算 x1,x2 的 95% 可 信 限。
e ex2.dta,clear ② ③ ④
13
riable | Obs Mean Std. Err. [95% Conf. Interval] -------+---------------------------------------------------------------------- | 11 4.710909 .3928624 3.835557 5.586261 | 13 3.354615 .3617667 2.566393 4.142837 以 上 结 果 中:① 为 样 本 数;② 为 均 数;③ 为 标 准 误;④ 为 95% 的 可 信 限, 因 此 x1 的95% 可 信 限 为[3.8356,5.5863],x2 的 95% 可 信 限 为[2.5664,4.1428]。
根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限 [3] 。
若 数 据 服 从 正 态 分 布, 并 已 知 样 本 均 数 和 标 准 差 以 及 样 本 数, 则95% 可 信 限 计 算 为:
cii 样 本 数 样 本 均 数 标 准 差[,level(#)] 例: 已 知 样 本 数 为 90 样 本 均 数 为 40 以 及 样 本 标 准 差 为 12, 则: 计 算 该 样 本 均 数 的 95% 可 信 限 为
cii 90 40 12 Variable | Obs Mean Std. Err. [95% Conf. Interval] ----------+---------------------------------------------------------------------- | 90 40 1.264911 37.48665 42.51335 该 样 本 均 数 的90% 可 信 限 为 [37.48665, 42.51335] cii 90 40 12,level(90) Variable | Obs Mean Std. Err. [90% Conf. Interval] ---------+--------------------------------------------------------------------------- | 90 40 1.264911 37.89752 42.10248 计 数 资 料 中 频 数 和 比 例 STATA 命 令:
tab1 变 量 名[,g( 新 变 量 名)
因 为 该 命 令 主 要 适 用 描 述 计 数 资 料( 即: 属 性 资 料), 当 使 用 子 命 令 g( 新 变 量), 则 产 生 属 性 指 示 变 量。 在 回 归 分 析 中 经 常 需 要 这 些 指 示 变 量 作 为 亚 元 变 量 进 行 分 析。 例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。 x: group: x: group: x: group: x: group: x: group: 2.23 1 5.59 2 4.5 3 1.35 4 1.4 5 1.14 1 0.96 2 3.92 3 1.06 4 1.51 5 2.63 1 6.96 2 10.33 3 0.74 4 2.49 5 1 1 1.23 2 8.23 3 0.96 4 1.74 5 1.35 1 1.61 2 2.07 3 1.16 4 1.59 5 2.01 1 2.94 2 4.9 3 2.08 4 1.36 5 1.64 1 1.96 2 6.84 3 0.69 4 3 5 1.13 1 3.68 2 6.42 3 0.68 4 4.81 5 1.01 1 1.54 2 3.72 3 0.84 4 5.21 5 1.70 1 2.59 2 6 3 1.34 4 5.12 5 tab1 group,g(a) -> tabulation of group ① ② ③ group| Freq. Percent Cum.
14 ------------+----------------------------------- 1 | 10 20.00 2 | 10 20.00 3 | 10 20.00 4 | 10 20.00 5 | 10 20.00 ------------+----------------------------------- Total | 50 100.00 20.00 40.00 60.00 80.00 100.00 ① 为 各 属 性 资 料 的 频 数;② 为 该 属 性 占 整 个 资 料 样 本 数 的 百 分 比;③ 为 累 计 百 分 比。
本 例 中, 总 样 本 数 为 50, 共 有 5 组, 每 组 有 10 个 样 本 点, 各 占 总 样 本 数 的 10%。 因 为 使 用 了 子 命 令 g(a), 从 而 产 生 5 个 指 示 变 量( 又 可 称 亚 元 变 量): a1,a2,a3,a4 和 a5。 变 量 a1 用 于 指 示 第 1 组 的 资 料: 即: 当 资 料 属 于 第 1 组 的(group=1), 则 a1=1; 其 它 组 的 资 料(group¹1), 则 a1=0。 变 量 a2 用 于 指 示 第 2 组 的 资 料, 变 量 a3,a4 和 a5 相 应 分 别 指 示 第 3,4,5 组 的 资 料( 详 细 见 下 表)。
x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 a1 1 1 1 1 1 1 1 1 1 1 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 a1 0 0 0 0 0 0 0 0 0 0 a2 1 1 1 1 1 1 1 1 1 1 a3 0 0 0 0 0 0 0 0 0 0 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 1 1 1 1 1 1 1 1 1 1 a4 0 0 0 0 0 0 0 0 0 0 a5 0 0 0 0 0 0 0 0 0 0 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 a1 0 0 0 0 0 0 0 0 0 0 a2 0 0 0 0 0 0 0 0 0 0 a3 0 0 0 0 0 0 0 0 0 0 a4 1 1 1 1 1 1 1 1 1 1 a5 0 0 0 0 0 0 0 0 0 0 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5 a1 0 0 0 0 0 0 0 0 0 0
15
a2 a3 a4 a5
0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1
[1] 此 处 仅 是 举 例 而 已, 事 实 上 该 资 料 可 以 用 正 态 检 验 证 明 近 似 服 从 正 态 分 布。
[2] 可 信 限 是 对 总 体 均 数 的 区 间 估 计。 例:95% 可 信 限 表 示 它 所 给 出 的 区 间 能 包 含 总 体 均 数 的 概 率 为 0.95。 通 俗 地 说: 在 同 一 个 总 体 中, 独 立 地 抽 样 100 次, 每 次 抽 取 的 样 本 量 相 同 以 及 计 算 相 应 的 95% 可 信 限, 则 平 均 有 95 次 抽 样 所 得 到 的 95% 可 信 限 所 对 应 区 间 包 含 该 总 体 均 数。
[3] 直 接 出 现 在 统 计 命 令 中 的 数 据 称 为 立 即 数, 相 应 的 命 令 称 为 立 即 命 令
第三章 正态检验与作图命令
本 节STATA 命 令 摘 要
swilk 变 量 名1 变 量 名2 … 变 量 名m graph 变量名 [, bin(#) ]
graph 变量名1 变量名2[, 连接设置 曲线上符号设置] 正 态 检 验:
在 t 检 验、 方 差 分 析、 线 性 回 归、 相 关 系 数 等 检 验 中, 都 假 设 数 据 服 从 正 态 分 布, 因 此 需 要 对 数 据 作 正 态 性 检 验。 一 般 需 要 从 频 数 分 布 直 方 图 上 考 察 数 据 是 否 偏 态 以 及 用 Shapiro-Wilk 方 法 进 行 正 态 检 验。 因 为 仅 使 用 Shapiro-Wilk 方 法 进 行 正 态 性 检 验, 虽 然 能 了 解 数 据 整 体 分 布 情 况, 但 不 能 了 解 少 量 数 据 偏 态 情 况, 而 仅 从 频 数 分 布 图 情 况 进 行 数 据 正 态 性 考 察, 往 往 不 能 客 观 地 定 性 判 断。 以 下 以 ex2.dta 数 据 为 例, 进 行 正 态 检 验。 use ex2.dta,clear swilk x1 x2
Shapiro-Wilk W test for normal data ① Variable | Obs W V z Pr > z ----------+-------------------------------------------------------- x1 | 11 0.96263 0.605 -0.856 0.80397 x2 | 13 0.93079 1.219 0.388 0.34900 ① 是H0: 数 据 服 从 正 态 的 检 验 所 对 应 的 p 值, 若 p 值<0.05, 则 可 以 认 为 该 数 据 偏 态, 即 不 能 认 为 该 数 据 服 从 正 态 分 布。 作 直 方 图: graph 变 量 名[,bin(#1)]
其 中 #1 是 图 中 的 直 方 块 的 个 数, 缺 省 值 为 5。 作 散 点 图 和 曲 线 图: 散 点 图:
graph 变 量 名1 变 量 名2 m 条 曲 线 图 (³1):
16
graph 因变量名1 因变量名2 … 因变量名m 自变量名 [, c(c1…cm) s(s1…sm)] c(c1…cm) 为连接设置:c1…cm 为对应m条曲线连接设置为: . 点与点之间不 连 接( 缺 省 值,即:散点图) l 点与点之间用直线连接¡
L 自变量单调上升的点之间用直线连接 s 点与点之间用三次样条函数连接
s(s1…sm)为曲线上点符号设置, s1…sm为对应m条曲线上点的符号设置:
• O 大 园 (缺 省 值) • S 大 方 块 • T 大 三 角 形 • o 小 园 • d 小 菱 形 • p 小 加 号 • . 点 • i 隐 含
例:graph y1 y2 x, c(l.) s(Od)
则:y1 与 x 的 曲 线 用 直 线 连 接 且 这 些 点 用 大 园 表 示;y2 与 x 的 曲 线 图 为 散 点 图 且 用 小 菱 形 表 示 这 些 散 点。
第四章 t检验和单因素方差分析(上)
本 节STATA 命 令 摘 要 ttest varname = # ttest varname1 = varname2 [, unequal unpaired ] ttest varname , by(分组变量) [unequal ] ttesti 样本数 均数 标准差 # ttesti 样本数1 均数1 标准差1样本数2 均数2 标准差2 [, unequal] sdtest 变 量1= 变 量2 oneway 观察变量 分组变量[, means bonferroni scheffe sidak ] 单 样 本 t 检 验
2
假 定 数 据 服 从 正 态 分 布 N(m,s), 无 效 假 设 H0: m=m0, 则 用 STATA 命 令: ttest 变 量 名=# (# 为 m0 的 值)。
例: 应 用 克 矽 平 治 疗 矽 肺 患 者 10 名, 治 疗 前 后 血 红 蛋 白 的 含 量 如 下( 数 据 摘 自 金 丕 焕 主 编 <医 用 统 计 方 法>,pp 37):
血 红 蛋 白 含 量 治疗前 113 150 150 135 128 治疗后 140 138 140 135 135 治疗前 100 110 120 130 123 治疗后 120 147 114 138 120
上 述 数 据 已 存 入ex1.dta 文 件 中( 治 疗 前 的 数 据 为 x1 以 及 治 疗 后 的 数 据 为 x2 ), 问: 患 者 治 疗 前 后 的 血 红 蛋 白 是 否 有 显 著 改 变? 先 计 算 每 个 患 者 治 疗 前 后 的 血 红 蛋 白 差: gen d=x2-x1
检 验 H0:患 者 治 疗 前 后 的 血 红 蛋 白 差 的 总 体 均 数 为 0 再 进 行 单 样 本 t 检 验 ( 若 数 据 服 从 正 态 分 布)
ttest d=0
17
① ②
Variable | Obs Mean Std. Dev. ----------+-------------------------------------------
d | 10 .6799999 1.645735 Ho: mean = 0
③ t = 1.31 with 9 d.f. ④ Pr > |t| = 0.2237
上 述 结 果 中,① 为 患 者 治 疗 前 后 血 红 蛋 白 差 的 样 本 均 数; ② 标 准 差;③ 对 应 t 统 计 量 的 样 本 值;④ 为 相 应 的 p 值 [1] , 本 例 统 计 结 果( 即 配 对 t 检 验) 表 明: 现 有 资 料 不 能 表 明 患 者 治 疗 前 后 血 红 蛋 白 发 生 明 显 改 变。 配 对 t 检 验 和 两 组 t 检 验
对 于 配 对 t 检 验, 要 求 配 对 数 据 的 差 服 从 正 态 分 布。 STATA 命 令 为
ttest 变 量 名1= 变 量 名2
以 上 例 的 资 料( ex1.dta )为 例, use ex1.dta,clear ttest x1=x2 Variable | Obs Mean Std. Dev. ----------+--------------------------------------- x1 | 10 12.59 1.632619 x2 | 10 13.27 1.080175 ----------+--------------------------------------- diff. | 10 -.6799999 1.645735 Ho: diff = 0 (paired data) t = -1.31 with 9 d.f. Pr > |t| = 0.2237 上 述 结 果 与 用 单 样 本 t 检 验 两 个 变 量 的 差 的 结 果 完 全 相 同。
对 于 两 组 数 据 的 t 检 验, 要 求 两 组 数 据 均 服 从 正 态 分 布, 两 组 数 据 的 方 差 无 显 著 性 差 异 并 且 要 求 数 据 之 间 相 互 独 立( 对 于 配 对 资 料, 因 为 配 对 可 能 引 起 数 据 之 间 相 关, 所 以 配 对 资 料 一 般 不 能 应 用 两 组 数 据 的 t 检 验)。 STATA 命 令:
ttest 变 量1= 变 量2, unpaired
若 两 个 变 量 的 数 据 方 差 相 差 不 太 大, 则 可 以 用 ttest 变 量1= 变 量2, unequal unpaired
例:某 地 测 定 克 山 病 患 者 与 克 山 病 健 康 人 的 血 磷 测 定 值 如 下 表( 用 变 量 x1 和 x2 分 别 表 示 患 者 和 健 康 人 的 血 磷 测 定 值, 并 已 存 入 ex2.dta 文 件 中)。
患 者 2.6 3.24 3.73 3.73 4.32 4.73 5.18 5.58 5.78 6.40 6.53 健康1.67 1.98 1.98 2.33 2.34 2.50 3.60 3.73 4.14 4.17 4.57 4.82 5.78 人 该 问 题 要 检 验 H0: 患 者 和 健 康 人 的 血 磷 测 定 值 的 总 体 均 数 是 否 相 同。 use ex2.dta, clear
ttest x1=x2,unpaired ( 假 定 方 差 齐 性 和 数 据 呈 正 态 分 布)
① ② Variable | Obs Mean Std. Dev.
18
------------+----------------------------------------- x1 | 11 4.710909 1.302977 x2 | 13 3.354615 1.304368 ------------+----------------------------------------- ③ | combined | 24 3.97625 1.449956 Ho: mean(x) = mean(y) (assuming equal variances) ④ t = 2.54 with 22 d.f. ⑤ Pr > |t| = 0.0187 ① 为 均 数;② 为 标 准 差;③ 合 并 的 均 数 和 标 准 差;④ t 检 验 统 计 量 的 t 值;⑤Ho 的 t 检 验 所 对 应 的 p 值。 由 患 者 的血 磷 测 定 值 的 样 本 均 数 大 于 健 康 人 的血 磷 测 定 值 的 样 本 均 数 以 及 p=0.0187(<0.05),表 明 克 山 病 患 者 的 血 磷 测 定 值 显 著 地 高 于 健 康 人 [2] 。
本 例 也 可 以 使 用 ex2a.dta 方 式 的 数 据( 在 STATA 如 何 输 入 数 据 这 一 节 中 已 描 述 过 该 文 件 的 数 据 方 式): 用 x 表 示 血 磷 测 定 值 以 及 用 分 组 变 量 group 表 示 健 康 组 (group=1) 或 患 者 组 (group=0), 则: use ex2a.dta,clear ttest x,by(group) Variable | Obs Mean Std. Dev. ----------+--------------------------------- ① 0 | 11 4.710909 1.302977 1 | 13 3.354615 1.304368 ----------+--------------------------------- combined | 24 3.97625 1.449956 Ho: mean(x) = mean(y) (assuming equal variances) 假 定 方 差 齐 性 t = 2.54 with 22 d.f. Pr > |t| = 0.0187 ① 表 示 分 组 变 量 group=0 和 group=1 所 对 应 的 组。 该 结 果 与 ex1.dta 文 件 的 数 据 统 计 检 验 结 果 完 全 相 同。
若 两 组 数 据 的 方 差 不 满 足 齐 性 要 求 但 两 组 方 差 相 差 不 是 太 大, 则 可 以 使 用 ttest 中 的 子 命 令:unequal. 假 设 在ex2a.dta 中 的 两 组 数 据 方 差 不 满 足 齐 性 要 求( 仅 仅 是 假 设 而 已, 实 际 上 两 组 方 差 是 齐 性 的), 则 use ex2a.dta,clear
ttest x, by(group) unequal Variable | Obs Mean Std. Dev. ------------+--------------------------------- 0 | 11 4.710909 1.302977 1 | 13 3.354615 1.304368 ------------+--------------------------------------- combined | 24 3.97625 Ho: mean(x) = mean(y) (assuming unequal variances) 假 定 方 差 不 齐 性 t = 2.54 with 21.35 d.f. Pr > |t| = 0.0189 由 于 该 统 计 检 验 是 根 据 方 差 不 齐 性 的 程 度 相 应 减 少 自 由 度, 所 以 与 方 差 齐 性 的 t 检 验 结 果 相 比, 尽 管 在 t 值 相 同 (实 际 上 两 个 统 计 检 验 t 值 计
19
算 公 式 非 常 接 近, 但 略 有 些 差 别), 但 两 者 自 由 度 有 所 不 同, 因 此 对 应 的 p 值 也 不 同。
根 据 已 知 样 本 均 数、 标 准 差 和 样 本 数 进 行 t 检 验
对 于 单 样 本: 若 已 知 样 本 均 数、 标 准 差 和 样 本 数, 检 验 均 数 m=m0, 则 STATA 命 令 为:
ttesti 样 本 数 样 本 均 数 样 本 标 准 差 # 其 中 # 为 相 应 的 m0。
例: 已 知 样 本 均 数 为 1.28, 样 本 标 准 差 为 0.92 和 样 本 量 为 21, 要 检 验 总 体 均 数 是 否 为 0.2。
ttesti 21 1.28 0.92 0.2 Variable | Obs Mean Std. Dev. ----------+--------------------------------------- x | 21 1.28 .92 Ho: mean = 0.2 t = 5.38 with 20 d.f. Pr > |t| = 0.0000 结 果 表 明: t 值 为 5.38, 自 由 度 为 20,相 应 的 p<0.0001, 表 明 均 数 显 著 地 大 于 0.2。
对 于 两 组 样 本 均 数 比 较: 已 知 两 组 的 样 本 数、 样 本 均 数 和 样 本 标 准 差, 检 验 两 组 均 数 是 否 相 同, 则STATA 命 令 为:
ttesti 样本数1 均数1 标准差1样本数2 均数2 标准差2 [, unequal]
例: 已 知 第 一 组 的 样 本 数 为 11, 样 本 均 数 为 10, 样 本 标 准 差 为 1.9; 第 二 组 的 样 本 数 为 14, 样 本 均 数 为 12.8, 样 本 标 准 差 为 2.3, 问 若 两 组 实 际 均 服 从 正 态 分 布, 两 组 总 体 均 数 是 否 相 同? 若 两 组 假 定 方 差 齐 性, 则:
ttesti 11 10 1.9 14 12.8 2.3 Variable | Obs Mean Std. Dev. -------------+---------------------------------------- x | 11 10 1.9 y | 14 12.8 2.3 -------------+---------------------------------------- combined | 25 11.568 2.526232 Ho: mean(x) = mean(y) (assuming equal variances) t = -3.25 with 23 d.f. Pr > |t| = 0.0035 结 果 表 明 第 二 组 的 均 数 显 著 地 大 于 第 一 组 的 均 数。 若 两 组 方 差 不 满 足 齐 性, 则 可 以 使 用 非 齐 性 的 t 检 验: ttesti 11 10 1.9 14 12.8 2.3, unequal
Variable | Obs Mean Std. Dev. -------------+--------------------------------------- x | 11 10 1.9 y | 14 12.8 2.3 -------------+--------------------------------------- combined | 25 11.568 Ho: mean(x) = mean(y) (assuming unequal variances)
20
t = -3.33 with 22.92 d.f. Pr > |t| = 0.0029 结 果 表 明: 第 二 组 均 数 显 著 地 大 于 第 一 组 的 均 数。
两 组 方 差 齐 性 检 验。STATA 两 组 方 差 齐 性 检 验 的 命 令 为: sdtest 变 量1= 变 量2 检 验 两 个 变 量 的 方 差 是 否 相 同?
sdtest 变 量, by( 分 组 变 量) 检 验 某 变 量 的 两 组 数 据 的 方 差 是 否 相 同?
例: 以 ex2.dta 为 例, 检 验 变 量 x1 和 x2 的 方 差 是 否 相 同 (即: 齐 性), 则: use ex2.dta,clear
sdtest x1=x2 ( 方 差 齐 性 检 验)
① ② Variable | Obs Mean Std. Dev. -------------+-------------------------------------------- x1 | 11 4.710909 1.302977 x2 | 13 3.354615 1.304368 -------------+-------------------------------------------- combined | 24 . ③ 1.303736 Ho: sd(x) = sd(y) (two-sided test) ④ F(12,10) = 1.00 ⑤ 2*(Pr > F) = 1.0121 ① 为 均 数;② 为 标 准 差;③ 合 并 标 准 差;④ 为 方 差 齐 性 检 验 的 统 计 量 F 值;⑤Ho 检 验 所 对 应 的 p 值( 由 于 计 算 数 值 近 似 导 致 p 值 大 于 1 的 误 差, 实 际 应 视 p 值 小 于 1 并 非 常 接 近 1)。 若 p <0.05, 则 应 认 为 x1 和 x2 的 方 差 不 齐 性。 本 例 中,p 值 远 大 于 0.05, 甚 至 接 近 1, 所 以 认 为 两 个 变 量 的 方 差 是 相 同 的。 例: 以 ex2a.dta 数 据 为 例, 检 验 变 量 x 的 两 组 方 差( 分 组 变 量 为 group) 是 否 齐 性, 则:
use ex2a.dta,clear sdtest x,by(group)
Variable | Obs Mean Std. Dev. ----------------+------------------------------------------- 0 | 11 4.710909 1.302977 1 | 13 3.354615 1.304368 ----------------+------------------------------------------- combined | 24 . 1.303736 Ho: sd(x) = sd(y) (two-sided test) F(12,10) = 1.00 2*(Pr > F) = 1.0121 由 于 ex2.dta 和 ex2a.dta 的 数 据 为 同 一 资 料, 仅 是 不 同 格 式 输 入 而 已, 因 此 采 用 相 应 不 同 形 式 的 方 差 齐 性 检 验 命 令, 所 以 结 果 完 全 相 同。
[1] 在 统 计 无 效 假 设 检 验 (Ho) 检 验 中, 无 论 什 么 样 的 统 计 检 验 方 法 和 什 么 样 的 无 效 假 设, 其 结 果 中 均 有 一 个 p 值。 该 p 值 表 示 假 如Ho 假 设 是 正 确 的, 而 被 错 误 地 拒 绝 该 无 效 假 设 的 概 率, 因 此 p 值 越 小, 表 明 拒 绝 Ho 而 发 生 失 误 的 机 会 越 小。
21
[2] 虽 然 t 检 验 本 身 仅 检 验 两 个 变 量 的 均 数 是 否 相 同 而 未 直 接 检 验 这 个 变 量 总 体 均 数 是 否 大 于 另 一 个 变 量 的 总 体 均 数, 但 是 t 检 验 统 计 量 结 果 与 这 两 个 均 数 的 差 的 95% 可 信 限 一 一 对 应: t 检 验 的 p 值<0.05, 则 对 应 的 两 个 均 数 的 差 的 95%可 信 限 不 包 含 0 点, 反 之 95% 可 信 限 不 包 含 0, 对 应 t 检 验 的 p 值 必 定 < 0.05; 若 它 们 的 样 本 均 数 的 差 < 0 以 及 t 检 验 的 p 值< 0.05, 则 95% 可 信 限 的 两 个 区 间 边 界 均 为 负 数。 由 于 95%可 信 限 是 总 体 均 数 的 区 间 估 计, 因 此 两 个 总 体 均 数 的 差 <0 的 概 率 不 小 于 0.95; 反 之 若 样 本 均 数 的 差 > 0 以 及 t 检 验 的 p 值<0.05, 则 95% 可 信 限 的 两 个 区 间 边 界 均 为 正 数,因 此 两 个 总 体 均 数 的 差 > 0 的 概 率 不 小 于 0.95。 由 两 个 总 体 均 数 之 差 大 于 0 或 小 于 0, 便 可 得 知 哪 一 个 变 量 的 总 体 均 数 更 大 一 些。
第 四 章 t 检 验 和 单 因 素 方 差 分 析 命 令 与 输 出 结 果 说 明
·单 因 素 方 差 分 析
单 因 素 方 差 分 析 又 称 为 Oneway ANOVA, 用 于 比 较 多 组 样 本 的 均 数 是 否 相 同, 并 假 定: 每 组 的 数 据 服 从 正 态 分 布,具 有 相 同 的 方 差, 且 相 互 独 立, 则 无 效 假 设 Ho: 各 组 总 体 均 数 相 同。 在 STATA 中 可 用 命 令:
oneway 观察变量 分组变量[, means bonferroni]
其 中 子 命 令 bonferroni 是 用 于 多 组 样 本 均 数 的 两 两 比 较 检 验。 例: 测 定 健 康 男 子 各 年 龄 组 的 淋 巴 细 胞 转 化 率 (%),结 果 见 表, 问: 各 组 的 淋 巴 细 胞 转 化 率 的 均 数 之 间 的 差 别 有 无 显 著 性?( 资 料 摘 自 卫 生 统 计 学, 四 川 医 学 院 主 编,p30)
健 康 男 子 各 年 龄 组 淋 巴 细 胞 转 化 率(%) 的 测 定 结 果 11-20 岁 组:58 61 61 62 63 68 70 70 74 78 41-50 岁 组:54 57 57 58 60 60 63 64 66 61-75 岁 组:43 52 55 56 60
用 变 量 x 表 示 这 些 淋 巴 细 胞 转 化 率 以 及 用 分 组 变 量 group=1,2,3 分 别 表 示 11-20 岁 组,41-50 岁 组 和 61-75 岁 组, 即: 数 据 表 示 为: x group x group 58 1 57 2 61 1 58 2 61 1 60 2 62 1 60 2 63 1 63 2 68 1 64 2 70 1 66 2 70 1 43 3 74 1 52 3 78 1 55 3 54 2 56 3 57 2 60 3
则 用 STATA 命 令:
oneway x group, mean bonferroni | Summary of x
group | Mean ① -------------+------------ 1 | 66.5 2 | 59.888889 3 | 53.2
-------------+------------
22
Total | 61.25 ② Analysis of Variance
Source SS df MS F Prob > F
----------------------------------------------------------------------------------------- ③ ④ ⑤ ⑥ ⑦
Between groups 616.311111 2 308.155556 9.77 0.0010 ⑧ ⑨
Within groups 662.188889 21 31.5328042
------------------------------------------------------------------------------------------ Total 1278.50 23 55.5869565
Bartlett's test for equal variances: chi2(2) = 2.1977 Prob>chi2 = 0.333 Comparison of x by group (Bonferroni) Row Mean- |
Col Mean | 1 2
-------------- --|-------------------------------------- 2 | -6.61111 | 0.054 |
3 | -13.3 -6.68889 | 0.001 0.134
① 为 对 应 三 个 年 龄 组 的 淋 巴 细 胞 转 化 率 的 均 数;② 三 组 合 并 在 一 起 的 总 的 样 本 均 数;③ 组 间 离 均 差 平 方 和;④ 组 间 离 均 差 平 方 和 的 自 由 度;⑤ 组 间 均 方 和( 即:⑤=③/④);⑧组 内 离 均 差 平 方 和;⑨ 组 内 离 均 差 平 方 和 的 自 由 度; 组 内 均 方 和( 即:=⑧/⑨);⑥ 为F 统 计 值( 即 为⑤/);⑦ 为 相 应 的 p 值; 为 方 差 齐 性 的Bartlett抯 检 验; 方 差 齐 性 检 验 相 应 的 p 值; 第 二 组 的 淋 巴 细 胞 转 化 率 样 本 均 数- 第 一 组 的 淋 巴 细 胞 转 化 率 的 样 本 均 数 的 差; 第 二 和 第 一 组 均 数 差 的 显 著 性 检 验 所 对 应 的 p 值; 第 三 组 的 淋 巴 细 胞 转 化 率 样 本 均 数- 第 一 组 的 淋 巴 细 胞 转 化 率 的 样 本 均 数 的 差; 第 三 和 第 一 组 均 数 差 的 显 著 性 检 验 所 对 应 的 p 值;第 三 组 的 淋 巴 细 胞 转 化 率 样 本 均 数- 第 二 组 的 淋 巴 细 胞 转 化 率 的 样 本 均 数 的 差;第 三 和 第 二 组 均 数 差 的 显 著 性 检 验 所 对 应 的 p 值。
由 上 述 结 果 可 知: 三 组 方 差 无 显 著 地 齐 性, 因 此 若 三 组 数 据 近 似 服 从 正 态 分 布, 无 效 假 设 Ho 检 验 所 对 应 的 p 值<0.01, 可 以 认 为 这 三 组 均 数 有 显 著 差 异。 由 Bonferroni 统 计 检 验 结 果 表 明: 第 一 组 淋 巴 细 胞 转 化 率 显 著 地 高 于 第 三 组 淋 巴 细 胞 转 化 率(p<0.005), 其 它 各 组 之 间 均 数 无 显 著 性 差 异。
第五章 多组计量资料比较的非参数检验命令与输出结果说明
本 节STATA 命 令 摘 要
ranksum 观察变量 , by(分组变量) kwallis 观察变量 , by(分组变量) 秩 和 检 验 ( Mann,Whitney and Wilcoxon 非 参 数 检 验)
23
对 于 计 量 资 料 不 满 足 正 态 分 布 要 求 或 方 差 不 齐 性, 但 样 本 资 料 之 间 是 独 立 抽 取 的, 则 可 以 应 用 秩 和 检 验 方 法 进 行 比 较 两 组 资 料 的 中 位 数 是 否 有 差 异。STATA 命 令 为:
ranksum 观 察 变 量, by( 分 组 变 量)
例: 研 究 不 同 饲 料 对 雌 鼠 体 重 增 加 的 关 系( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p218)。 表 中 用 x 表 示 雌 鼠 体 重 增 加( 克), 用 group=1 表 示 高 蛋 白 饲 料 组 以 及 用 group=2 表 示 低 蛋 白 饲 料 组。
x 134 146 104 119 124 161 107 83 113 129 group 1 1 1 1 1 1 1 1 1 1 x 97 123 70 118 101 85 107 132 94 group 1 1 2 2 2 2 2 2 2
无 效 假 设 Ho: 两 组 增 加 体 重 的 中 位 数 相 同。 ranksum x, by(group)
Test: Equality of medians (Two-Sample Wilcoxon Rank-Sum) ① Sum of Ranks: 49.5 (group == 2) Expected Sum: 70 ② ③ z-statistic -1.73 Prob > |z| 0.0832 ④ ① 为 第 二 组( 低 饲 料 组) 的 秩 的 和;② 若 无 效 假 设 成 立, 则 第 二 组 的 秩 的 和 期 望 值 为70;③ 秩 和 统 计 检 验 量 z;④ 对 于 无 效 假 设 Ho 对 应 的 p 值。 在 本 例 中, 虽 然 第 二 组 的 秩 和 为 49.5 而 期 望 值 估 计 为 70, 但 p 值 为 0.0832, 所 以 根 据 该 资 料 和 统 计 结 果 一 般 不 能 认 为 用 高 蛋 白 饲 料 喂 养 能 明 显 增 加 雌 鼠 的 体 重。
多 组 资 料 中 位 数 比 较( 完 全 随 机 化 设 计 资 料 的 检 验)
对 于 完 全 随 机 化 设 计 资 料 的 比 较, 若 各 组 资 料 不 全 服 从 正 态 分 布( 即: 至 少 有 一 组 的 资 料 均 不 服 从 正 态 分 布) 或 各 组 的 资 料 方 差 不 齐 性, 则 可 以 用 Kruskal and Wallis 方 法 进 行 检 验(Ho: 各 组 的 中 位 数 相 同)。STATA 命 令 为: kwallis 观察变量 , by(分组变量) 例:50 只 小 鼠 随 机 分 配 到 5 个 不 同 饲 料 组, 每 组 10 只 小 鼠。 在 喂 养 一 定 时 间 后, 测 定 鼠 肝 中 的 铁 的 含 量(mg/g) 如 表 所 示: 试 比 较 各 组 鼠 肝 中 铁 的 含 量 是 否 有 显 著 性 差 别( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p220)。 用 x 表 示 鼠 肝 中 铁 的 含 量 以 及 用 group=1,2,3,4,5 分 别 表 示 对 应 的 5 个 组。
x: 2.23 1.14 2.63 1 1.35 2.01 1.64 1.13 1.01 1.70 group: 1 1 1 1 1 1 1 1 1 1 x: 5.59 0.96 6.96 1.23 1.61 2.94 1.96 3.68 1.54 2.59 group: 2 2 2 2 2 2 2 2 2 2 x: 4.5 3.92 10.33 8.23 2.07 4.9 6.84 6.42 3.72 6 group: 3 3 3 3 3 3 3 3 3 3 x: 1.35 1.06 0.74 0.96 1.16 2.08 0.69 0.68 0.84 1.34 group: 4 4 4 4 4 4 4 4 4 4 x: 1.4 1.51 2.49 1.74 1.59 1.36 3 4.81 5.21 5.12 group: 5 5 5 5 5 5 5 5 5 5
kwallis x, by(group)
Test: Equality of populations (Kruskal-Wallis Test)
24
① group 1 2 3 4 5 chi-squared = probability = _Obs _RankSum 10 188.50 10 280.50 10 420.00 10 95.00 10 291.00 27.856 with 4 d.f. ② 0.0001 ③ 2① 为 各 组 的 秩 和 值;② 为 该 统 计 量 的c 检 验 值;③ 为 无 效 假 设 检 验 所 对 应 的 p 值。
本 例 结 果 表 明:5 组 的 中 位 数 有 显 著 的 差 异。 即:5 个 不 同 饲 料 组 的 小 鼠 肝 脏 中 铁 的 含 量 有 显 著 差 异, 说 明 小 鼠 肝 脏 中 铁 的 含 量 与 喂 养 的 饲 料 有 关。
第 六 章 卡 方 检 验
作者:赵耐青 授权刊登:医学统计之星
本 节STATA 命 令 摘 要
[by 分层变量名:] tab2 变量1 变量2 [, all chi2 exact cell column row ]
tabi #11 #12 [...] \\ [#21 #22 [...] [\\ ...] [, all chi2 exact cell column row]
· 列 联 表 分 析 STATA 命 令:
[by 分层变量:] tab2 变量1 变量2 [,all chi2 lichi2 exact cell column row]
上述命令中,变 量 1 为 行 计 数 变 量;变 量2 为 列 计 数 变 量;all 表 示 卡 方(c2 ) 检 验, 似 然 比(likelihood ratio) 检 验 以 及 一 些 统 计 描 述 指 标 和 检 验, 但 不 包 括 Fisher 精 确 检 验; exact 表 示 Fisher 精 确 检 验;chi2 表 示 c2 检 验;lichi2 表 示 likelihood ratio 检 验;cell 表 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 列 联 表 总 观 察 计 数 值 的 比 例;row 表 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 观 察 计 数 值 所 在 行 的 各 观 察 计 数 值 总 数 的 比 例; coloumn 表 示 输 出 的 列 联 表 中 显 示 每 个 观 察 计 数 值 占 该 观 察 计 数 值 所 在 的 列 各 观 察 计 数 值 总 数 的 比 例。 例: 某 地 调 查 肝 癌 病 人 与 健 康 人 饮 用“ 醋 冷 水”( 一 种 以 冷 水 和 醋 为 主 要 成 分 的 饮 料) 的 习 惯。 用 group=1 表 示 肝 癌 组 患 者 和group=2 表 示 健 康 人; 用 custom=1 表 示 经 常 饮 用 醋 冷 水;custom=2 表 示 偶 尔 饮 用 醋 冷 水 和custom=3 表 示 从 不 饮 用 醋 冷 水。 具 体 资 料 为:( 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p163)。
组 别 经 常 偶 尔 从不饮用 合计 肝 癌 组 26 44 28 98 健 康 组 28 49 17 94 合 计 54 93 45 192
25
显 然 这 是 一 个 病 例 对 照 研 究, 所 以 每 组 人 数 是 人 为 确 定 的, 因 此 只 需 计 算 各 组 \"经 常\",\" 偶 而\" 和 \"从 不 饮 用\" 占 本 组 的 频 数 以 及 检 验 患 肝 癌 是 否 与 饮 水 习 惯 有 关。
tab2 group custom, row chi2
-> tabulation of group by custom
| custom
group | 1 2 3 | Total
-----------+--------------------------------------------+----------
1 | ① 26 44 28 | 98 | ② 26.53 44.90 28.57 | 100.00 -----------+--------------------------------------------+---------- 2 | ③ 28 49 17 | 94 | ④ 29.79 52.13 18.09 | 100.00 -----------+--------------------------------------------+---------- Total | ⑤ 54 93 45 | 192 | ⑥ 28.12 48.44 23.44 | 100.00
Pearson chi2(2) = 2.9497 Pr = 0.229
① 该 行 表 示 第 一 组( 肝 癌 组) 的 3 个 观 察 数;② 该 行 表 示 第 一 组 的 各 个 观 察 数 的 占 第 一 组 观 察 总 数 的 百 分 比;③ 该 行 表 示 第 二 组( 健 康 组) 的 3 个 观 察 数;④ 该 行 表 示 第 二 组 的 各 个 观 察 数 的 占 第 二 组 观 察 总 数 的 百 分 比;⑤ 该 行 表 示 关 于 饮 用 醋 冷 水 习 惯 的 三 个 分 类:“ 经 常”, “偶 尔” 和“ 从 不” 的 合 计 数;⑥ 该 行 表 示 上 述 三 个 合 计 数 分 别 占 总 样 本 数 的 百 分 比。
从 上 述 结 果 可 知: 卡 方 值 为2.9497 以 及 自 由 度 为 2,p 为 0.229, 所 以 根 据 当 前 资 料 和 结 果 显 示: 患 肝 癌 病 与 是 否 饮 用 醋 冷 水 无 关。
· 列 联 表 分 析 也 可 以 用 立 即 命 令 执 行:
tabi #11 #12 [...] \\ [#21 #22 [...] [\\ ...] [, all chi2 exact cell column row]
#11 表 示 列 联 表 中 第 一 行 第 一 列 的 观 察 数;#12 表 示 列 联 表 中 第 一 行 第 二 列 的 观 察 数;\\ 表 示 换 一 行;#21 表 示 列 联 表 中 第 二 行 第 一 列 的 观 察 数, 其 它 以 此 类 推。 子 命 令: all chi2 exact cell column row 与 上 述 命 令 完 全 相 同。 以 上 例 的 资 料 为
例: 相 应 的STATA 命 令 为:
tabi 26 44 28 \\ 28 49 17, chi2 lichi2 | col
row | 1 2 3 | Total
26
----------- +----------------------------------+---------- 1 | 26 44 28 | 98 | 26.53 44.90 28.57 | 100.00
-----------+----------------------------------+---------- 2 | 28 49 17 | 94 | 29.79 52.13 18.09 | 100.00
-----------+----------------------------------+---------- Total | 54 93 45 | 192 | 28.12 48.44 23.44 | 100.00 Pearson chi2(2) = 2.9497 Pr = 0.229
likelihood-ratio chi2(2) = 2.9760 Pr = 0.226
两 种 方 法 结 果 对 应 相 同。 另 外 数 学 上 可 以 证 明: 当 大 样 本 是,卡 方 检 验(Pearson chi2 test) 与 似 然 比 检 验(likelihood ratio chi2 test) 趋 向 一 致。
· Fisher 精 确 检 验 例: 用 新 旧 两 种 药 治 疗 某 种 疾 病( 资 料 如 下 表 所 示), 试 问: 两 药 对 该 病 的 治 愈 率 是 否 不 同?( 资 料 摘 自 医 学 卫 生 统 计, 金 丕 焕 主 编,p165)
组 别 旧 药 新 药 合 计 未 治 愈 4(2.2) 0(1.8) 4 治 愈 2(3.8) 5(3.2) 7 合 计 6 5 11
表 中 括 号 中 的 数 为 理 论 数 ( 即:两 种 药 的 疗 效 无 差 异 的 无 效 假 设Ho 成 立 时 的 期 望 频 数)。
由 于 理 论 数 均 小 于 5, 故 必 须 用 Fisher 精 确 检 验 法。 相 应 的STATA 命 令 为:
tabi 4 2\\0 5,exact col row
| col
row | 1 2 | Total ------------+--------------------------+---------- 1 | 4 2 | 6 | 66.67 33.33 | 100.00 | 100.00 28.57 | 54.55
-----------+---------------------------+---------- 2 | 0 5 | 5 | 0.00 100.00 | 100.00 | 0.00 71.43 | 45.45
-----------+----------------------------+---------- Total | 4 7 | 11 | 36.36 63.64 | 100.00 | 100.00 100.00 | 100.00
① Fisher's exact = 0.061
27
② 1-sided Fisher's exact = 0.045
① 为 双 侧 Fisher 检 验;② 单 侧 Fisher 检 验
在 Fisher 精 确 检 验 中, 假 定 每 列 和 每 行 的 合 计 数 都 是 常 数 情 况 下, 计 算 相 应 概 率。 在 本 例 中, 单 侧 Fisher 检 验 要 计 算 下 表 的 概 率:
4 0 4
2 5 7
6 5 11
双 侧 Fisher 检 验 是 考 虑 可 能 新 药 优 于 旧 药, 也 可 能 旧 药 优 于 新 药 的 情 况。 以 新 药 治 愈 人 数 为 例: 观 察 数- 理 论 数=
5-3.2=1.8,因 此 要 考 虑 观 察 数 大 于 理 论 数 的 差 是 考 虑 抽 样 误 差 引 起 的, 所 以 不 仅 要 计 算 所 有 观 察 数- 理 论 数(3.2) 大 于1.8 的 p 值 [1] , 还 要 计 算 所 有 理 论 数(3.2)- 观 察 数 大 于 1.8 的 p 值。即: 计 算 所 有 | 理 论 数- 观 察 数 | >1.8 的 p 值 的 和, 因 此 在 每 列 和 每 行 的 合 计 数 都 是 常 数 情 况 的 假 定 下, 还 有 一 种 情 况 满 足 理 论 数(3.2)- 观 察 数 大 于 1.8 :
0 6 6 4 1 5 4 7 11
所 以 本 例 Fisher 双 侧 检 验 的 p 值 为 0.04545+0.01515»0.061。
· 由 于 Fisher 检 验 是 在 每 列 和 每 行 的 合 计 数 都 是 常 数 的假 定 下 的 精 确 检 验, 而 对 于 一 般 的 研 究: 如 病 例 对 照( 仅 病 例 组 和 对 照 组 的 人 数 是 常 数, 即:仅 每 行 的 合 计 数 是 常 数), 横 断 面 抽 样 调 查( 样 本 总 数 是 常 数), 所 以 对 于 不 满 足 每 列 和 每 行 的 合 计 数 都 是 常 数 假 定 的 资 料 而 言, Fisher 检 验 也 是 一 种 近 似 检 验。
--------------------------------------------------------------------------------
[1] 本例中只有上述的这张表的情况,所以单侧 Fisher 检验仅计算该表的 p 值:观察数-理论数>1.8的 p值, 类似 t 检验:单侧检验的 p 值为 t分布曲线下大于 t 样本计算值的面积,双侧检验的 p 值为 t 分布曲线下大于 t 样 本计数值的面积和小于 -t 样本计数值的面积之和,而 Fisher 双侧检验:计算 |
28
观察剩-理论数|>1.8 的 p 值的和。 即:在本例中,观察数-理论数=1.8相应 t 检验中的 t 样本计算值。
第 七 章 相 关 分 析
本 节STATA 命 令 摘 要
correlate 变量名1 变量名2 … 变量名m spearman 变量1 变量2 线 性 关 系 的 相 关 分 析 若 计 量 资 料 变 量1,…, 变 量m 服 从 正 态 分 布, 对 于 它 们 之 间 是 否 存 在 线 性 相 关 关 系 可 以 通 过 相 关 分 析 方 法, 相 应 的 STATA 命 令 为: pwcorr 变量名1 变量名2 … 变量名m, sig 例: 上 海 医 科 大 学 儿 科 医 院 研 究 某 种 代 乳 粉 的 营 养 价 值 时, 用 大 白 鼠 作 试 验, 得 大 白 鼠 进 食 量( 克) 和 增 加 体 重( 克) 之 间 的 关 系 的 原 始 数 据 如 下 表, 用 x 表 示 大 白 鼠 进 食 量 和 用 y 表 示 大 白 鼠 增 加 体 重,试 作 相 关 分 析( 资 料 摘 自 医 学 统 计 分 析, 金 丕 焕 主 编,p101)。
进食量(克) 820 780 158 720 130 867 180 690 134 787 167 934 186 679 145 639 120 820 158 增加体重(克) 165 作 关 于 x 和 y 相 关 分 析 pwcorr x y,sig
| x y ---------------+----------------------------- x | 1.0000 | |
y | ① 0.9395 1.0000 | ② 0.0001 |
① 为 x 和 y 的 相 关 系 数 r。 ② 为 相 关 系 数 显 著 性 检 验(Ho:r=0) 所 对 应 的 p 值。 因 此 根 据 本 例 资 料 和 上 述 结 果 可 以 认 为 大 白 鼠 进 食 量 与 大 白 鼠 体 重 增 加 呈 线 性 正 相 关( 若 数 据 x 和 y 服 从 正 态 分 布)。 秩 和 相 关 分 析
由 于 以 上 的 相 关 分 析 中, 要 求 数 据 x 和 y 均 服 从 正 态 分 布,但 是 对 于 那 些 不 能 满 足 正 态 分 布 的 数 据 之 间 的 相 关 分 析 应 采 用 非 参 数 相 关 分 析, 通 常 采 用 秩 和 相 关 分 析, 即: Spearman 相 关 分 析 方 法。STATA 命 令 为: spearman 变 量1 变 量2
以 上 例 资 料 为 例, 作 秩 和 相 关 分 析: spearman x y Number of obs = 10 Spearman's rho = 0.8994 ① Test of Ho: x and y independent ② ③ Pr > |t| = 0.0004 ① 为Spearman 相 关 系 数;② 为 无 效 假 设Ho:x 与 y 独 立;③ 无 效 假 设 的Spearman 相 关 显 著 性 检 验 所 对 应 的 p 值。 由 上 述 结 果 表 明:Spearman 相 关 系 数 为 0.8994, 相 应 的 p 值 为 0.0004, 因 此 由 本 例 资 料 和 检 验 结 果 可 以 认 为 大 白 鼠 进 食 量 与 大 白 鼠 体 重 增 加 呈 正 相 关。
29
第 八 章 单 因 素 生 存 分 析
本 节STATA 命 令 摘 要
logrank 生存时间变量 结果变量[,by(分组变量)] 单 因 素 生 存 分 析 在 医 学 研 究 中, 除 了 计 量 资 料 和 计 数 资 料 外, 还 经 常 遇 到 生 存 分 析 的 资 料, 这 种 资 料 不 仅 描 述 所 观 察 对 象 是 否 有 结 果( 死 亡 或 没 死 亡 以 及 失 访) 而 且 还 记 录 了 从 观 察 开 始 起 至 观 察 结 束 的 时 间 长 度。 这 种 资 料 容 许 失 访 资 料 参 加 分 析。 因 此 这 类 资 料 至 少 需 要 用 两 个 变 量: 观 察 时 间 的 长 短 以 及 结 束 观 察 时 的 结 果 变 量( 死 亡 或 未 死 亡), 失 访 资 料 记 录 了 从 开 始 观 察 至 到 失 访 时 的 观 察 时 间 长 短 以 及 失 访 结 果 作 为 未 死 亡 的 情 况( 因 为 在 失 访 前, 还 未 死 亡)。 这 类 资 料 的 两 组 的 单 因 素 生 存 分 析 应 采 用 时 序 检 验 的 方 法, 一 般 采 用 log rank 检 验 方 法( 无 效 假 设:两 组 死 亡 人 数 的 期 望 值 相 同)。 STATA 命 令 为:
logrank 生存时间变量 结果变量[,by(分组变量)] 例:25 例 某 种 癌 症 患 者 在 不 同 日 期 经 随 机 化 分 配 到 A、B 两 治 疗 组, 并 继 续 进 行 随 访 至 1974 年5 月31 日 结 束, 资 料 如 下 表 所 示, 并 用 group=0 表 示 A 组 和 group=1 表 示 B 组;t 表 示 参 加 试 验 的日 数( 观 察 时 间 的 长 短);outcome=0 表 示 未 死 亡 或 失 访 以 及 outcome=1 表 示 患 者 死 亡, 并 存 入 ex7.dta 文 件。试 比 较 两 组 的 疗 效。 group 0 0 0 0 0 0 0 t 8 852 52 220 63 8 1976 outcome 1 0 1 1 1 1 0 group 0 0 0 0 0 1 1 t 1296 1460 63 1328 365 180 632 outcome 0 0 1 0 0 1 1 group 1 1 1 1 1 1 1 t 2240 195 76 70 13 1990 18 outcome 0 1 1 1 1 0 1 group 1 1 1 1 t 700 210 1296 23 outcome 1 1 1 1 logrank t outcome, by(group) ① ② Group Events Predicted ------------------------------------------- 0 6 8.34 1 11 8.66 ------------------------------------------- ③ chi2(1) = 1.29 ④ Pr>chi2 = 0.2567 ① 为 死 亡 的 人 数;② 死 亡 人 数 期 望 值 的 样 本 估 计 值; ③logrank 统 计 量 的 卡 方 值;④ 无 效 假 设Ho 的 logrank 检 验 所 对 应 的 p 值。 由 上 述 统 计 结 果 表 明: 两 组 死 亡 人 数 期 望 值 无 显 著 性 差 异, 因 此 根 据 本 例 的 资 料 和 检 验 结 果 表 明: 可 以 认 为 两 组 疗 效 无 显 著 性 差 异。
30
第 九 章 多因素方差分析命令与输出结果说明
本 节STATA 命 令 摘 要: anova 观 察 变 量 分 组 变 量1 分 组 变 量2… 分 组 变 量m tabulate 分 组 变 量1 分 组 变 量2,summarize( 观 察 变 量) 在 anova 命 令 中 分 组 变 量 可 以 是 其 它 分 组 变 量 的 乘 积 表 达 式, 如: 分 组 变 量1* 分 组 变 量2。
例: 治 疗 缺 铁 性 贫 血 病 人 12 例, 分 为 4 组,采 用 4 种 不 同 治 疗 方 法, 一 个 月
3
后 观 察 红 细 胞 增 加 数 (百 万/mm)。 第 一 组 为 一 般 疗 法( 称 一 般 疗 法 组);第 二 组 为 一 般 疗 法+A 药( 称 +A 药 组);第 三 组 为 一 般 疗 法+B 药( 称 +B 药 组); 第 四 组 为 一 般 疗 法+A 药+B 药( 称+A+B 药 组)。 观 察 指 标 为 红 细 胞 增 加 数( 用 y 表 示)。 用 X1=2 表 示 加 用 A 药 以 及 用 X1=1 表 示 未 加 用 A 药; 用 X2=2 表 示 加 用 B 药 以 及 用 X2=1 表 示 未 加 用 B 药;研 究 问 题 为“ 哪 一 种 治 疗 方 案 疗 效 最 佳?\"( 资 料 如 下 表 所 示, 摘 自 医 学 统 计 方 法, 金 丕 焕 主 编,p71)。 一 般 疗 法 0.8 0.9 0.7 一 般 疗 法+A 药 一 般 疗 法+B 药 1.3 1.2 1.1 0.9 1.1 1.0 一 般 疗 法+A 药+B 药 2.1 2.2 2 首 先 计 算 各 组 的 均 数 和 相 应 的 标 准 差: tabulate x1 x2 ,summarize(y)
Means, Standard Deviations and Frequencies of y | x2 x1 | 1 2 Total -----------+-----------------------------------+---------- 1 | ① .79999999 1 | .9 | ② .09999999 .10000002 | .14142136 | ③ 3 3 | 6 -----------+-----------------------------------+---------- 2 | 1.2 2.1 | 1.65 | .09999996 .10000002 | .50099899 | 3 3 | 6 -----------+-----------------------------------+---------- Total | 1 1.55 | 1.275 | .23664319 .60909769 | .5259191 | 6 6 | 12 ① 为 该 组 的 红 细 胞 增 加 数 的 平 均 数;② 为 该 组 的 红 细 胞 增 加 数 的 标 准 差;③ 为 该 组 的 样 本 数; 其 它 各 组 的 结 果 也 对 应 相 同。
以 上 结 果 显 示: 仅 加 A 药, 红 细 胞 增 加 数 平 均 值 比 一 般 疗 法 多 0.4(百万/mm3); 仅 加 B 药, 红 细 胞 增 加 数 平 均 值 比 一 般 疗 法 多 0.2(百万/mm3);加 A 药 且 加 B 药, 红 细 胞 增 加 数 平 均 值 比 一 般 疗 法 多 1.3(百万/mm3), 超 过 了 单 独 加 A 药与 一 般 疗 法 的 红 细 胞 增 加 数 均 数 差 值(0.4百万/mm3) 与 单 独 加 B 药与 一 般 疗 法 的 红 细 胞 增 加 数 均 数 差 值(0.2百万/mm3)之 和(0.6百万/mm3), 因 此 需 要 用 二 因 素 方 差 分 析 的 方 法 检 验 这 些 不 同 的 治 疗 方 法 所 对 应 不 同 的 红 细 胞 增 加 数 是 否 有 显 著 性 差 异?
anova y x1 x2 x1*x2
ber of obs = 12 R-squared = 0.9737
31
t MSE = .10 Adj R-squared = 0.9638 ② ③ ④ ⑤ rce | Partial SS df MS F Prob > F --------+-------------------------------------------------------------------- Model | 2.96249994 3 .98749998 98.75 0.0000 x1 1.6875 1 1.6875 168.75 0.0000 x2 .907499974 1 .907499974 90.75 0.0000 x1*x2 | .367499967 1 .367499967 36.75 0.0003 Residual | .080000002 8 .01 --------+---------------------------------------------------- al | 3.04249994 11 .276590904 ① 离 均 差 平 方 和;② 自 由 度;③ 均 方 差;④F 统 计 量; ⑤F 统 计 量 对 应 的 p 值;⑥ 加 A 药;⑦ 加 B 药;⑧ 加 A 药 且 加 B 药( 交 互 项); ⑨误 差 项; 所 有 因 素 的 变 异 度 之 和 以 及 对 应 的 统 计 量 和 检 验 值。
由 上 述 结 果 显 示 交 互 项 有 显 著 性(p=0.0003), 说 明: 加 A 药 且 加 B 药 具 有 协 同 作 用, 即: 其 疗 效 显 著 地 超 过 了 分 别 加 A 药 和 加 B 药 疗 效 之 和。
回第八章
回教程首页
到第十章
第十章 线性回归和逐步回归命令和输出结果说明 作者:赵耐青 授权刊登:医学统计之星 本 节STATA 命 令 摘 要:
regress 因变量 变 量1 变 量2… 变 量m,beta stepwise 因变量 变 量1 变 量2… 变 量m,ba forw st fe(#) fs(#) test 表 达 式 predict 新变量 predict 新 变 量,resi predict 新 变 量,stdp predict 新 变 量,stdr regress 命 令 表 示 作 线 性 回 归, 其 子 命 令 beta 表 示 得 到 的 回 归 系 数 为 标 化 的 回 归 系 数( 即: 无 量 纲)。stepwise 命 令 表 示 作 逐 步 线 性 回 归, 其 子 命 令:ba 表 示 后 退 法 筛 选 自 变 量;form 表 示 向 前 法 筛 选 自 变 量;st 表 示 前 进 后 退 法 筛 选 变 量;fe(#) 表 示 在 筛 选 变 量 中, 变 量 选 入 模 型 的 F 统 计 量 的 临 界 值(#), 在STATA 中, 其 缺 省 值 为 0.5, 最 大 设 置 值 不 要 大 于 4;fs(#) 表 示 在 筛 选 变 量 中, 变 量 从 模 型 中 剔 除 的 F 统 计 量 的 临 界 值(#), 在STATA 中, 其 缺 省 值 为 0.1,最 大 设 置 值 不 要 大 于 4。test 用 于 检 验 回 归 系 数 的 表 达 式, 如: 某 两 个 回 归 系 数 是 否 相 等。 predict 新 变 量 是 根 据 线 性 回 归 方 程 计 算 每 个 自 变 量 记 录 所 对 应 的 y 值( 一 些 文 献 上 称 预 测 值 和 期 望 估 计 值)。predict 新 变 量,resi 计 算 残 差 值。predict 新 变 量,stdp
是 计 算 因 变 量 y 的 总 体 均 数 估 计 的 标 准 误( 不 同 的 自 变 量 值, 该 标 准 误 也 不 同)。predict 新 变 量,stdr 是 计 算 因 变 量 y 的 预 测 值 的 标 准 误。
32
例: 对 15 名 对 象 的 血 浆 粘 度(Y) 及 其 3 个 血 浆 成 分: 白 蛋 白(x1), 球 蛋 白(x2) 和 纤 维 蛋 白 原(x3) 进 行 测 定, 试 建 立 多 元 线 性 回 归 方 程。 其 数 据 如 下 表( 数 据 摘 自 医 用 多 元 统 计 分 析, 曹 素 华 主 编):
编 号 y x1 x2 x3 1 1.73 4500 1500 1000 2 1.47 4200 1400 360 3 1.50 2700 1900 280 4 1.47 5200 1000 156 5 1.46 3700 2300 207 6 1.56 4200 1770 355 7 1.49 1700 2100 578 8 1.40 4650 950 231 9 1.46 5900 1550 416 10 1.38 3840 1410 391 11 1.66 3800 2650 515 12 1.57 5300 1900 435 13 1.90 4090 1820 357 14 1.20 3500 1700 300 15 2.20 3000 1790 820
regress y x1 x2 x3
② ③ SS df MS Number 15 ------------------------- ④ F( 3, 11) = 2.39 72294 3 .104857431 ⑦ Prob > F = 0.1239 81761032 11 .043796457 ⑧ R-squared = 0.3950 -------------------------- ⑨ Adj R-squared = 0.2300 796333326 14 .056880952 Root MSE = .20928 ---------------------------------------------------------------------------- Coef. Std. Err. t P>|t| [95% Conf. ---------------------------------------------------------------------------- 57e-06 .0000596 0.161 0.875 -.0001217 .0001408 000724 .0001414 0.512 0.619 -.0002389 .0003837 006278 .0002514 2.497 0.030 .0000745 .0011811 32732 .4274603 2.650 0.023 .1918985 2.073566 ------------------------------------------------------------------------------ ① 离 均 差 平 方 和;② 自 由 度;③ 均 方 差; ④ 模 型 回 归 系 数 全 为 0 的 无 效 假 设 检 验 对 应 的 F 值;⑦ 为 F 检 验 相 应 的 p 值; ⑤ 为 回 归 项: 对 应 为 回 归 平 方 和 和 回 归 均 方 差;⑥ 残 差 项, 对 应 为 残 差 平 方 和、 残 差 自 由 度 和 残 差 均 方 和;⑧ 为 决 定 系 数;⑨ 为 调 整 自 由 度 后 的 决 定 系 数; 为 残 差 均 方 和 的 根 号; 回 归 系 数; 回 归 系 数 的 标 准 误; 回 归 系 数 检 验 的 t 值; 回 归 系 数 检 验 相 应 的 p 值; 回 归 系 数 的 95% 可 信 限。
33
线 性 回 归 模 型 假 定 残 差 呈 正 态 分 布 其 齐 性, 独 立 于 所 有 回 归 自 变 量, 因 此 应 对 残 差 作 正 态 性 检 验 和 残 差 分 析, 由 于 这 部 分 内 容 已 超 出 了 本 教 材 的 范 围, 所 以 不 在 此 处 详 细 介 绍。 以 本 例 数 据 介 绍 逐 步 线 性 回 归 分 析, 设 筛 选 变 量 进 入 模 型 的 F 值 等 于 变 量 从 模 型 中 剔 除 的 F 值, 并 均 为 1.5, 其 输 出 内 容 对 应 相 同:
stepwise y x1 x2 x3, fe(1.5) fs(1.5)
F= 0.02577 ① F= 0.26297 SS df MS Number 15 ------------------------------------- F( 1, 13) = 7.98 2861381 1 .302861381 Prob > F = 0.0143 .493471945 13 .03795938 R-squared = 0.3803 ------------------------------------- Adj R-squared = 0.3327 .796333326 14 .056880952 Root MSE = .19483 -------------------------------------------------------------------------------- Coef. Std. Err. t P>|t| [95% Conf. -------------------------------------------------------------------------------- .0006453 .0002284 2.825 0.014 .0001517 .0011388 .287974 .1096994 11.741 0.000 1.050982 1.524965 --------------------------------------------------------------------------------- ① 为 在 筛 选 变 量 中 剔 除 x1 的 F 检 验 值。
predict yhat 计 算 因 变 量 预 测 值 yhat predict e, resi 计 算 残 差 e
predict ymuse, stdp 计 算 因 变 量 总 体 估 计 的 标 准 误 predict yhatse, stdr 计 算 因 变 量 预 测 值 的 标 准 误
第十一章 Logistic回归分析命令与输出结果说明 logistic 因变量 变量1 变量2… 变量m lfit clogit 因变量 变量1 变量2… 变量m,strata(配对编号变量) [or] 非 条 件 logistic 回 归 命 令 为 logistic,logistic 回 归 模 型 要 求 因 变 量 为 0-1 变 量。 即: 要 求 结 果 为 两 种 情 况: 发 生( 因 变 量=1) 或 未 发 生( 因 变 量=0)。 结 果 为 发 生 的 模 型 表 达 式 为:
以 及
其 中 参 数 , 由 上 式 可 得:
34
P(Y=0)=1-P(Y=1)
所 以 对 因 变 量 而 言,logistic 模 型 本 质 上 是 一 个 带 参 数 的 二 项 分 布 的 模 型, x1,x2,…,xm 为 协 变 量, 用 这 些 协 变 量 刻 划 研 究 问 题 中 的 各 种 情 况, 再 由 这 些 协 变 量 构 成 的 线 性 表 达 式 作 为 模 型 的 参 数 对 应 这 些 相 应 的 发 生 概 率 P(Y=1)。lfit 是 模 型 适 定 性 诊 断 命 令;clogit 是 条 件 logistic 回 归 命 令。 例: 为 了 分 析 研 究 一 组 病 患 者, 经 治 疗 后 的 病 情 恢 复 情 况。 设 变 量 Y 为 恢 复 状 况 (Y=0 表 示 未 恢 复,Y=1 表 示 恢 复), 变 量 x1 为 病 情 严 重 程 度 (x1=0 表 示 不 严 重,x1=1 表 示 严 重), 变 量 x2 为 年 龄( 岁), 变 量 x3 为 疗 法 (x3=0 表 示 新 疗 法,x3=1 表 示 传 统 疗 法)。 现 测 得 40 名 病 人 有 关 的 数 据 资 料 如 下, 试 作 非 条 件 logistic 回 归 分 析( 资 料 摘 自 医 用 多 元 统 计 分 析 教 材, 曹 素 华 主 编)。
编 号 Y x1 x2 x3 编 号 Y x1 x2 x3 1 1 0 20 1 21 0 0 34 1 2 1 0 23 1 22 0 0 30 1 3 1 0 32 1 23 0 0 38 1 4 1 0 38 1 24 0 0 37 1 5 1 1 25 1 25 0 1 24 1 6 1 0 20 0 26 0 1 25 1 7 1 0 24 0 27 0 1 29 1 8 1 0 28 0 28 0 1 32 1 9 1 0 30 0 29 0 1 34 1 10 1 0 32 0 30 0 1 37 1 11 1 0 38 0 31 0 1 40 1 12 1 1 26 0 32 0 1 40 1 13 1 1 29 0 33 0 0 33 0 14 1 1 34 0 34 0 0 36 0 15 1 1 33 0 35 0 1 24 0 16 1 1 38 0 36 0 1 34 0 17 1 1 40 0 37 0 1 32 0 18 0 0 22 1 38 0 1 36 0 19 0 0 26 1 39 0 1 38 0 20 0 0 29 1 40 0 0 39 0
在 本 例 中, 结 果 本 例 虽 然 不 是 死 亡 或 生 存 变 量, 当 与 此 对 应:Y=1 恢 复 对 应 死 亡;Y=0 未 恢 复 对 应 生 存( 即: 结 果 为 没 有 发 生 变 化)。 logistic y x1 x2 x3 Number of = 9.53 ② Prob > chi2 = 2.509701 ④ Pseudo R2 = 0.1747 ------------------------------------------------------------------------- ⑥ ⑦ ⑧ ⑨ Ratio Std. Err. z P>|z| [95% Conf. Interval]
35
------------------------------------------------------------------------ 24 .3448279 -1.036 0.300 .1058135 1.999245 32 .0608538 -1.577 0.115 .7870375 1.026281 47 .1135345 -2.435 0.015 .0292417 .682538 ------------------------------------------------------------------------- ① 为 模 型 无 效 假 设( 即:所 有 协 变 量 的 比 数 比 为 1) 所 对 应 的 似 然 比 检 验( 其 自 由 度 为 协 变 量 个 数 的卡 方); ② 模 型 无 效 假 设 检 验 对 应 的 p 值;③ 对 数 似 然 比;④ 伪 决 定 系 数;⑤ 比 数 比;⑥ 比 数 比 的 标 准 误;⑦ 单 个 比 数 比 检 验 的Z 统 计 量;⑧ 单 个 比 数 比 检 验 的 p 值;⑨ 比 数 比 的 95% 可 信 限。 本 例 结 果 表 明: 通 过 平 衡 病 情 严 重 程 度 x1 和 年 龄 x2 的 混 杂 因 素 影 响, 传 统 疗 法(x3=1) 对 于 恢 复 和 未 恢 复 的 比 数(Odds) 显 著 地 小 于 新 疗 法(x3=0) 的 恢 复 和 未 恢 复 的 比 数(Odds) ( 比 数 比 OR=0.14127,p=0.015)。
条 件 logistic 回 归 模 型( 即: 配 对 logistic 模 型) STATA 命 令:
clogit 因 变 量 变量1 变量2… 变量m,strata( 配对编号变量) [or] 因 变 量 为 二 值 变 量 Y (一 般 为 发 病 Y=1 和 不 发 病 Y=0, 也 可 以 其 它 类 似 情 况 与 其 对 应),变量1 变量2… 变量m 为 协 变 量。 在 配 对 1:1 的 条 件 下, 发 病 的 概 率 为:
其 中
为 患 者 的 协 变 量,
为 对 照 的 协 变 量,
为 模 型 参 数,即:要 有 数 据 对 模 型 拟 合 才 能 得 到 的 这 些 参 数 的
估 计 值。
例: 为 了 研 究 胃 癌 的 危 险 因 素, 某 医 学 院 用 103 对 1:1 配 对 的 病 例 对 照 资 料, 对 胃 癌 发 病 概 率 和 七 个 因 素 的 关 系 进 行 条 件 logistic 回 归 分 析。 这 里 仅 选 其 中 10 对 三 个 因 素 资 料( 见 表), 试 作 胃 癌 发 病 概 率 和 这 三 个 因 素 的 条 件 logistic 回 归 分 析。 变 量 定 义(data coding) 变量名 x1 x2 x3 id Y 因素 蛋白蛋类摄入量 不良饮食习惯 精神因素 配 对 编 号 是 否 患 胃 癌 取值 0,1,2,3 0,1,2,3 0,1,2,3 1---10 0: 对 照;1: 胃 癌 患 者 x1 0 2 1 0 1 0
x2 2 0 1 0 1 0
x3 2 0 1 0 2 0
数 据:( 资 料 摘 自 医 用 多 元 统 计 分 析, 曹 素 华 主 编)
id y x1 x2 x3 id y 1 1 1 3 0 6 1 1 0 1 0 1 6 0 2 1 0 3 1 7 1 2 0 1 3 0 7 0 3 1 0 1 2 8 1 3 0 0 2 0 8 0
36
4 1 4 0 5 1 5 0
clogit y x1 x2 x3, 1 2 1 0 1 1 1 2 strata(id) 0 0 1 1 9 9 10 10 1 0 1 0 3 2 2 0 3 2 2 0 2 0 2 0
istic regression Number of obs = 20 (3) = 9.98 ② Prob > chi2 = 0.0188 = -1.9430843 ④ Pseudo R2 = 0.7197 ⑥ ⑦ ⑧ ⑨ ----------------------------------------------------------------------- Coef. Std. Err. z P>|z| [95% Conf. ----------------------------------------------------------------------- 90416 2.954774 -0.162 0.871 -6.270292 5.312209 1.23179 .8347486 1.476 0.140 -.4042871 2.867868 289851 1.76803 1.295 0.195 -1.175423 5.755125 ------------------------------------------------------------------------ ① 为 模 型 无 效 假 设( 即: 所 有 协 变 量 的 回 归 系 数 为 0) 所 对 应 的 似 然 比 检 验 ( 自 由 度 为 协 变 量 个 数 的卡 方); ② 模 型 无 效 假 设 检 验 对 应 的 p 值;③ 对 数 似 然 比;④ 伪 决 定 系 数;⑤ 回 归 系 数;⑥ 回 归 系 数 的 标 准 误;⑦ 单 个 回 归 系 数 检 验 的Z 统 计 量;⑧ 单 个 回 归 系 数 检 验 的 p 值;⑨ 回 归 系 数 的 95% 可 信 限。 clogit y x1 x2 x3,strata(id) or ession Number of obs = 20 = 9.98 ② Prob > chi2 = 0.0188 43 ④ Pseudo R2 = 0.7197 ---------------------------------------------------------------- ⑥ ⑦ ⑧ ⑨ s Ratio Std. Err. z P>|z| [95% Conf. Interval] ---------------------------------------------------------------- 3767 1.830118 -0.162 0.871 .0018917 202.7977 6 2.860984 1.476 0.140 .6674525 17.59945 67 17.45658 1.295 0.195 .3086883 315.8052 ---------------------------------------------------------------- ① 为 模 型 无 效 假 设( 即:所 有 协 变 量 的 比 数 比 OR 均 为 1) 所 对 应 的 似 然 比 检 验 量( 其 自 由 度 为 协 变 量 个 数 的卡 方); ② 模 型 无 效 假 设 检 验 对 应 的 p 值;③ 对 数 似 然 比;④ 伪 决 定 系 数;⑤ 协 变 量 所 对 应 的 OR;⑥ 相 应 的 OR 标 准 误;⑦ 单 个 OR=1 检 验 的 Z 统 计 量;⑧ 单 个 OR=1 检 验 的 p 值;⑨ OR 的 95% 可 信 限。 条 件 logistic 模 型 回 归 的 参 数 意 义 与 非 条 件 logistic 模 型 回 归 的 参 数 对 应 相 同, 所 以 条 件 logistic 模 型 的 回 归 结 果 的 解 释 和 讨 论 可 参 照 非 条 件 logistic 模 型 的 方 法 进 行。由 于 本 例 样 本 太 小, 因 此 似 然 比 模 型 检 验 和 单 个 参 数 检 验 的 误 差 太 大, 难 以 对 其 结 果 加 以 评 述。 给 出 本 例 的 主 要 目 的 是 要 告 诉 读 者: 配 对 logistic 模 型 的 数 据 形 式 和 结 构, 输 出 结 果 的 各 项 指 标 的 统 计 意 义。
37
配 对 logistic 模 型 适 用 于 病 例 对 照 研 究 和 其 它 配 对 研 究。 配 对 比 例 可 以 是 1:1, 也 可 以 是 r:1 或 1:r。 对 于 每 对 资 料 对 应 的 模 型 为:
第十二章 Cox回归分析命令与输出结果说明
cox 生存时间变量 变量1 变量2… 变量m,dead( 结 果 变 量) [hr]
生 存 时 间 变 量 是 指 从 随 访 或 进 入 研 究 开 始 至 死 亡 或 失 访 或 研 究 结 束 等 一 切 非 死 亡 的 终 止 观 察 的 时 间 段; 结 果 变 量 为 0-1 变 量: 死 亡 记 为1, 失 访 等 非 死 亡 终 止 为 0;hr 设 置 为 得 到 各 变 量 的 风 险 比(hazard ratio) 估 计 值。
例: 为 研 究 某 种 药 物 是 否 会 改 进 急 性 白 血 病 患 者 的 预 后( 用 y=1 表 示 因 复 发 而 结 束 该 对 象 随 访;y=0 表 示 结 束 该 对 象 随 访 时 包 括 失 访 和 其 它 原 因 而 失 去 联 系, 患 者 仍 处 缓 解 期)、 延 长 其 缓 解 时 间, 将 确 证 病 人 给 予 随 机 分 组: 一 组 为 用 药 组( 传 统 治 疗 加 某 药,group=1 表 示), 另 一 组 作 对 照 组( 传 统 治 疗, 用 group=0 表 示)。 治 疗 前 测 得 白 血 球 计 数 为(wbc), 经 一 定 的 时 间 随 访, 白 血 病 患 者 的 缓 解 时 间 如 下 表, 试 问: 哪 一 种 治 疗 方 法 可 以 使 白 血 病 患 者 的 缓 解 期(t, 单 位 为 周) 更 长 一 些( 摘 自 医 学 多 元 统 计 分 析 教 材, 曹 素 华 主 编)?
用 药 组(group=1) 对 照 组(group=0) y 0 1 1 1 1 0 0 1 0 1 1 t 6 6 6 6 7 9 10 10 11 13 16 wbc y t 1600 0 17 205 0 19 11500 0 20 1900 1 22 2700 1 23 630 0 25 500 0 32 910 0 32 400 0 34 760 0 35 3990 wbc 145 114 103 210 370 60 160 340 30 28 y 1 1 1 1 1 1 1 1 1 1 1 t 1 1 2 2 3 4 4 5 5 8 8 wbc 630 100000 81300 30200 10240 22910 265 3090 9330 9310 1122 y 1 1 1 1 1 1 1 1 1 1 t wbc 8 210 8 1820 11 3090 11 132 12 31 12 1150 15 200 17 890 22 540 23 93
为 了 避 免 受 过 大 值 的 影 响, 实 际 拟 合 模 型 中,wbc 数 据 取 对 数, 记 为 wbc0。 即:
gen wbc0=log(wbc)
cox t wbc0 group, dead(y)
Cox regression Number of obs = 42 ① chi2(2) = 42.25
③ ② Prob > chi2 = 0.0000 Log Likelihood = -72.857682 ④ Pseudo R2 = 0.2248
------------------------------------------------------------------------------------------- t | ⑤ ⑥ ⑦ ⑧ ⑨
38
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------------------------------- wbc0 | .7092469 .1498433 4.733 0.000 .4155595 1.002934 group | -1.158699 .4270903 -2.713 0.007 -1.995781 -.3216175
-------------------------------------------------------------------------------------------
① 为 模 型 无 效 假 设( 即: 所 有 协 变 量 的 回 归 系 数 为 0) 所 对 应 的 似 然 比 检 验( 自 由 度 为 协 变 量 个 数 的卡 方); ② 模 型 无 效 假 设 检 验 对 应 的 p 值;③ 对 数 似 然 比;④ 伪 决 定 系 数;⑤ 回 归 系 数;⑥ 回 归 系 数 的 标 准 误;⑦ 单 个 回 归 系 数 检 验 (Ho:该 回 归 系 数 为 0)的Z 统 计 量;⑧ 单 个 回 归 系 数 检 验 的 p 值;⑨ 回 归 系 数 的 95% 可 信 限。
相 对 风 险 度 形 式:
cox t wbc0 group, dead(y) hr
Cox regression Number of obs = 42 chi2(2) = 42.25 Prob > chi2 = 0.0000
Log Likelihood = -72.857682 Pseudo R2 = 0.2248
------------------------------------------------------------------------------------------- t | ⑤ ⑥ ⑦ ⑧ ⑨
y | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval]
----------+-------------------------------------------------------------------------------- bwc0 | 2.03246 .3045504 4.733 0.000 1.515218 2.72627 group | .3138942 .1340612 -2.713 0.007 .1359075 .7249754
-------------------------------------------------------------------------------------------
⑤ 相 对 风 险 度;⑥ 相 对 风 险 度 的 标 准 误;⑦ 单 个 相 对 危 险 度 检 验 (Ho:该 相 对 危 险 度 为 1)的Z 统 计 量;⑧ 该 相 对 危 险 度 检 验 的 p 值;⑨ 该 相 对 危 险 度 的 95% 可 信 限。
本 例 结 果 表 明: 白 血 球 计 数 升 高 将 显 著 地 增 加 复 发 的 风 险 (p<0.001); 在 平 衡 了 个 体 白 血 球 计 数 差 异 所 产 生 的 混 杂 效 应 后,该 药 物 治 疗 组 的 患 者 复 发 的 风 险 显 著 地 小 于 对 照 组(p=0.007)。
39
因篇幅问题不能全部显示,请点此查看更多更全内容
相关资讯
热门话题
热门图文
-
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
-
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
-
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
-
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
-
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁