doi:10.3969/j.issn.1674-4055.2018.07.03
【
摘要
】肿瘤一直是严重威胁人类生命和社会发展的重大疾病之一,受到医学界长期且广泛的重
视。SEER数据库是美国国立癌症研究所于1973建立的北美最具代表性的大型肿瘤数据库之一,收集了
美国部分州县肿瘤患者的发病率、患病率、死亡率及其它相关数据,为广大的利益相关者提供了宝贵的
肿瘤疾病相关的资料。该数据库是一个开放的状态,感兴趣的研究者可以申请其中的数据进行相关研
究,本文旨在对该数据库的申请方式以及肿瘤数据的提取方法进行介绍。
【
关键词
】肿瘤;SEER数据库;申请;数据提取
【中图分类号】R4 【文献标志码】 A 【文章编号】1674-4055(2018)07-0781-04
SEER database application and data extraction methods and processes
Yang Jin
*
, Liu Qingqing, Geng Hui,
Tian Guoxiang, Zeng Xiantao, Lyu Jun.
*
Clinical Research Center, The First Affiliated Hospital of Xi'an Jiaotong
University, Xi'an, 710061, People's Republic of China.
Corresponding author: Zeng Xiantao, E-mail: zengxiantao1128@163.com; Lyu Jun, Email:lujun2006@xjtu.edu.cn
[
Abstract
] Tumors have always been one of the most serious diseases that threaten the life and social
development of human beings. They have long been regarded by the medical community as a whole. The SEER
database is one of the most representative large-scale oncology databases in North America established in 1973
by the National Cancer Institute. It collects the incidence, prevalence, mortality and other related data of cancer
patients in some states and counties in the United States and provides a broad range of stakeholders with valuable
information on oncological diseases. The database is an open state, interested researchers can apply for the data of
the relevant research. This paper aims to apply the database and the method of extracting tumor data are introduced.
[
Key words
]Tumor;SEER database;Application;Data extraction
癌症是严重威胁人类生命和社会发展的重大
疾病,运用科学的方法对癌症进行预防控制已成
为全球最重要的公共卫生问题之一
[1-3]
。由于肿瘤
资料数量巨大、种类多、分布广等原因,传统数
据收集的方法难以及时、完整和准确的收集肿瘤
资料
[4]
。肿瘤登记是系统的收集所有有关肿瘤及
肿瘤患者信息的一个连续的过程,能够收集、存
储、分析、解释和传播肿瘤患者的数据信息,对
于肿瘤的预防和控制发挥着重大作用
[5-7]
。为减少
人群癌症负担,美国国立卫生研究院下属的美国
癌症研究所于1973年针对本国肿瘤患者建立了监
测、流行病学和最终结果数据库(SEER),这
是北美最具代表性的大型肿瘤数据库之一,收集
了美国部分州县几十年来肿瘤患者的发病率、患
病率、死亡率及其他循证医学的相关信息情况,
为广大的临床医务人员提供了宝贵的肿瘤疾病的
相关资料,尤其是为恶性肿瘤和罕见肿瘤的研究
提供了宽广的路径
[6,8]
。SEER在建立之初仅有为
数不多的几个地区的登记站,目前登记站数量已
扩展为18个,这些登记站利用可用于统计分析的
强大的计算机工具—SEER*STAT软件进行运作,
并以一年两次的频率提交到NCI进行分类统计和
汇总,而后向全美及全世界公示所覆盖人群的肿
瘤相关信息
[9]
。
1 SEER数据库的申请及软件下载流程
1.1
SEER数据库的申请
SEER数据库的样本量
大,质量高,统计效能强,能够为肿瘤相关研究
人员提供较高临床参考价值的数据,研究者均
可通过官方网站账号的申请获得部分数据。从
SEER数据库中获得数据的途径有3种:一是通过
SEER*Stat软件获取,此种方法最为简单,使用
广泛;二是从SEER官方网站下载压缩文件,解
压后获得二进制的资料,之后通过R等软件进行
转化,此种方法需要具备一定的相关软件的知
识;三是通过向管理人员申请DVD光盘,在使用
SEER*Stat且没有高速Internet支持的情况下,才
使用此种方法。本文介绍第一种方法。
S
E
E
R
数
据
库
的
申
请
流
程
如
下
:
进
入
SEER数据库的官方网站(https://seer.cancer.