光热生物数据库是一个全面的、用户友好的、一键交互式的网络资源,用于分析各种癌症组学数据。包括:基因组学、转录组学、蛋白质组学、表观遗传学、单细胞测序、空间转录组学等,提供易于访问公开可用的癌症组学数据,允许用户识别生物标志物或执行潜在目标基因的计算机验证。这些资源使研究人员能够收集有关感兴趣的基因/靶点的有价值的信息和数据。
Why do we do this work?
亲爱的用户,随着网络的普及,困扰科研人员的不再是信息的匮乏,而是信息的冗余,我们时常要花费大量的时间去分辨什么是有价值的信息。测序成本的降低,大量测序数据如雨后春笋,并且免费公开,构建数据库是一个潮流工作,大量生物信息学家做出了卓越的贡献。然而即使作为工具,数据库也出现了信息的冗余。研究人员一边得益于大量的研究手段方便了生物学问题的解决,一边苦恼于数据库太多使得他们不得不重复的学习不同数据库的使用规则。更重要的是,分散在各个角落的科研工具网站无法被发现从而被埋没掉。
考虑大量公共数据库为经费项目资助,一旦项目停止,运营者会结束数据库的生命,近年来,连续出现数据库无力运行造成关停,使得数据不可追溯,造成严重的科研浪费。带着永久运行数据库的美好期望,出于珍贵科研数据挽救性储存的目的,我们团队创建了光热生物数据库,集成了世界上最丰富的癌症组学数据、最丰富的算法,一键对数据进行分析并可视化,让生物信息分析标准化、简单化。经过半年的数据与代码筹备,于2024年2月1日进行免费公测,4月1日起,数据库采用半开放半限制的运行思路。我们团队希望通过这种模式,维持数据库的持续更新,不停的去链接最新的科研进展,为可持续科研探索一条可行的道路。截止投稿日期,我们数据库超越2w科研人员访问,注册用户超越1千人。
在此,我们真诚的呼吁所有科研工作者,如果您失去了基金项目的资助,运行数据库感到困难,请务必不要结束数据库的生命,光热生物数据库愿意继续托管。正如前面所说,我们不会停止更新,也许我们无法成为牛顿,但是我们希望做帮助牛顿发现万有引力的苹果。光热生物数据库将成为全世界最大的生物信息百科全书,帮助成千上万的科研训练者学到知识并且高效得走得更远。
所有的伟大都起源于一个勇敢的开始,光热生物数据库采用半限制的访问策略,是为了让数据库获得生命力,不依赖任何官方基金项目的资助,永久运行下去。绳锯木断、水滴石穿,随着运行时间的增长,光热生物数据库将收集并清洗越来越多的珍贵数据。在人类攻克癌症的道路上,人工智能展现出令人鼓舞的潜力,统一的、规范的大数据将为人工智能助力生命科学做出卓越的贡献。
TCGA Introduction
TCGA于2006年启动,开展了为期3年的试点项目,重点关注多形性胶质母细胞瘤(GBM)、肺鳞状细胞癌(LUSC)和卵巢癌(OV),随后在2009年至2015年期间执行了整个项目。在这个为期 10 年的项目结束时,TCGA 网络研究人员已经表征了 33 种癌症类型的 11,160 名患者的肿瘤分子景观,并定义了它们的多种分子亚型。与既往生物信息学家采用TPM或FPKM构建数据库不同,为消除平台效应,光热生物数据库遵循了先前的研究(The Immune Landscape of Cancer | Systematic Analysis of the Aberrances and Functional Implications of Ferroptosis in Cancer | Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer | BIC: a database for the transcriptional landscape of bacteria in cancer | TIMER2.0 for analysis of tumor-infiltrating immune cells),采用了由PanCancer Atlas联盟生成的标准化、归一化、批量校正和平台校正的RNA矩阵文件(EBPlusPlusAdjustPANCAN_IlluminaHiSeq_RNASeqV2.geneExp.tsv),该文件包含11069样本(点击阅读细节)。TCGA强烈建议将已发布的TCGA-CDR-SupplementalTableS1.xlsx 文件用于临床元素和生存结果数据,以推动高质量的分析,关于该临床文件的更多细节请阅读An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics。该团队处理了33种癌症类型的11160名患者的33个初始入组数据文件和97个随访数据文件,光热生物数据库于UCSC Xena数据库获取整理好的生存文件(dataset: phenotype - Curated clinical data),并与先前提到的表达文件的样本取交集,最终获得11060个既有表达信息又有临床信息的样本(包括正常样本737个,肿瘤样本10323个)参与下游分析。在具体的分析中,样本数量会有所不同,例如:在差异分析中,我们会根据zscore去除离群值;在生存分析中,会去除生存时间为0或为空值的样本及生存状态是空值的样本。
Acknowledgements
Thanks
我们衷心感谢所有学者对公开测序数据的无私贡献,这些数据是我们数据库建设的基石。特别感谢刘灶渠博士及其团队在数据库建设过程中给予的宝贵支持和帮助。此外,感谢每一个支持我们的用户,数据库将持续更新,只要有人还在使用,我们就会坚持下去。
Funding information
初期,光热生物数据库由合肥光热生物科技有限公司及刘玉尧个人提供资金赞助,目前可至少持续运行10年。光热生物数据库为非盈利性平台,为了使得数据库永久运营,我们不得不依赖用户的捐赠,所有的收益用于数据库的维持与二次建设。并且,光热生物数据库将支撑更多免费数据库的开发,建立世界上第一个泛疾病数据库。
Responsibility
合肥光热生物科技有限公司刘玉尧为数据库管理员,负责数据库的搭建与运营。其余作者仅参与数据库学术建设部分,不参与数据库运营、管理等后期工作。
Our Team
Shengxiu Liu, MD Anhui Medical University Hefei China Email: liushengxiu@ahmu.edu.cn 研究方向: 皮肤黑色素瘤 | 皮肤激光美容 主要贡献: 项目负责人 |
|
Haoxue Zhang, MD Anhui Medical University Hefei China Email: 215672062@qq.com 研究方向: 皮肤黑色素瘤 | 生物信息学 主要贡献: 数据库论文写作 | 项目负责人 | |
Yuyao Liu, Postgraduate Bioinformatics R&D Department, Hefei GuangRe Biotechnology Co., Ltd Hefei China Email: ahmulyy@163.com 研究方向: 皮肤黑色素瘤 | R包开发 | R语言爬虫 | 数据库搭建 主要贡献: 数据库开发 | 数据库运营 | 项目负责人 | |
Ke Tang , Postgraduate Anhui Medical University Hefei China Email: bitter3470792458@163.com 研究方向: 皮肤黑色素瘤 | 数据库搭建 主要贡献: 项目参与者 | 数据库论文写作 | |
Yangyang Shi, Postgraduate Anhui Medical University Hefei China Email: 1318590226@qq.com 研究方向: 急诊医学 | 外科肿瘤 主要贡献: 项目参与者 | |
Zhenyu Song, MD Department of Interventional Oncology, State Key Laboratory of Systems Medicine for Cancer, Renji Hospital, Shanghai Jiao Tong University School Shanghai China Email: 22775@renji.com 研究方向: 肝细胞癌 | 非酒精性脂肪肝病 主要贡献: 项目负责人 |
Competing Interests
We have declared that no competing interest exists.
References
如果您使用我们数据库的不同的模块,您应该引用下面文献Bulk RNA转录组:
Liu, Z., Liu, L., Weng, S. et al. 'BEST: a web application for comprehensive biomarker exploration on large-scale data in solid tumors.' Journal of Big Data 10, 165 (2023). https://doi.org/10.1186/s40537-023-00844-y.
单细胞转录组:
[Han Y, Wang Y, Dong X, Sun D, Liu Z, Yue J, Wang H, Li T, Wang C. TISCH2: expanded datasets and new tools for single-cell transcriptome analyses of the tumor microenvironment. Nucleic Acids Res. 2023 Jan 6;51(D1):D1425-D1431. doi: 10.1093/nar/gkac959. PMID: 36321662; PMCID: PMC9825603.]
空间转录组:
[Shi J, Wei X, Xun Z, Ding X, Liu Y, Liu L, Ye Y. The Web-Based Portal SpatialTME Integrates Histological Images with Single-Cell and Spatial Transcriptomics to Explore the Tumor Microenvironment. Cancer Res. 2024 Apr 15;84(8):1210-1220. doi: 10.1158/0008-5472.CAN-23-2650. PMID: 38315776.]
[Xun, Z., Ding, X., Zhang, Y. et al. Reconstruction of the tumor spatial microenvironment along the malignant-boundary-nonmalignant axis. Nat Commun 14, 933 (2023). ]
恶性特征基因评分:
[CancerSEA: a cancer single-cell state atlas.Yuan H, Yan M, Zhang G, Liu W, Deng C, Liao G, Xu L, Luo T, Yan H, Long Z, Shi A, Zhao T, Xiao Y, Li X. Nucleic Acids Res. 2019:47(D1)]
泛癌免疫亚型:
[Thorsson V, Gibbs DL, et al. The Immune Landscape of Cancer. Immunity. 2018 Apr 17;48(4):812-830.e14. doi: 10.1016/j.immuni.2018.03.023. Epub 2018 Apr 5. Erratum in: Immunity. 2019 Aug 20;51(2):411-412. doi: 10.1016/j.immuni.2019.08.004. PMID: 29628290; PMCID: PMC5982584.]
GSVA-Combined z score:
[Lee E, Chuang H-Y, Kim J-W, et al. Inferring pathway activity toward precise disease classification. PLoS Comput Biol 2008;4:e1000217]
[Hänzelmann, S., Castelo, R. & Guinney, J. GSVA: gene set variation analysis for microarray and RNA-Seq data. BMC Bioinformatics 14, 7 (2013). https://doi.org/10.1186/1471-2105-14-7]
GSEA富集分析:
[Wu T, Hu E, Xu S, Chen M, Guo P, Dai Z, Feng T, Zhou L, Tang W, Zhan L, Fu X, Liu S, Bo X, Yu G. clusterProfiler 4.0: A universal enrichment tool for interpreting omics data. Innovation (Camb). 2021 Jul 1;2(3):100141. doi: 10.1016/j.xinn.2021.100141. PMID: 34557778; PMCID: PMC8454663.]
TCPA:
[Chun-Jie Liu, Fei-Fei Hu, Gui-Yan Xie, Ya-Ru Miao, Xin-Wen Li, Yan Zeng, An-Yuan Guo. GSCA: an Integrated Platform for Gene Set Cancer Analysis at Genomic, Pharmacogenomic, and Immunogenomic Levels. Briefings in bioinformatics, 2022, bbac558]
多算法肿瘤微环境评分:
[Li T, Fu J, Zeng Z, Cohen D, Li J, Chen Q, Li B, Liu XS. TIMER2.0 for analysis of tumor-infiltrating immune cells. Nucleic Acids Res. 2020 Jul 2;48(W1):W509-W514. doi: 10.1093/nar/gkaa407. PMID: 32442275; PMCID: PMC7319575.]
基因的甲基化位点注释:
[Tian Y, Morris T, Stirling L, Teschendorff A (2023). _ChAMPdata: Data Packages for ChAMP package_. doi:10.18129/B9.bioc.ChAMPdata
Start preparation time 2023-7-1
Pilot run time 2023-11-6
Formal running time 2024-4-1