光热生物数据库是一个全面的、用户友好的、交互式的网络资源,用于分析癌症组学数据。包括:基因组学、转录组学、蛋白质组学、表观遗传学、单细胞测序、空间转录组学等,提供易于访问公开可用的癌症组学数据,允许用户识别生物标志物或执行潜在目标基因的计算机验证。这些资源使研究人员能够收集有关感兴趣的基因/靶点的有价值的信息和数据。

Getting started by exploring:


       亲爱的用户,随着网络的普及,困扰科研人员的不再是信息的匮乏,而是信息的冗余,我们时常要花费大量的时间去分辨什么是有价值的信息。测序成本的降低,大量测序数据如雨后春笋,并且免费公开,构建数据库是一个潮流工作,大量生物信息学家做出了卓越的贡献。然而即使作为工具,数据库也出现了信息的冗余。研究人员一边得益于大量的研究手段方便了生物学问题的解决,一边苦恼于数据库太多使得他们不得不重复的学习不同数据库的使用规则。更重要的是,分散在各个角落的科研工具网站无法被发现从而被埋没掉。

       考虑大量公共数据库为经费项目资助,一旦项目停止,运营者会结束数据库的生命,近年来,连续出现数据库无力运行造成关停,使得数据不可追溯,造成严重的科研浪费。带着永久运行数据库的美好期望,出于珍贵科研数据挽救性储存的目的,我们团队创建了光热生物数据库,集成了世界上最丰富的癌症组学数据、最丰富的算法,一键对数据进行分析并可视化,让生物信息分析标准化、简单化。经过半年的数据与代码筹备,于2024年2月1日进行免费公测,4月1日起,数据库采用半开放半限制的运行思路。我们团队希望通过这种模式,维持数据库的持续更新,不停的去链接最新的科研进展,为可持续科研探索一条可行的道路。截止投稿日期,我们数据库超越2w科研人员访问,注册用户超越1千人。

       在此,我们真诚的呼吁所有科研工作者,如果您失去了基金项目的资助,运行数据库感到困难,请务必不要结束数据库的生命,光热生物数据库愿意继续托管。正如前面所说,我们不会停止更新,也许我们无法成为牛顿,但是我们希望做帮助牛顿发现万有引力的苹果。光热生物数据库将成为全世界最大的生物信息百科全书,帮助成千上万的科研训练者学到知识并且高效得走得更远。

       所有的伟大都起源于一个勇敢的开始,光热生物数据库采用半限制的访问策略,是为了让数据库获得生命力,不依赖任何官方基金项目的资助,永久运行下去。绳锯木断、水滴石穿,随着运行时间的增长,光热生物数据库将收集并清洗越来越多的珍贵数据。在人类攻克癌症的道路上,人工智能展现出令人鼓舞的潜力,统一的、规范的大数据将为人工智能助力生命科学做出卓越的贡献。

       TCGA于2006年启动,开展了为期3年的试点项目,重点关注多形性胶质母细胞瘤(GBM)、肺鳞状细胞癌(LUSC)和卵巢癌(OV),随后在2009年至2015年期间执行了整个项目。在这个为期 10 年的项目结束时,TCGA 网络研究人员已经表征了 33 种癌症类型的 11,160 名患者的肿瘤分子景观,并定义了它们的多种分子亚型。与既往生物信息学家采用TPM或FPKM构建数据库不同,为消除平台效应,光热生物数据库遵循了先前的研究(The Immune Landscape of Cancer | Systematic Analysis of the Aberrances and Functional Implications of Ferroptosis in Cancer | Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer | BIC: a database for the transcriptional landscape of bacteria in cancer | TIMER2.0 for analysis of tumor-infiltrating immune cells),采用了由PanCancer Atlas联盟生成的标准化、归一化、批量校正和平台校正的RNA矩阵文件(EBPlusPlusAdjustPANCAN_IlluminaHiSeq_RNASeqV2.geneExp.tsv),该文件包含11069样本(点击阅读细节)。TCGA强烈建议将已发布的TCGA-CDR-SupplementalTableS1.xlsx 文件用于临床元素和生存结果数据,以推动高质量的分析,关于该临床文件的更多细节请阅读An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics。该团队处理了33种癌症类型的11160名患者的33个初始入组数据文件和97个随访数据文件,光热生物数据库于UCSC Xena数据库获取整理好的生存文件(dataset: phenotype - Curated clinical data),并与先前提到的表达文件的样本取交集,最终获得11060个既有表达信息又有临床信息的样本(包括正常样本737个,肿瘤样本10323个)参与下游分析。在具体的分析中,样本数量会有所不同,例如:在差异分析中,我们会根据zscore去除离群值;在生存分析中,会去除生存时间为0或为空值的样本及生存状态是空值的样本。

Cite us!

数据库文章正在撰写中

R package: grswsci/GroundWork(GitHub)


Contact:

单位:Bioinformatics R&D Department, Hefei GuangRe Biotechnology Co., Ltd, Hefei, China
公众号:光热生物/光热生物SCI
Yuyao Liu: ahmulyy@163.com
微信:bioinformaticsboy


数据库论文作者及单位:

First Author:Department of Dermatology and Venereology, First Affiliated Hospital of Anhui Medical University Doctor Xuehao Zhang:215672062@qq.com
co-First Author:Bioinformatics R&D Department, Hefei GuangRe Biotechnology Co., Ltd, Yuyao Liu:ahmulyy@163.com
Corresponding Author:Department of Dermatology and Venereology, First Affiliated Hospital of Anhui Medical University Doctor Shengxiu Liu:liushengxiu@ahmu.edu.cn
co-Corresponding Author: Department of Interventional Oncology, State Key Laboratory of Systems Medicine for Cancer, Renji Hospital, Shanghai Jiao Tong University School of Medicine Doctor Zhenyu Song:22775@renji.com



Sparkle v1.0 | ©2024 | Bioinformatics R&D Department, Hefei GuangRe Biotechnology Co., Ltd | 皖ICP备2023011057号-1 | 皖公网安备34118102000909号 | 访客数:👦


如需补充湿实验(分子、细胞、动物、病理实验)或测序,请联系管理员 | 生物信息学贴吧 | Venn | Pubmed | GEO | OpenGWAS | GSEA | GeneCard | H指数 | 翻译助手

注意事项:


基因名务必全都大写 | | 点击可查看肿瘤简写 是否正确 | 点击可查看药物名称与列表 | 点击可查看TISCH2单细胞数据集IDDetails点击可查看TISCH2精细注释列表 | 点击可查看TISCH2主要注释列表 | 点击可查看TCPA蛋白ID对应的基因 | 点击可进入上传fasta文件进行Motif的地址 | 基因名与肿瘤简写务必规范输入,否则一定会运行失败 | Execution意味运行失败,要么输入错误要么没有数据 | 转录因子预测

输入示例:MKI67


分析结果: