当前位置：首页 > news >正文

中国有兼职网站开发网站吗武汉网络关键词排名

news 2025/7/9 9:42:42

中国有兼职网站开发网站吗,武汉网络关键词排名,复兴网站制作,网站项目意义写在前边虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友…

写在前边

虽然现在是高通量测序的时代，但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据，还是会有大量的需求去处理芯片数据，并且建模或验证自己所研究基因的表达情况，芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战，因此准备更新100个基因表达芯片或转录组高通量数据的处理。

数据信息检索

可以看到GSE126848是转录组高通量测序数据，因此可以使用GEOquery包下载数据临床信息，并且手动下载表达矩阵并整理
在这里插入图片描述

在这里插入图片描述

使用GEOquery包下载数据

using(tidyverse, GEOquery, magrittr, data.table, AnnoProbe, clusterProfiler, org.Hs.eg.db, org.Mm.eg.db)

注：using是我写的函数，作用是一次性加载多个R包，不用写双引号，并且不在屏幕上打印包的加载信息，可以参考之前的推文using的定义；函数名字using是在模仿Julia语言中的包加载函数

geo_accession <- "GSE126848"
gset <- GEOquery::getGEO(geo_accession, destdir = "./", AnnotGPL = F, getGPL = F)
eSet <- gset[[1]]
gpl <- eSet@annotation

处理表型数据

这部分是很关键的，可以筛选一下分组表型信息，只保留自己需要的样本，在这里只保留disease:ch1中healthy和NASH的样本，作为后续分析的样本（根据自己的研究目的筛选符合要求的样本）

pdata <- pData(eSet)

geo_accession	description	disease:ch1	gender:ch1	tissue:ch1
GSM3615293	2683	NAFLD	Male	Liver
GSM3615294	2685	NAFLD	Male	Liver
GSM3615295	2687	NAFLD	Male	Liver
GSM3615296	2689	NAFLD	Female	Liver
GSM3615297	2691	NAFLD	Female	Liver
GSM3615298	2693	NAFLD	Male	Liver

pdata %<>%dplyr::mutate(Sample = geo_accession,Group = case_when(`diagnosis:ch1` == "HC" ~ "Control", `diagnosis:ch1` == "NASH" ~ "Case", TRUE ~ NA),Age = `age (y):ch1`,Sex = str_to_title(`gender:ch1`),Stage = `fibrosis (stage):ch1`) %>%dplyr::filter(!is.na(Group)) %>%dplyr::select(Sample, Group, Age, Sex)
fwrite(pdata, file = str_glue("{geo_accession}_pdata.csv"))

处理表达谱数据

原始数据为Count值，需要标准化为TPM，并且基因名是Ensembl ID转换为Symbol基因名，可以使用到我自己写的几个函数genekit、bioquest；有需要可以联系我的公众号@恩喜玛生物，加入交流群

import pandas as pd
import genekit as gk
import bioquest as bq

fdata = pd.read_csv("GSE126848_Gene_counts_raw.txt.gz",sep='\t',index_col=0)
pdata = pd.read_csv("GSE126848_pdata.csv",index_col=0)
pdata.drop(columns=["Sample2"]).to_csv("GSE126848_pdata.csv")

fdata与pdata样本名统一，这里使用了Python的字符串格式化方法

fdata = fdata.loc[:,["{0:0>4}".format(x) for x in pdata.Sample2]]
fdata.columns = pdata.index.to_list()

保存一份原始Count数据信息

fdata.to_csv("GSE126848_count.csv.gz")

Count 转 TPM

fdata = gk.countto(fdata, towhat='tpm', geneid='Ensembl', species='Human')

Ensembl ID转换为Symbol基因名

fdata=gk.geneIDconverter(frame=fdata,from_id='Ensembl',to_id='Symbol',keep_from=False,gene_type=False,)

去重复

根据每个基因表达量的中位数去除重复的基因

fdata=bq.tl.unique_exprs(fdata)

保存TPM基因表达量数据

fdata.to_csv("GSE126848_tpm.csv.gz")

查看全文

http://www.dinnco.com/news/32934.html

网站的设计方法有哪些营销咨询公司经营范围

上国外网站速度慢宁波seo网络推广优质团队

网站建设易网宣网络推广哪个平台好

惠州网站外包企业整站推广

福州网站建设网络公司排名永久开源的免费建站系统

党政信息网站建设情况报告软件推广方案经典范文

做场景秀的网站地推十大推广app平台

做展示网站步骤郑州seo顾问热狗

只用html5可以做网站吗怎么创建网站快捷方式到桌面

网站音乐播放器代码免费b站推广

网站设计电商运营品牌策划案

东莞网站建设公司好seo网站推广专员招聘

西咸新区开发建设管理委员会网站广告投放是做什么的

申报湖南创新型省份建设专项网站seo在线培训课程

网站已经申请了域名接下来怎么中国营销型网站有哪些