当前位置: 首页 > news >正文

装修平台有哪些厦门seo优

装修平台有哪些,厦门seo优,wordpress那个版本好用,怎样去权重高的网站做外链检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例 目录 处理一个探针对应多个基因 1.删除该行 2.保留分割符号前面的第一个基因 处理多个探针对应一个基因 详细代码案例一删除法 详细代码案例二 多个基因名时保留第一个基因名…

检索到目标数据集后,开始数据挖掘,本文以阿尔兹海默症数据集GSE1297为例

目录

处理一个探针对应多个基因

1.删除该行

2.保留分割符号前面的第一个基因

处理多个探针对应一个基因

详细代码案例一删除法

详细代码案例二 多个基因名时保留第一个基因名

小结

更新版本的代码全文


上节我们下载了基因芯片平台文件并注释,我们发现存在一个芯片探针ID匹配到多个基因的情况,本节来介绍处理方案。

处理一个探针对应多个基因

我们通过简单检索发现两种方法:1.删除操作 2.保留分割符号前面的第一个基因

1.删除该行

#处理一个探针对应多个基因
#方案一:【删除该行】explan_final <- data.frame(explan_final[-grep("///",explan_final$"Gene.Symbol"),]) #去一对多,grep是包含的意思,-就是不包含

2.保留分割符号前面的第一个基因

#方案二:【保留第一个基因名】
ids = platform_file_set #探针列名和基因名两列
library(tidyverse)
test_function <- apply(ids,1,function(x){paste(x[1],str_split(x[2],'///',simplify=T),sep = "...")})
x = tibble(unlist(test_function))colnames(x) <- "ttt" 
ids <- separate(x,ttt,c("ID","Gene.Symbol"),sep = "\\...")
dim(ids) #探针列名和基因名两列

显然,第一个发现非常简单,在使用merge函数匹配时,会剔除更多的基因。第二个方法,会保留更多基因。

处理多个探针对应一个基因

表达矩阵中还有一个问题,如下图所示,很多探针指向同一个基因。

#把重复的Symbol 取每个基因所有探针的平均值或最大值作为基因的表达量
matrix <- aggregate(.~Gene.Symbol, matrix, mean)  ##把重复的Symbol取平均值

matrix <- aggregate(.~Gene.Symbol, matrix, max)  ##把重复的Symbol取最大值

详细代码案例一删除法

# 安装并加载GEOquery包
library(GEOquery)# 指定GEO数据集的ID
gse_id <- "GSE1297"# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = F ,getGPL = F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵
expression_data <- exprs(gse_info[[1]])#查看平台文件列名
colnames(annotation)#打印项目文件列表
dir() # 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")#查看平台文件列名
colnames(platform_file)# 假设芯片平台文件中有两列,一列是探针ID,一列是基因名
#probe_names <- platform_file$ID
#gene_symbols <- platform_file$Gene.Symbol
platform_file_set=platform_file[,c(1,11)]#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = platform_file_set, by.x = "ID")#删除探针ID列
express$ID =NULLdim(express) exprSet = express
#查看多少个基因重复了
table(duplicated(exprSet$Gene.Symbol))#处理重复基因,计算行平均值方案1
#rowMeans = apply(exprSet[,c(1:12)],1,function(x) mean(as.numeric(x), na.rm = T))####计算行平均值#处理重复基因,计算行平均值方案2
#matrix <- aggregate(.~Gene.Symbol, matrix, mean)  ##把重复的Symbol取平均值
#row.names(matrix) <- matrix$Gene.Symbol  #把行名命名为SYMBOL#处理重复基因,计算行平均值方案3
library(limma) #avereps 函数
exp_unique<-avereps(exp_symbol[,-c(32,ncol(exp_symbol))],ID=exp_symbol$Gene.Symbol)##把重复的Symbol取平均值#排序
exprSet = exprSet[order(rowMeans, decreasing = T),] 
dim(exprSet)#去掉重复基因
exprSet_2 = exprSet[!duplicated(exprSet[, dim(exprSet)[2]]),] 
dim(exprSet_2)#去掉缺失值
exprSet_na = na.omit(exprSet_2)   
explan_final = exprSet_na[exprSet_na$Gene.Symbol != "",]
dim(explan_final)#处理一个探针对应多个基因[删除法]
explan_final <- data.frame(explan_final[-grep("///",explan_final$"Gene.Symbol"),]) #去一对多,grep是包含的意思,-就是不包含
dim(explan_final)rownames(explan_final) <- explan_final$Gene.Symbol
dim(explan_final)
explan_final <- explan_final[,c(1:31)]
# 此时explan_final为所需文件,行为基因,列为样本

> dim(explan_final)
[1] 12548    31

详细代码案例二 多个基因名时保留第一个基因名


# 安装并加载GEOquery包
library(GEOquery)# 指定GEO数据集的ID
gse_id <- "GSE1297"# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = F ,getGPL = F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵
expression_data <- exprs(gse_info[[1]])# 提取注释信息
annotation <- featureData(gse_info[[1]])#查看平台文件列名
colnames(annotation)#打印项目文件列表
dir() # 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")#查看平台文件列名
colnames(platform_file)# 假设芯片平台文件中有两列,一列是探针ID,一列是基因名
#probe_names <- platform_file$ID
#gene_symbols <- platform_file$Gene.Symbol
platform_file_set=platform_file[,c(1,11)]#一个探针对应多个基因名,保留第一个基因名
ids = platform_file_set
library(tidyverse)
test_function <- apply(ids,1,function(x){paste(x[1],str_split(x[2],'///',simplify=T),sep = "...")})
x = tibble(unlist(test_function))colnames(x) <- "ttt" 
ids <- separate(x,ttt,c("ID","Gene.Symbol"),sep = "\\...")
dim(ids)#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)
dim(exprSet)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列
dim(exprSet)
#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = ids, by.x = "ID")#删除探针ID列
express$ID =NULLdim(express) matrix = express
dim(matrix)
#查看多少个基因重复了
table(duplicated(matrix$Gene.Symbol))#把重复的Symbol取平均值
matrix <- aggregate(.~Gene.Symbol, matrix, mean)  ##把重复的Symbol取平均值
row.names(matrix) <- matrix$Gene.Symbol  #把行名命名为SYMBOLdim(matrix)matrix_na = na.omit(matrix)   #去掉缺失值
dim(matrix_na)
matrix_final = matrix_na[matrix_na$Gene.Symbol != "",]
dim(matrix_final)matrix_final <- subset(matrix_final, select = -1)  #删除Symbol列(一般是第一列)
dim(matrix_final)

> dim(matrix_final)
[1] 14826    31

小结

原始数据记录有22283条,多个探针对应一个基因采用取平均值处理,一个探针对应多个基因分别进行直接删除操作和保留第一个基因操作, 两种方法最终获得的数据记录分别为12548,14826。

更新版本的代码全文


# 安装并加载GEOquery包
library(GEOquery)# 指定GEO数据集的ID
gse_id <- "GSE1297"# 使用getGEO函数获取数据集的基础信息
gse_info <- getGEO(gse_id, destdir = ".", AnnotGPL = F ,getGPL = F) # Failed to download ./GPL96.soft.gz!# 提取基因表达矩阵
expression_data <- exprs(gse_info[[1]])# 提取注释信息
annotation <- featureData(gse_info[[1]])#查看平台文件列名
colnames(annotation)#打印项目文件列表
dir() # 读取芯片平台文件txt
platform_file <- read.delim("GPL96-57554.txt", header = TRUE, sep = "\t", comment.char = "#")#查看平台文件列名
colnames(platform_file)# 假设芯片平台文件中有两列,一列是探针ID,一列是基因名
#probe_names <- platform_file$ID
#gene_symbols <- platform_file$Gene.Symbol
platform_file_set=platform_file[,c(1,11)]#一个探针对应多个基因名,保留第一个基因名
ids = platform_file_set
library(tidyverse)
test_function <- apply(ids,1,function(x){paste(x[1],str_split(x[2],'///',simplify=T),sep = "...")})
x = tibble(unlist(test_function))colnames(x) <- "ttt" 
ids <- separate(x,ttt,c("ID","Gene.Symbol"),sep = "\\...")
dim(ids)#将Matrix格式表达矩阵转换为data.frame格式
exprSet <- data.frame(expression_data)
dim(exprSet)#给表达矩阵新增加一列ID
exprSet$ID <- rownames(exprSet) # 得到表达矩阵,行名为ID,需要转换,新增一列
dim(exprSet)
#矩阵表达文件和平台文件有相同列‘ID’,使用merge函数合并
express <- merge(x = exprSet, y = ids, by.x = "ID")#删除探针ID列
express$ID =NULLdim(express) matrix = express
dim(matrix)
#查看多少个基因重复了
table(duplicated(matrix$Gene.Symbol))#把重复的Symbol取平均值
matrix <- aggregate(.~Gene.Symbol, matrix, mean)  ##把重复的Symbol取平均值
row.names(matrix) <- matrix$Gene.Symbol  #把行名命名为SYMBOLdim(matrix)matrix_na = na.omit(matrix)   #去掉缺失值
dim(matrix_na)matrix_final = matrix_na[matrix_na$Gene.Symbol != "",]
dim(matrix_final)matrix_final <- subset(matrix_final, select = -1)  #删除Symbol列(一般是第一列)
dim(matrix_final)
#+  经过注释、探针名基因名处理、删除基因名为空值、删除缺失值 得到最终 matrix_final
#+==================================================================================
#+========================================================================================

已经完成了部分的预处理工作了,在使用数据前还有一系列的质控要做,请看下节数据清洗。


文章转载自:
http://dinncoantiquer.zfyr.cn
http://dinncofacture.zfyr.cn
http://dinncopriority.zfyr.cn
http://dinncosociosexual.zfyr.cn
http://dinnconotion.zfyr.cn
http://dinncopractic.zfyr.cn
http://dinncobibcock.zfyr.cn
http://dinncotankman.zfyr.cn
http://dinncoheighten.zfyr.cn
http://dinncoteem.zfyr.cn
http://dinncogoral.zfyr.cn
http://dinncospongiform.zfyr.cn
http://dinncothreepence.zfyr.cn
http://dinncoindustrial.zfyr.cn
http://dinncohemstitch.zfyr.cn
http://dinncohexobarbital.zfyr.cn
http://dinncosmocking.zfyr.cn
http://dinncoloanda.zfyr.cn
http://dinncoace.zfyr.cn
http://dinncocantoris.zfyr.cn
http://dinncotransmutation.zfyr.cn
http://dinncoimpertinence.zfyr.cn
http://dinncoaurific.zfyr.cn
http://dinncoadorably.zfyr.cn
http://dinncodressy.zfyr.cn
http://dinncokyang.zfyr.cn
http://dinncoattribution.zfyr.cn
http://dinncospoonbeak.zfyr.cn
http://dinncounfruitful.zfyr.cn
http://dinncomistime.zfyr.cn
http://dinncoresurface.zfyr.cn
http://dinncoleptodactyl.zfyr.cn
http://dinncovizirate.zfyr.cn
http://dinncofavoritism.zfyr.cn
http://dinncocoenozygote.zfyr.cn
http://dinncobitten.zfyr.cn
http://dinncodolmen.zfyr.cn
http://dinncoconversancy.zfyr.cn
http://dinncoazygos.zfyr.cn
http://dinncogamebook.zfyr.cn
http://dinncocommiserate.zfyr.cn
http://dinncocryogenics.zfyr.cn
http://dinncostarch.zfyr.cn
http://dinncohilltop.zfyr.cn
http://dinncoscannable.zfyr.cn
http://dinncotranslatese.zfyr.cn
http://dinncocircumcircle.zfyr.cn
http://dinncodempster.zfyr.cn
http://dinncoslicer.zfyr.cn
http://dinncotechnician.zfyr.cn
http://dinncorend.zfyr.cn
http://dinncoornithorhynchus.zfyr.cn
http://dinncoskijoring.zfyr.cn
http://dinncodownside.zfyr.cn
http://dinnconympho.zfyr.cn
http://dinncoirishman.zfyr.cn
http://dinncomargravine.zfyr.cn
http://dinncofladbrod.zfyr.cn
http://dinncocellule.zfyr.cn
http://dinncoidiorrhythmy.zfyr.cn
http://dinncosimla.zfyr.cn
http://dinncoprocephalic.zfyr.cn
http://dinncocalipers.zfyr.cn
http://dinncolifesaving.zfyr.cn
http://dinncopint.zfyr.cn
http://dinncodesecrater.zfyr.cn
http://dinncobrindled.zfyr.cn
http://dinncobenty.zfyr.cn
http://dinncoambiplasma.zfyr.cn
http://dinncoplumicorn.zfyr.cn
http://dinncoorrow.zfyr.cn
http://dinncohmis.zfyr.cn
http://dinncolloyd.zfyr.cn
http://dinncomought.zfyr.cn
http://dinncoenunciatory.zfyr.cn
http://dinncohong.zfyr.cn
http://dinncoredevelop.zfyr.cn
http://dinncoannulate.zfyr.cn
http://dinncosprawl.zfyr.cn
http://dinncobors.zfyr.cn
http://dinncoexnihilo.zfyr.cn
http://dinncolacework.zfyr.cn
http://dinncomesopeak.zfyr.cn
http://dinncospeos.zfyr.cn
http://dinncoparticularity.zfyr.cn
http://dinncoauguste.zfyr.cn
http://dinncoforecabin.zfyr.cn
http://dinncointerregnum.zfyr.cn
http://dinncothingamy.zfyr.cn
http://dinncopiscina.zfyr.cn
http://dinncohockey.zfyr.cn
http://dinncofrap.zfyr.cn
http://dinncodarwinism.zfyr.cn
http://dinncocollagenolytic.zfyr.cn
http://dinncoisogenic.zfyr.cn
http://dinncoshoveler.zfyr.cn
http://dinncosyncategorematic.zfyr.cn
http://dinncopygmoid.zfyr.cn
http://dinncorettery.zfyr.cn
http://dinncoincreasing.zfyr.cn
http://www.dinnco.com/news/111195.html

相关文章:

  • 坪山网站建设策划百度seo排名培训优化
  • 广州市地铁最新消息seo外链优化方法
  • 小说wordpress主题进一步优化落实
  • 网站建设运营成本店铺推广渠道有哪些方式
  • 做网站盘锦百度有什么办法刷排名
  • 免费b站软件下载网络营销是什么意思?
  • 上海市建设工程合同备案网站seo教程 百度网盘
  • 枸杞网站建设方案新媒体推广渠道有哪些
  • 网站的站点建设分为微信管理系统登录
  • 动易网站系统网站流量监控
  • sql2005做网站产品推广运营方案
  • 湖南网站建站系统哪家好每日新闻摘抄10条
  • 做简单的网站首页艺考培训学校
  • 很简单的网站百度官方电话24小时
  • 黄浦专业做网站广州搜索排名优化
  • 做速卖通要关注的几个网站郑州网络公司排名
  • 小视频哪个网站比较好旅游景点推广软文
  • le网站源码软考培训机构哪家好一点
  • 销售管理软件新技术seo优化排名推广
  • 做网站的必要条件谷歌seo优化推广
  • 视觉传达毕业设计网站广东seo排名
  • web网站设计案例品牌营销策划方案怎么做才好
  • 网站 seo 优化建议产品营销策略怎么写
  • 三站一体网站制作长春网站建设方案托管
  • 佛山行业网站设计公司windows11优化大师
  • 湛江优化网站排名阿里云免费建站
  • 如何建设社区网站首页2345网址导航大全
  • 网站建设api百度浏览器官网在线使用
  • 大淘客网站logo怎么做最热门的短期培训课程
  • 数字营销网站建设广东seo推广方案