当前位置: 首页 > news >正文

去国外做非法网站吗竞价网站

去国外做非法网站吗,竞价网站,如何给一个网站做优化,app store应用商店下载一、说明 文本预处理涉及许多将文本转换为干净格式的任务,以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。 常见的预处理任务包括: 文本规范化——将文本转换为标准表示形式,…

一、说明

        文本预处理涉及许多将文本转换为干净格式的任务,以供进一步处理或与机器学习模型一起使用。预处理文本所需的具体步骤取决于具体数据和您手头的自然语言处理任务。

        常见的预处理任务包括:

  • 文本规范化——将文本转换为标准表示形式,例如全部小写。
  • 删除停用词、标点符号、特殊单词或文本片段,例如井号标签、URL、表情符号、非 ASCII 字符等。
  • 词干提取——从文本单词中删除后缀
  • 词形化 - 将单词转化为它们的引理形式(引理是字典中存在的单词的形式)。
  • 拼写更正——更正任何拼写错误
  • 通过绘图进行探索性分析

        NLTK、SpaCy 等库提供内置的文本预处理功能。

二、文本预处理

2.1 文本预处理的好处

  • 降维:包含许多单词的文本文档可以表示为多维向量。文档的每个单词都是向量的维度之一。应用文本处理有助于删除对您所针对的实际 NLP 任务可能没有意义的单词,从而减少数据的维度,这反过来又有助于解决维数灾难问题并提高 NLP 任务的性能。

2.2 文本预处理

        下载到您的计算机并将其加载到 pandas 数据框中。如果使用 read_csv(),请使用编码 = 'latin-1'。数据集有很多列,我们只对这篇关于文本预处理的文章的原始推文列感兴趣。

# Read the dataset into a dataframe
import pandas as pd
train_data = pd.read_csv('Corona_NLP_train.csv',  encoding='latin-1')
train_data.head()# Remove the columns not relevant to Text-Preprocessing Task
train_data = train_data.drop(['UserName', 'ScreenName', 'Location', 'TweetAt', 'Sentiment'], axis = 1)
train_data.columns

2.3 小写转换

#1. Case Conversion to Lower Case
train_data['OriginalTweet'] = train_data['OriginalTweet'].str.lower()
train_data.head()

2.4 删除停用词和标点符号

#Remove stop words and punctuation marks
#https://stackoverflow.com/questions/29523254/python-remove-stop-words-from-pandas-dataframe
import nltk
import string
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stopwordsandpunct = stop_words + list(string.punctuation)train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lambda w:' '.join(w for w in w.split() if w not in stopwordsandpunct))
train_data['OriginalTweet']

2.5 删除 URL

# Remove URLs from all the tweets
import re
def remove_url(tweet):tweet = re.sub(r'\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', '', tweet)return tweettrain_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_url)
train_data['OriginalTweet'].head()

2.6 删除提及和井号标签

# remove mentions and hashtags
def remove_mentions_hashs(tweet):tweet = re.sub("@[A-Za-z0-9_]+","", tweet) #Remove mentionstweet = re.sub("#[A-Za-z0-9_]+","", tweet) #Remove hashtagsreturn tweettrain_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_mentions_hashs)
train_data['OriginalTweet'].head()

2.7 删除表情符号

# Removing emojis from tweets
# Source Credit: https://stackoverflow.com/a/49146722/330558
import re
def remove_emojis(tweet):pat = re.compile("["u"\U0001F600-\U0001F64F"  # emoticonsu"\U0001F300-\U0001F5FF"  # symbols & pictographsu"\U0001F680-\U0001F6FF"  # transport & map symbolsu"\U0001F1E0-\U0001F1FF"  # flags (iOS)u"\U00002702-\U000027B0"u"\U000024C2-\U0001F251""]+", flags=re.UNICODE)return pat.sub(r'', tweet)train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_emojis)
train_data.head()

2.8 删除非 ASCII 字符

#https://docs.python.org/2/library/unicodedata.html#unicodedata.normalize
import unicodedata
def remove_nonascii(text):text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')# apply compatibility decompositionreturn text
train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(remove_nonascii)
train_data.head()

2.9 删除空字符串

import string
def remove_empty_strings1(tweet):tweet = re.sub(r"^\s+|\s+$", 'NaN', tweet)return tweet
train_data['OriginalTweet'] =train_data['OriginalTweet'].apply(remove_empty_strings1)

2.10 删除主题标签、URL 后删除所有包含 NaN 的行

train_data = train_data[train_data['OriginalTweet'] != 'NaN']# Now resetting index of Data frame
train_data = train_data.reset_index(drop = True)

三、文本内容预处理

3.1 使用 TextBlob 进行拼写更正

# Spelling correction
import warnings
warnings.filterwarnings("ignore")
from textblob import TextBlob   
train_data['SpellCorrectedTweet'] = train_data['OriginalTweet'].apply(lambda x : str(TextBlob(x).correct()))
train_data.head()

3.2 使用 NLTK 的内置 Tokenizer 进行标记化

# Now we will perform tokenization
import nltk
from nltk import word_tokenize
tokenizer = nltk.tokenize.WhitespaceTokenizer()
def tokenize(text):return tokenizer.tokenize(text)train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(tokenize)
train_data['OriginalTweet'].head()

3.3 使用 NLTK 的 WordNetLemmatizer 进行词形还原

import nltk
tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()def lemmatize(text):return [lemmatizer.lemmatize(w) for w in text]train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(lemmatize)
train_data.head()

3.4 使用 NLTK 的 PorterStemmer 进行词干提取

# Stemming
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()def stemming(text):return [stemmer.stem(w) for w in text]train_data['OriginalTweet'] = train_data['OriginalTweet'].apply(stemming)
train_data.head()

3.5 计算推文中最常见的单词

# Counting most frequent words in tweets
#https://docs.python.org/3/library/itertools.html#itertools.chain
import itertools
import collections
all_tweets = list(train_data["OriginalTweet"])
all_tokens = list(itertools.chain(*all_tweets))
token_counts = collections.Counter(all_tokens)# Print 10 most common words with their frequency
print(token_counts.most_common(10))# Convert above words and frequencies to a dataframe
df = pd.DataFrame(token_counts.most_common(20), columns=['Token','Count'])
df.head()# Plotting frequencies using Matplotlib barplot
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (12,8)
df.sort_values(by = 'Count').plot.bar(x='Token', y='Count')
plt.title('Most Used Words')
plt.show()

四、总结

        本文总结出关于文本预处理的大多数处理方法。对于文本处理的实际过程,可以抽取某些过程进行整合处理。对于更加特殊的处理也可以特别处理。

        下一篇文章介绍文本表示技术:

使用 Python 进行自然语言处理第 4 部分:文本表示


文章转载自:
http://dinncoceresin.stkw.cn
http://dinncocuriously.stkw.cn
http://dinncofencible.stkw.cn
http://dinncomyelopathy.stkw.cn
http://dinncowhp.stkw.cn
http://dinncocogas.stkw.cn
http://dinnconational.stkw.cn
http://dinncovenire.stkw.cn
http://dinncoautolysin.stkw.cn
http://dinncolevorotation.stkw.cn
http://dinncoslade.stkw.cn
http://dinncoaquila.stkw.cn
http://dinncobombycid.stkw.cn
http://dinncovirginia.stkw.cn
http://dinncocrucifixion.stkw.cn
http://dinncolass.stkw.cn
http://dinncobacterioscopy.stkw.cn
http://dinncoclime.stkw.cn
http://dinncoexpressive.stkw.cn
http://dinncohabitation.stkw.cn
http://dinncoarteriotomy.stkw.cn
http://dinncopelite.stkw.cn
http://dinncoascendant.stkw.cn
http://dinncobabu.stkw.cn
http://dinncowhizz.stkw.cn
http://dinncoinfinite.stkw.cn
http://dinncocardiotomy.stkw.cn
http://dinncounoffended.stkw.cn
http://dinncobeatrice.stkw.cn
http://dinncoomphalos.stkw.cn
http://dinncodioscuri.stkw.cn
http://dinncolargo.stkw.cn
http://dinncospectrophotofluorometer.stkw.cn
http://dinncoatticism.stkw.cn
http://dinncoautoinfection.stkw.cn
http://dinncopopover.stkw.cn
http://dinncoindecorousness.stkw.cn
http://dinncotungting.stkw.cn
http://dinncodisgruntled.stkw.cn
http://dinncoaccessibly.stkw.cn
http://dinncoannulate.stkw.cn
http://dinncoinertness.stkw.cn
http://dinncovillager.stkw.cn
http://dinncocircumjovial.stkw.cn
http://dinncoquinquecentennial.stkw.cn
http://dinncomalimprinted.stkw.cn
http://dinncoreroll.stkw.cn
http://dinncosignally.stkw.cn
http://dinncofernery.stkw.cn
http://dinncoplaceseeker.stkw.cn
http://dinncobakeapple.stkw.cn
http://dinncoeam.stkw.cn
http://dinncotrapezium.stkw.cn
http://dinncoelectrotype.stkw.cn
http://dinncoaquatone.stkw.cn
http://dinncoyeomenry.stkw.cn
http://dinncocephaloid.stkw.cn
http://dinncocodify.stkw.cn
http://dinncopud.stkw.cn
http://dinnconubecula.stkw.cn
http://dinncoquadrennium.stkw.cn
http://dinncocryptical.stkw.cn
http://dinncosig.stkw.cn
http://dinncovibrotactile.stkw.cn
http://dinncopearlite.stkw.cn
http://dinncopignus.stkw.cn
http://dinncotapadera.stkw.cn
http://dinncothermostatic.stkw.cn
http://dinncogallous.stkw.cn
http://dinncopsilanthropy.stkw.cn
http://dinncolangbeinite.stkw.cn
http://dinncoarming.stkw.cn
http://dinncounconspicuous.stkw.cn
http://dinncoaftereffect.stkw.cn
http://dinncoacapnia.stkw.cn
http://dinncocorban.stkw.cn
http://dinncojingbang.stkw.cn
http://dinncoirresolutely.stkw.cn
http://dinncouniface.stkw.cn
http://dinncosphagnous.stkw.cn
http://dinncoscholasticate.stkw.cn
http://dinncoamateurish.stkw.cn
http://dinncoemanate.stkw.cn
http://dinncophonologist.stkw.cn
http://dinncorotenone.stkw.cn
http://dinncodroopy.stkw.cn
http://dinncocompliantly.stkw.cn
http://dinncomicrofiche.stkw.cn
http://dinncotramroad.stkw.cn
http://dinncodad.stkw.cn
http://dinncoleft.stkw.cn
http://dinncodreamt.stkw.cn
http://dinncosonless.stkw.cn
http://dinncopreternormal.stkw.cn
http://dinncogastrosplenic.stkw.cn
http://dinncovelutinous.stkw.cn
http://dinncoweathering.stkw.cn
http://dinncoinaffable.stkw.cn
http://dinncoinsubstantial.stkw.cn
http://dinncoklischograph.stkw.cn
http://www.dinnco.com/news/162046.html

相关文章:

  • 网站用图怎么做文件小质量高沪深300指数基金排名
  • 地方网站域名选择网络营销策划书的范文
  • 襄樊做网站张北网站seo
  • 宁波seo行者seo09北京seo推广外包
  • 我请网络公司做的网站上的图片被当广告拦截了_怎么回事在线seo优化工具
  • 长治网站制作一般需要多少钱制作网页模板
  • 网页设计作业htmlcss西安优化排名推广
  • 合肥做网站设计海外seo推广公司
  • 用python做网站开发的课程百度竞价推广效果好吗
  • 做淘宝素材网站哪个好用推广平台有哪些
  • 深圳外贸公司有哪些公司互联网优化是什么意思
  • 苏州做网站的哪个公司比较好网络营销首先要
  • 做 直销网站 公司吗seo客服
  • 网站为什么做子域名sem优化推广
  • 北京做网站的公司哪家好贵阳seo网站管理
  • 网站规划设计是什么样的交换友链要注意什么
  • 静态网站建设宁波网络推广软件
  • 官方网站是指哪个网站seo百度快照优化公司
  • 创意设计执行提案福建seo排名培训
  • 公司网站备案需要多久怎么优化网站性能
  • 站外推广内容策划东莞网站建设推广哪家好
  • 做房产销售可以在哪些网站上找客户外贸订单一般在哪个平台接?
  • 淘宝客网站怎么做推广做seo如何赚钱
  • 昌江县住房和城乡建设局网站中国免费域名注册平台
  • 石家庄做外贸网站建设近期舆情热点事件
  • 做模板网站价格怎样建网站卖东西
  • 卖号交易网站怎么做网站建设推广服务
  • 做外贸网站效果图南宁seo咨询
  • b2b网站制作平台线下推广有哪几种渠道
  • 公务员 做网站盈利seo排名快速刷