当前位置: 首页 > news >正文

石家庄专门做网站的公司百度百家号

石家庄专门做网站的公司,百度百家号,许昌河南网站建设,淄博做网站建设想将一份 pdf 论文中的所有参考文献都提取出来,去掉不必要的换行,放入一个 text 文件,方便复制。其引用是 ieee 格式的,形如: 想要只在引用序号(如 [3])前换行,其它换行都去掉&…

想将一份 pdf 论文中的所有参考文献都提取出来,去掉不必要的换行,放入一个 text 文件,方便复制。其引用是 ieee 格式的,形如:
ieee-ref
想要只在引用序号(如 [3])前换行,其它换行都去掉,即一行一条参考文献。

可用 pypdf[1],其主页有示例,加上 re 去除非序号前的换行(检测 [)。

Code

from pypdf import PdfReader
import re# 检测非 `[` 前的换行
pattern = r'\n(?!\[)'reader = PdfReader("paper.pdf")
n_pages = len(reader.pages)
print(n_pages)with open("ref.txt", "w", encoding="utf-8") as f:for i in range(23, 29): # 自己确定 reference 页码范围page = reader.pages[i]text = page.extract_text()text = re.sub(r'-\n', '', text) # hyphen 后换行:连 hyphen 一齐删text = re.sub(pattern, ' ', text) # 多余换行换成空格f.write(text)# + '\n')

References

  1. py-pdf/pypdf
http://www.dinnco.com/news/28899.html

相关文章:

  • 网站网络营销平台推广营销网络
  • 有个蓝色章鱼做标志的网站长沙网址seo
  • 网站整站下载北京seo如何排名
  • 物联网网站开发海外游戏推广平台
  • 安徽网站搭建seo工作内容和薪资
  • 广西企业响应式网站建设公司惠州百度seo在哪
  • 政府网站改版建设汇报zoho crm
  • 北京网站开发飞沐培训报名
  • 公司网站怎么建立优化体系郑州网站推广电话
  • 岳阳做网站费用软文平台
  • 奎屯网站制作站优云网络公司
  • 网页设计页面尺寸上海seo外包
  • 中国建设银行黄陂支行网站搜索引擎营销有哪些
  • 怎么用花生壳做网站门户网站推广方案
  • 折扣网站怎么做百度前三推广
  • 衡水网站建设在哪里越秀seo搜索引擎优化
  • 做贷款网站犯法吗网络营销做得比较成功的企业
  • 网站建设爫金手指科捷15wordpress免费建站
  • 仿牌做外贸建网站网络营销sem培训
  • 专业外贸网站建设 诚信 青岛网站建设培训机构
  • 网站制作需求表推广软文怎么写样板
  • 网站2个页面做首页网站建设详细方案
  • 驻马店 网站制作培训学校怎么招生
  • 网站众筹该怎么做百度网站关键词优化
  • 网站备案 优帮云还有哪些平台能免费营销产品
  • 简述网页建站流程产品推广方案ppt模板
  • 网站建设 名词解释视频号推广
  • 网站浏览器兼容测试网络怎么推广自己的产品
  • 网站做百度地图怎么做呢seo独立站优化
  • 河南省住建局官方网站产品推广