当前位置: 首页 > news >正文

网站推广怎么做的seo案例分析

网站推广怎么做的,seo案例分析,网站开发前端和后端怎么连接,厦门市建设合同备案网站1. 背景 最近本qiang~关注了一个开源项目Scrapegraph-ai,是关于网页爬虫结合LLM的项目,所以想一探究竟,毕竟当下及未来,LLM终将替代以往的方方面面。 这篇文章主要介绍下该项目,并基于此项目实现一个demo页面&#x…

1. 背景

最近本qiang~关注了一个开源项目Scrapegraph-ai,是关于网页爬虫结合LLM的项目,所以想一探究竟,毕竟当下及未来,LLM终将替代以往的方方面面。

这篇文章主要介绍下该项目,并基于此项目实现一个demo页面,页面功能是输入一个待爬取的网页地址以及想要从网页中抽取的内容,最后点击按钮实现网页抓取及解析

2. 模块简介

2.1 Scrapegraph-ai

该项目是一个网页爬虫的python包,使用LLM和直接图逻辑(direct graph logic)来为网页和本地文档(XML, HTML, JSON)创建爬取管道(pipeline)。

2.2 GPT-3.5免费申请,且国内可访问

GPT3.5-Turbo免费申请可以在开源项目GPT_API_free进行访问,其中该项目有免费申请的地址,以及网页插件、桌面应用安装等教程,在日志工作学习中,使用起来非常丝滑~

其次,国内访问gpt3.5可以基于该项目提供的代理: https://api.chatanywhere.tech/v1来实现访问。

3. 实战

3.1 安装第三方包

# 网页开发包,和Gradio类似
pip install streamlit
# 爬虫相关包
pip install playwright
playwright install
playwright install-deps # 安装依赖

3.2 设置gpt3.5代理环境变量

import os
os.environ['OPENAI_API_BASE'] = 'https://api.chatanywhere.tech/v1'
OPEN_API_KEY = 'sk-xxxxx'

3.3 创建网页元素

import streamlit as stst.title('网页爬虫AI agent')
st.caption('该app基于gpt3.5抓取网页信息')url = st.text_input('属于你想抓取的网页地址URL')
user_prompt = st.text_input('输入你想要从该网页获取知识的prompt')

3.4 基于scrapegraph-ai包构建图配置以及创建图逻辑

from scrapegraphai.graphs import SmartScraperGraph# 图配置信息,默认调用gpt3.5,其次embedding模型未设置,但阅读源码后,可以发现默认走的是openai的embedding模型
graph_config = {'llm': {'api_key': OPEN_API_KEY,'model': 'gpt-3.5-turbo','temperature': 0.1}
}# 创建直接图逻辑
smart_scraper_graph = SmartScraperGraph(prompt=user_prompt, # 用户输入的promptsource=url, # 用户输入的urlconfig=graph_config
)# 增加一个按钮进行爬取、解析及页面渲染
if st.button('爬取'):result = smart_scraper_graph.run()st.write(result)

3.5 运行启动

streamlit run scrape_web_openai.py

3.6 底层原理

通过研读SmartScraperGraph源码,底层直接图逻辑的原理如下图所示。分为抓取、解析、RAG、答案生成,并默认以json格式输出

4. 效果

4.1 新闻类

网址:ps://news.sina.com.cn/w/2024-05-20/doc-inavwrxq4965190.shtml

4.2 公众号

https://mp.weixin.qq.com/s/rFYXKiedqmVo5URDxlbHzA

针对一些简单的网页如新闻网页等,可以正常爬取,但响应时间在10s以上,针对一些复杂的页面,如包含鉴权、反爬机制等,可能无法正常爬取。

5. 总结

一句话足矣~

本文主要是通过Scrapegraph-ai集成gpt3.5实现一个简单的网页爬取并解析的demo应用,其中涉及到gpt3.5免费申请,Scrapegraph-ai底层原理简介,demo应用源码等。

之后会写一篇关于Qwen7B和BGE的相似度模型,与Scrapegraph-ai集成的demo应用,敬请期待 ~

6. 参考

1. Scrapegraph-ai: https://github.com/VinciGit00/Scrapegraph-ai

2. GPT_API_free: https://github.com/chatanywhere/GPT_API_free


http://www.dinnco.com/news/41331.html

相关文章:

  • 怎么看网站有没有备案线上销售的方法和技巧
  • 上海长城建设有限公司网站大数据营销的概念
  • 网站怎么谈设计网络营销以什么为中心
  • 沧州免费网站建设windows优化大师官方免费下载
  • 1000并发视频网站宣传推广方案
  • 自己做网站需要收费吗seo自学网视频教程
  • 网站权重对应的等级确认已有81人感染
  • 建设企业官方网站的流程百度seo排名优化如何
  • 中国十大网站建设公司关键词优化排名工具
  • 港口建设征收 申报网站搜索引擎营销的方法
  • 邹平网站建设优化公司厦门seo推广公司
  • dw做的网站放文件夹他达拉非片正确服用方法
  • 国家市场监督管理总局服务平台seo全国最好的公司
  • 广告设计在线seogw
  • 淘宝网免费素材图库seo岗位工资
  • 建设工程质量管理条例网站seo怎么优化效果更好
  • 做门户网站用什么技术好专业恶意点击软件
  • 黑群晖做php网站查询网站相关网址
  • 网站开发素材包网络推广的途径有哪些
  • 金融软件网站建设公司排名关键词排名公司
  • 网站开发哪种语言好网站流量查询工具
  • 凡科建站怎么删除网站建设2023年第三波新冠9月
  • 甘肃做网站哪家好谷歌浏览器网页
  • 机关网站建设征求意见怎么自己找外贸订单
  • 安卓app软件开发费用百度seo点击工具
  • 聊城做网站的公司市场百度指数支持数据下载吗
  • 网站建设市场报价网络公司取什么名字好
  • 网站建设 菜鸟教程互联网推广广告
  • 东莞企业网站制作推广运营杭州百度快照优化排名推广
  • 安徽建站系统国内疫情最新情况