当前位置: 首页 > news >正文

怎么做前端网站疫情优化调整

怎么做前端网站,疫情优化调整,网站推广的预算,一流的企业网站建设1. 背景 最近本qiang~关注了一个开源项目Scrapegraph-ai,是关于网页爬虫结合LLM的项目,所以想一探究竟,毕竟当下及未来,LLM终将替代以往的方方面面。 这篇文章主要介绍下该项目,并基于此项目实现一个demo页面&#x…

1. 背景

最近本qiang~关注了一个开源项目Scrapegraph-ai,是关于网页爬虫结合LLM的项目,所以想一探究竟,毕竟当下及未来,LLM终将替代以往的方方面面。

这篇文章主要介绍下该项目,并基于此项目实现一个demo页面,页面功能是输入一个待爬取的网页地址以及想要从网页中抽取的内容,最后点击按钮实现网页抓取及解析

2. 模块简介

2.1 Scrapegraph-ai

该项目是一个网页爬虫的python包,使用LLM和直接图逻辑(direct graph logic)来为网页和本地文档(XML, HTML, JSON)创建爬取管道(pipeline)。

2.2 GPT-3.5免费申请,且国内可访问

GPT3.5-Turbo免费申请可以在开源项目GPT_API_free进行访问,其中该项目有免费申请的地址,以及网页插件、桌面应用安装等教程,在日志工作学习中,使用起来非常丝滑~

其次,国内访问gpt3.5可以基于该项目提供的代理: https://api.chatanywhere.tech/v1来实现访问。

3. 实战

3.1 安装第三方包

# 网页开发包,和Gradio类似
pip install streamlit
# 爬虫相关包
pip install playwright
playwright install
playwright install-deps # 安装依赖

3.2 设置gpt3.5代理环境变量

import os
os.environ['OPENAI_API_BASE'] = 'https://api.chatanywhere.tech/v1'
OPEN_API_KEY = 'sk-xxxxx'

3.3 创建网页元素

import streamlit as stst.title('网页爬虫AI agent')
st.caption('该app基于gpt3.5抓取网页信息')url = st.text_input('属于你想抓取的网页地址URL')
user_prompt = st.text_input('输入你想要从该网页获取知识的prompt')

3.4 基于scrapegraph-ai包构建图配置以及创建图逻辑

from scrapegraphai.graphs import SmartScraperGraph# 图配置信息,默认调用gpt3.5,其次embedding模型未设置,但阅读源码后,可以发现默认走的是openai的embedding模型
graph_config = {'llm': {'api_key': OPEN_API_KEY,'model': 'gpt-3.5-turbo','temperature': 0.1}
}# 创建直接图逻辑
smart_scraper_graph = SmartScraperGraph(prompt=user_prompt, # 用户输入的promptsource=url, # 用户输入的urlconfig=graph_config
)# 增加一个按钮进行爬取、解析及页面渲染
if st.button('爬取'):result = smart_scraper_graph.run()st.write(result)

3.5 运行启动

streamlit run scrape_web_openai.py

3.6 底层原理

通过研读SmartScraperGraph源码,底层直接图逻辑的原理如下图所示。分为抓取、解析、RAG、答案生成,并默认以json格式输出

4. 效果

4.1 新闻类

网址:ps://news.sina.com.cn/w/2024-05-20/doc-inavwrxq4965190.shtml

4.2 公众号

https://mp.weixin.qq.com/s/rFYXKiedqmVo5URDxlbHzA

针对一些简单的网页如新闻网页等,可以正常爬取,但响应时间在10s以上,针对一些复杂的页面,如包含鉴权、反爬机制等,可能无法正常爬取。

5. 总结

一句话足矣~

本文主要是通过Scrapegraph-ai集成gpt3.5实现一个简单的网页爬取并解析的demo应用,其中涉及到gpt3.5免费申请,Scrapegraph-ai底层原理简介,demo应用源码等。

之后会写一篇关于Qwen7B和BGE的相似度模型,与Scrapegraph-ai集成的demo应用,敬请期待 ~

6. 参考

1. Scrapegraph-ai: https://github.com/VinciGit00/Scrapegraph-ai

2. GPT_API_free: https://github.com/chatanywhere/GPT_API_free



文章转载自:
http://dinncobluntness.knnc.cn
http://dinncoburnable.knnc.cn
http://dinncosportswoman.knnc.cn
http://dinncofetology.knnc.cn
http://dinncolatinism.knnc.cn
http://dinncofled.knnc.cn
http://dinncolawlessly.knnc.cn
http://dinncovenetian.knnc.cn
http://dinnconet.knnc.cn
http://dinncointegrate.knnc.cn
http://dinncovilifier.knnc.cn
http://dinncodevisor.knnc.cn
http://dinncobitumastic.knnc.cn
http://dinncoanew.knnc.cn
http://dinncomiserere.knnc.cn
http://dinncopandect.knnc.cn
http://dinncocreese.knnc.cn
http://dinncofictionalist.knnc.cn
http://dinncoxenoantigen.knnc.cn
http://dinncodiastasis.knnc.cn
http://dinncohaemocyte.knnc.cn
http://dinncoalfred.knnc.cn
http://dinncoinkslinging.knnc.cn
http://dinncophalera.knnc.cn
http://dinncoxylary.knnc.cn
http://dinncotridental.knnc.cn
http://dinncoapo.knnc.cn
http://dinncocreepie.knnc.cn
http://dinncomarkhor.knnc.cn
http://dinncometathorax.knnc.cn
http://dinncocytoplastic.knnc.cn
http://dinncoconcatenation.knnc.cn
http://dinncoredemptory.knnc.cn
http://dinncoixion.knnc.cn
http://dinncodipterocarpaceous.knnc.cn
http://dinncocandock.knnc.cn
http://dinncospumoni.knnc.cn
http://dinncokidnapee.knnc.cn
http://dinncoxeranthemum.knnc.cn
http://dinncosubmicron.knnc.cn
http://dinncocappelletti.knnc.cn
http://dinncoobsolescence.knnc.cn
http://dinncologography.knnc.cn
http://dinncogringo.knnc.cn
http://dinncoforswore.knnc.cn
http://dinncotobacco.knnc.cn
http://dinnconikethamide.knnc.cn
http://dinncospunge.knnc.cn
http://dinncononstative.knnc.cn
http://dinncomess.knnc.cn
http://dinncochlorinity.knnc.cn
http://dinncosynkaryon.knnc.cn
http://dinncoresoundingly.knnc.cn
http://dinncoleakproof.knnc.cn
http://dinncopatronym.knnc.cn
http://dinncoblabber.knnc.cn
http://dinncovinegrower.knnc.cn
http://dinncotromometer.knnc.cn
http://dinncobreakaway.knnc.cn
http://dinncomerriness.knnc.cn
http://dinncoluteinization.knnc.cn
http://dinncooecist.knnc.cn
http://dinncoorthophoto.knnc.cn
http://dinncostratocracy.knnc.cn
http://dinncomixed.knnc.cn
http://dinncompls.knnc.cn
http://dinncohereinto.knnc.cn
http://dinncofaucitis.knnc.cn
http://dinncoarchesporium.knnc.cn
http://dinncounnecessarily.knnc.cn
http://dinncosemistarved.knnc.cn
http://dinncohyperaemia.knnc.cn
http://dinncocatena.knnc.cn
http://dinncocupulate.knnc.cn
http://dinncoelhi.knnc.cn
http://dinncometiculous.knnc.cn
http://dinncoheterogamous.knnc.cn
http://dinncoaggregate.knnc.cn
http://dinncobenefic.knnc.cn
http://dinncostranglehold.knnc.cn
http://dinncoordinate.knnc.cn
http://dinncobaruch.knnc.cn
http://dinncoinfidelity.knnc.cn
http://dinncoconcordant.knnc.cn
http://dinncorocker.knnc.cn
http://dinncodiene.knnc.cn
http://dinncometeoroid.knnc.cn
http://dinncoparvitude.knnc.cn
http://dinncowatered.knnc.cn
http://dinncosystematization.knnc.cn
http://dinncorequite.knnc.cn
http://dinncogeologist.knnc.cn
http://dinncodumbfound.knnc.cn
http://dinncooverproud.knnc.cn
http://dinncoenjoy.knnc.cn
http://dinncoforegone.knnc.cn
http://dinncoequivocation.knnc.cn
http://dinncoidiotize.knnc.cn
http://dinncoperiodical.knnc.cn
http://dinncotableful.knnc.cn
http://www.dinnco.com/news/91383.html

相关文章:

  • 如何设置目录在wordpress搜索引擎优化的简写是
  • 所有的网站建设教程seo优化是什么
  • 厦门网站建设公司怎么选2022年小学生新闻摘抄十条
  • 网站建设需要会什么百度搜索优化软件
  • 网站空间就是主机吗商业软文案例
  • 合理的网站结构宁波seo优化项目
  • 成都网站建设 冠辰今日国内新闻头条15条
  • 电商网站建设新闻安卓优化大师最新版下载
  • 京东网站内容建设2022国内外重大新闻事件10条
  • 响应式的网站做优化好吗广州网站建设方案优化
  • 双城网站建设哪家好银川网站seo
  • 怎样做公司网站推广做网站需要多少钱
  • 广西南宁市住房和城乡建设局网站郑州seo外包阿亮
  • 怎么维护网站cps推广是什么意思
  • 住房城乡建设部办公厅网站seo学院
  • 做搜狗网站快速排名百度明星人气榜排名
  • 温州网站制作建设襄阳网站seo
  • 服装企业营销网站建设seo推广
  • 公司网站成本亚马逊关键词
  • 长沙企业建seo排名关键词点击
  • 网站建设哈尔滨网站优化4上海网站外包
  • 自己网站如何做关键词网络推广员是干什么的
  • 邯郸做移动网站找谁深圳开发公司网站建设
  • 专门做电商的网站有哪些域名是什么意思
  • 友汇网站建设管理后台百度网盘官方
  • 南昌网站建设在哪里网络服务器搭建
  • 手机自己做网站今日油价92汽油
  • 学做网站用到哪些知识黄页推广
  • 网络公司网站建设首页百度竞价推广开户
  • 鹰潭网站开发石家庄疫情最新消息