没想到现在AI这么智能了,没想到网页自动化现在都能做了,我们公司的自动化测试该有危机感了(。-`ω´-)
browser-use
browser-use
是一个用于浏览器自动化的 Python 开源库,旨在简化与浏览器的交互,让 AI 代理能够像人类一样自然地浏览和操作网页。
这是一个开源项目,目前已经 33.8K
的star了。
项目亮点:
网页浏览与操作:AI 代理能像人类用户一样浏览网页和执行操作,如页面导航、元素交互、截图、表单填写等。
多标签页管理:支持同时管理多个浏览器标签页,提高任务处理效率。
视觉识别与内容提取:识别网页视觉元素并提取 HTML 内容。
操作记录与重复执行:记录 AI 在浏览器中执行的操作,并能重复这些操作。
自定义动作支持:支持开发者定义和执行自定义动作,例如保存数据到文件或推送到数据库。
主流 LLM 模型支持:兼容多种大型语言模型(LLM),如 GPT-4、Claude、Llama 等。
日常中应该是开发者用到的比较多了,毕竟项目只是提供了一个API供程序调用,还需要自己写代码来实现自己想要的功能。
刚看到这个项目我就想到以后爬虫终于不用自己写了,直接给他命令就能一键爬取网页里我想要的数据。或者执行一些网站的登录,注册步骤,就是不知道能不能自动填写验证码。
使用
需要用到python3.11以上的版本
使用pip install browser-use
命令来安装依赖。
简单的demo,来启动一个AI代理
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
修改.env
文件,配置你自己的API key,OPENAI_API_KEY=
最后放上项目的体验地址:https://github.com/browser-use/browser-use
个人感觉是一个非常有意思的项目,发展潜力也不错,希望能够越来越准确。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...