Loading...

解放双手,让AI来帮你操作浏览器!

日常推荐2天前发布 Jone
13 0 0

没想到现在AI这么智能了,没想到网页自动化现在都能做了,我们公司的自动化测试该有危机感了(。-`ω´-)

今天介绍一个能够自动操作浏览器的项目,旨在解放你的双手,让AI帮助你完成一系列的操作。

browser-use

browser-use 是一个用于浏览器自动化的 Python 开源库,旨在简化与浏览器的交互,让 AI 代理能够像人类一样自然地浏览和操作网页。

解放双手,让AI来帮你操作浏览器!

这是一个开源项目,目前已经 33.8K的star了。

解放双手,让AI来帮你操作浏览器!

项目亮点

  • 网页浏览与操作:AI 代理能像人类用户一样浏览网页和执行操作,如页面导航、元素交互、截图、表单填写等。

  • 多标签页管理:支持同时管理多个浏览器标签页,提高任务处理效率。

  • 视觉识别与内容提取:识别网页视觉元素并提取 HTML 内容。

  • 操作记录与重复执行:记录 AI 在浏览器中执行的操作,并能重复这些操作。

  • 自定义动作支持:支持开发者定义和执行自定义动作,例如保存数据到文件或推送到数据库。

  • 主流 LLM 模型支持:兼容多种大型语言模型(LLM),如 GPT-4、Claude、Llama 等。

日常中应该是开发者用到的比较多了,毕竟项目只是提供了一个API供程序调用,还需要自己写代码来实现自己想要的功能。

刚看到这个项目我就想到以后爬虫终于不用自己写了,直接给他命令就能一键爬取网页里我想要的数据。或者执行一些网站的登录,注册步骤,就是不知道能不能自动填写验证码。

使用

需要用到python3.11以上的版本

使用pip install browser-use命令来安装依赖。

简单的demo,来启动一个AI代理

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

修改.env文件,配置你自己的API key,OPENAI_API_KEY=

解放双手,让AI来帮你操作浏览器!

最后放上项目的体验地址:https://github.com/browser-use/browser-use

个人感觉是一个非常有意思的项目,发展潜力也不错,希望能够越来越准确。

© 版权声明

相关文章

暂无评论

暂无评论...