仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

Browserbase:自带视觉模型的了解体系,功用丰富

2025-05-01

Browserbase:自带视觉模型的了解体系,功用丰富

Browserbase没有图形化界面,直接在内存中完成一切操作,包含点击链接、抓取网页内容等,而无需关怀服务器的办理和维护。另一方面,它能使用大模型(LLM)和视觉言语模型(VLM),了解网页语义和自适应页面变化,从而完成自然言语交互。

它降低了Agent开发的门槛,包含协助绕过反爬虫措施、办理和协调多账号操作,并且能够供给一个安稳、不易因网络问题中止的履行环境。特别是在处理那些缺少现代API的传统网页时,发挥着重要作用。它还允许会话回放,逐页回放阅读器会话,以检查操作和网络请求。

Browser Use:把网页拆解成“结构化文本”让AI了解

Browser Use创始人Magnus Müller认为,当前大多数AI署理依赖于基于计算机视觉的办法来“调查”和阅读网页,这种办法存在速度慢、成本高,且效果不安稳的问题。

“许多署理依赖于视觉体系,企图经过屏幕截图来了解网站,但这种方式常常出现问题。”他解说道,“咱们将网站转化为署理能够了解的结构化内容。这意味着咱们能够以更低的成本重复履行相同的使命。”

让AI更简单阅读网站,是Browser Use产品的中心逻辑。简单来说,Browser Use把网站上的按钮和元素拆解成一种更简单了解、更像“文本”的格式给Agent用。这能协助Agent搞清楚网页有哪些选项,运转多个AI署理,然后自主做出决策。

具体来说,Agent能够用Browser Use做这些:

  • 兼容GPT-4、Claude、Llama等;
  • 支撑异步编程,让AI署理能非堵塞地履行网络请求和阅读器操作;
  • 支撑多标签页办理、视觉辨认、内容提取;
  • 能记录和重复履行特定动作;
  • 支撑开发者自定义动作,如保存文件、推送到数据库等。

Dia:超级查找框,Agent处理精密度高

Dia看起来极简,只有查找框,但对AI对查找内容的分析精密度和融入Agent才能突出。

其产品逻辑是将AI作为中心构建理念,打造一个由AI驱动的阅读环境,让AI深度融入阅读器的各个环节,成为阅读器底层的才能。最主要的两个方面:

一是以AI为中心的交互模式。Dia经过智能输入建议,在用户输入时供给续写、扩写或总结等功用。用户还能经过地址栏输入自然言语指令,指示阅读器履行查找文档、发送邮件、从网页提取数据填入文档等使命。

二是类似操作体系的定位。创始人Josh Miller的野心是把阅读器从单纯的内容展现工具,变成操作体系般的存在,使产品办理个人偏好和行为,在体系层面完成跨设备的AI体验。

举例来说,Dia产品基于Chromium引擎特定版本,输入问题后有Google/Chat选项,Chat可调用自带大模型给出答案,有历史聊天记录,遇到复杂问题会联网查找。交互设计方面,划词后右侧能直接供给查找或解说功用,支撑经过“@”调用各个网页标签。


▲ Dia阅读器约请码在二手市场最高被卖到888元

Fellou:交给成果PPT化,协助用户高效吸收

Fellou定坐落“阅读器型的AI帮手”,重点在于使命成果的交给。与多数以对话为主的Agnet阅读器不同,Fellou做了交给成果的可视化。这种PPT或者是图化的知识呈现对用户来说,是非常高效的。

具体来说,它将阅读器、Agent、工作流主动化,三者整合成了“举动型阅读器(Agentic Browser)”。

用户只需要一句话,Fellou就能主动解析指令、智能拆解使命,并跨多个网页和体系调度操作,从数据收集、表单填写到最终报告生成。比如,用户在Threads上发布的内容,要求fellow抓取后在Twitter上发布,并按照内容自身的threads方式发布多条动态。

Fellou还增加了对本地电脑的操控,举动空间更大。一般Agent阅读器跟微信、钉钉等生态不兼容,但是Fellou开箱即用。如manus、OpenAI的Agent,也只能在揭露网站上来运转,拜访领英等网站时会由于虚拟机而受到限制,而本地运转的Fellou就不存在这个问题。

相关推荐