빠른 시작

핵심 워크플로우

모든 브라우저 자동화는 다음 패턴을 따릅니다:

# 1. 탐색
agent-browser open example.com

# 2. 스냅샷을 통해 요소 참조 얻기
agent-browser snapshot -i
# 출력:
# @e1 [heading] "Example Domain"
# @e2 [link] "자세한 정보..."

# 3. 참조를 사용하여 상호작용하기
agent-browser click @e2

# 4. 페이지 변경 후 재스냅샷
agent-browser snapshot -i

일반 명령어

agent-browser open example.com
agent-browser snapshot -i                # 참조와 함께 상호작용 가능한 요소 가져오기
agent-browser click @e2                  # 참조로 클릭하기
agent-browser fill @e3 "[email protected]" # 참조로 입력 필드 채우기
agent-browser get text @e1               # 텍스트 내용 가져오기
agent-browser screenshot                 # 임시 디렉터리에 저장
agent-browser screenshot page.png        # 특정 경로에 저장
agent-browser close

전통적인 선택자

CSS 선택자와 의미적 위치 지정자도 지원됩니다:

agent-browser click "#submit"
agent-browser fill "#email" "[email protected]"
agent-browser find role button click --name "Submit"

창 표시 모드

디버깅을 위해 브라우저 창을 표시합니다:

agent-browser open example.com --headed

콘텐츠 대기

agent-browser wait @e1                   # 요소 대기
agent-browser wait --load networkidle    # 네트워크 대기 상태 대기
agent-browser wait --url "**/dashboard"  # URL 패턴 대기
agent-browser wait 2000                  # 밀리초 단위로 대기

명령 체인

단일 쉘 호출에서 &&를 사용해 명령을 연결할 수 있습니다. 브라우저는 백그라운드 도우미 프로세스를 통해 유지되므로, 체인이 안전하고 효율적입니다:

# 한 번의 호출로 열기, 대기 및 스냅샷
agent-browser open example.com && agent-browser wait --load networkidle && agent-browser snapshot -i

# 여러 상호작용 체인
agent-browser fill @e1 "[email protected]" && agent-browser fill @e2 "pass" && agent-browser click @e3

# 이동 및 캡처
agent-browser open example.com && agent-browser wait --load networkidle && agent-browser screenshot page.png

중간 출력이 필요 없을 때는 &&를 사용하세요. 출력을 먼저 분석해야 할 경우(예: 상호작용 전 참조를 찾기 위해 스냅샷을 실행)는 명령을 별도로 실행하세요.

JSON 출력

스크립트에서 프로그래밍 방식으로 파싱하기 위해:

agent-browser snapshot --json
agent-browser get text @e1 --json

참고: 기본 텍스트 출력은 더 작고, 인공지능 에이전트에 더 적합합니다.