기술
4 분 소요AI에게 스마트폰을 줬더니, QA 엔지니어의 일을 전부 해냈다
AI 에이전트에게 USB로 연결된 스마트폰의 화면을 보고 터치하는 능력을 줬다. 경쟁사 앱 3개를 분석시켰다. 사람이 몇 주 걸릴 일이 하루 만에 끝났다.
뭘 했나
- 앱을 그래프로 취급했다. 화면 = 노드, 버튼 = 엣지. DFS(깊이 우선 탐색)로 모든 화면을 빠짐없이 방문했다. 사람처럼 "이쯤이면 됐겠지"가 없다. 체크리스트가 전부 체크될 때까지 멈추지 않았다.
- 앱 3개에서 291장 스크린샷. 모든 드롭다운을 열고, 모든 토글을 켜고 끄고, 모든 리스트를 끝까지 스크롤했다. 한 앱당 100장이 넘는다. 사람이 이 밀도로 탐색하면 며칠이 걸린다.
- 실제 거래 5건을 실행했다. 스왑, 브릿지, 선물 거래. UI만 봐서는 알 수 없는 것들 — 확인 화면, 성공/실패 화면, 실제 수수료 구조 — 을 실거래로 확보했다.
- 37축 비교표 + HTML 리포트를 자동 생성했다. 모든 비교 항목에 스크린샷 증거가 연결돼있다. "이런 것 같다"가 아니라 "이 화면에서 확인됨".
뭘 발견했나
- QA가 통과시킨 걸 AI가 잡았다. 수수료 0.4%. 스펙에 0.4%라고 적혀있으니 QA는 "정상"이라고 넘겼을 것이다. AI는 같은 숫자를 보고 "경쟁사 5개 중 가장 높다"고 지적했다. 스펙이 아니라 시장을 기준으로 판단한 것이다. 기획서에 정의되지 않은 이상을 감지한 셈이다.
- 멈추지 않는다. 사람은 지치고, 건너뛰고, "이쯤이면 됐겠지"라고 판단한다. AI는 체크리스트가 전부 체크될 때까지 멈추지 않는다.
- 도메인 판단까지 한다. 수천 개 앱의 패턴을 학습한 모델은 "이 숫자가 이상하다", "이 기능이 이 위치에 없는 건 비정상이다"를 사람보다 먼저 안다. QA 엔지니어보다 도메인 지식이 넓다.
왜 중요한가
- 관찰, 판단, 보고. 이 세 가지가 직무의 본질인 역할들이 있다. QA 엔지니어, 리서처, 애널리스트, 컨설턴트, 감사인. AI가 셋 다 해냈다. 그것도 더 빠르고, 더 정확하고, 더 일관되게.
- 비용 구조가 바뀐다. 사람 몇 주 = AI 하루. 그리고 AI는 291장을 기억하면서 37축을 일관되게 비교한다. 사람은 못 한다. 이건 효율의 문제가 아니라 가능/불가능의 문제다.
방법론을 오픈소스로 공개했다. LLM에 이 문서를 주면 알아서 탐색을 시작한다.