Forrest Kim 소개

메뉴

2026년 4월 7일4 분 소요

AI에게 스마트폰을 줬더니, QA 엔지니어의 일을 전부 해냈다

AI 에이전트에게 USB로 연결된 스마트폰의 화면을 보고 터치하는 능력을 줬다. 경쟁사 앱 3개를 분석시켰다. 사람이 몇 주 걸릴 일이 하루 만에 끝났다.

뭘 했나

앱을 그래프로 취급했다. 화면 = 노드, 버튼 = 엣지. DFS(깊이 우선 탐색)로 모든 화면을 빠짐없이 방문했다. 사람처럼 "이쯤이면 됐겠지"가 없다. 체크리스트가 전부 체크될 때까지 멈추지 않았다.
앱 3개에서 291장 스크린샷. 모든 드롭다운을 열고, 모든 토글을 켜고 끄고, 모든 리스트를 끝까지 스크롤했다. 한 앱당 100장이 넘는다. 사람이 이 밀도로 탐색하면 며칠이 걸린다.
실제 거래 5건을 실행했다. 스왑, 브릿지, 선물 거래. UI만 봐서는 알 수 없는 것들 — 확인 화면, 성공/실패 화면, 실제 수수료 구조 — 을 실거래로 확보했다.
37축 비교표 + HTML 리포트를 자동 생성했다. 모든 비교 항목에 스크린샷 증거가 연결돼있다. "이런 것 같다"가 아니라 "이 화면에서 확인됨".

뭘 발견했나

QA가 통과시킨 걸 AI가 잡았다. 수수료 0.4%. 스펙에 0.4%라고 적혀있으니 QA는 "정상"이라고 넘겼을 것이다. AI는 같은 숫자를 보고 "경쟁사 5개 중 가장 높다"고 지적했다. 스펙이 아니라 시장을 기준으로 판단한 것이다. 기획서에 정의되지 않은 이상을 감지한 셈이다.
멈추지 않는다. 사람은 지치고, 건너뛰고, "이쯤이면 됐겠지"라고 판단한다. AI는 체크리스트가 전부 체크될 때까지 멈추지 않는다.
도메인 판단까지 한다. 수천 개 앱의 패턴을 학습한 모델은 "이 숫자가 이상하다", "이 기능이 이 위치에 없는 건 비정상이다"를 사람보다 먼저 안다. QA 엔지니어보다 도메인 지식이 넓다.

왜 중요한가

관찰, 판단, 보고. 이 세 가지가 직무의 본질인 역할들이 있다. QA 엔지니어, 리서처, 애널리스트, 컨설턴트, 감사인. AI가 셋 다 해냈다. 그것도 더 빠르고, 더 정확하고, 더 일관되게.
비용 구조가 바뀐다. 사람 몇 주 = AI 하루. 그리고 AI는 291장을 기억하면서 37축을 일관되게 비교한다. 사람은 못 한다. 이건 효율의 문제가 아니라 가능/불가능의 문제다.

방법론을 오픈소스로 공개했다. LLM에 이 문서를 주면 알아서 탐색을 시작한다.

github.com/ForrestKim42/llm-mobile-testing