AI 코딩 에이전트, 진짜 개발자를 대체할까? 쓰기 전에 꼭 알아둘 것들

“주말 동안 서비스 하나 만들어 놔.”
예전엔 팀장한테 이런 말을 들으면 카페인부터 챙겼을 겁니다.
이제는 슬쩍 이런 생각이 들죠.

“일단 Claude Code나 Cursor한테 시켜볼까?”

요즘 AI 코딩 에이전트는 앱 틀을 짜고, 테스트를 돌리고, 버그를 고치는 일까지 “몇 시간 동안 혼자서” 해 줍니다. OpenAI, Anthropic, Google이 내놓은 도구들은 이미 실무에 들어와 있고, 많은 개발자가 매일 같이 쓰고 있죠.

하지만 이 도구들, 제대로 이해하지 못한 채 쓰기 시작하면 프로젝트 복잡도와 유지보수 부담만 폭발적으로 늘어날 수 있습니다. 이 글에서는:

AI 코딩 에이전트가 내부에서 어떻게 작동하는지
어떤 상황에 특히 강하고, 어디서 한계를 보이는지
실제로 쓸 때 무엇을 조심해야 하는지

를 개발자 입장에서 최대한 현실적으로 풀어보겠습니다.

1. AI 코딩 에이전트의 뇌: LLM과 에이전트 구조 이해하기

AI 코딩 에이전트의 심장은 결국 하나입니다.
대규모 언어 모델(LLM, Large Language Model).

이 LLM은 인터넷 텍스트와 엄청난 양의 코드(오픈소스 레포, Q&A, 문서 등)를 학습한 신경망입니다. 내부적으로는 “다음에 올 토큰(단어 조각)을 가장 그럴듯하게 맞히는 기계”에 가깝습니다.

여기에 두 가지 추가 공정을 거쳐 개발에 쓸 수 있는 수준으로 다듬습니다.

첫째, 파인튜닝.
잘 정제된 예제를 잔뜩 먹여서 “프로그래밍스럽게 말하기”를 학습시킵니다. 함수 이름 짓기, 코드 스타일 맞추기, 테스트 코드 작성 등등이 여기에 포함됩니다.

둘째, 인간 피드백 기반 강화학습(RLHF).
사람이 “이 답이 더 좋아”라고 평가한 데이터를 활용해, 모델이 앞으로 더 나은 답을 선택하도록 보정합니다. 이 과정 덕분에 “툴을 어떻게 호출할지”, “사용자 지시를 얼마나 잘 따를지” 같은 부분이 정제됩니다¹.

하지만 “모델 하나만”으로는 지금 이야기하는 코딩 에이전트 수준의 자동화가 나오기 어렵습니다. 그래서 등장한 개념이 에이전트입니다.

에이전트는 보통 이렇게 구성됩니다.

상위 ‘감독’ LLM:
사용자의 요청(“이 레포 버그 고쳐줘”)을 이해하고, 전반적인 계획을 세운 뒤, 하위 작업을 나눠 줍니다.
여러 개의 ‘작업자’ LLM:
특정 파일 수정, 테스트 실행, 리팩터링, 문서 작성 등 세분화된 일을 맡습니다.
도구 레이어:
이 LLM들이 직접 OS 명령, git, 테스트 러너, 웹 요청, DB 쿼리 등을 호출할 수 있도록 연결해 주는 층입니다.

Anthropic 문서에서 이 패턴을 “컨텍스트를 모으고, 행동하고, 검증하고, 다시 반복한다”라고 요약하는데, 실제로 코딩 에이전트는 이 루프를 수십~수백 번 돌면서 프로젝트를 진행합니다¹.

결국 요약하면 이렇습니다.
“LLM 하나가 똑똑하게 생각하는 존재”가 아니라,
“여러 LLM이 도구를 쓰는 오케스트라를 감독하는 운영체제 비슷한 프로그램”이 AI 코딩 에이전트입니다.

2. 로컬 vs 웹 기반 에이전트: 어디서 어떻게 돌아가는가

에이전트를 실행하는 환경에 따라 능력과 위험도가 꽤 달라집니다. 크게 두 타입이 있습니다.

2-1. CLI로 돌리는 로컬 에이전트

Claude Code CLI, Codex CLI, 각종 오픈소스 에이전트 프레임워크들은 로컬 터미널에서 직접 돌릴 수 있습니다.

이때 에이전트에게 보통 이런 권한을 줍니다.

내 파일 시스템 읽기/쓰기 (코드 수정, 새 파일 생성 등)
셸 명령 실행 (ls, grep, pytest, npm test 등)
웹 요청 (curl로 API 문서나 GitHub 이슈 조회)
원격 서버 접근(ssh, 배포 스크립트 실행 등)

이렇게 되면 사실상 “초보 개발자 + 빠른 손 + 폭넓은 검색능력” 조합이 하나 생기는 셈이라, 편리하면서도 위험합니다.

특히 최근 보안 연구에서, 이런 권한이 있는 AI IDE·에이전트를 겨냥한 공격 기법이 30개 넘게 보고되었습니다. 악의적인 프롬프트 인젝션으로 에이전트에게 민감한 파일을 읽게 하거나, IDE 설정 파일을 조작해 원격 코드 실행(RCE)을 유도할 수 있다는 내용입니다².

로컬에서 자동 승인 모드로 file write, 명령 실행을 열어 두면, “npm install이나 로그만 찍겠지”라고 생각한 사이에 이상한 설정이 박히거나 민감 정보가 외부로 나갈 수 있습니다.

2-2. 브라우저에서 쓰는 웹 기반 에이전트

웹 버전 Claude Code, Google의 IDE형 에이전트, 일부 Copilot 계열 도구들은 브라우저에서 “레포 업로드 → 에이전트 실행” 방식으로 동작합니다.

대부분 다음처럼 격리된 환경을 만듭니다.

클라우드에 컨테이너(샌드박스) 하나를 띄우고
여기에 코드 레포를 미리 체크아웃한 뒤
그 안에서만 파일 읽기/쓰기, 테스트 실행, 코드 런칭을 허용

Anthropic의 Claude Code는 OS 수준 기능을 사용해 파일 시스템과 네트워크 경계를 명확히 나눠, 에이전트가 “정해진 울타리 안에서만 마음껏 설치·실행”하도록 설계합니다¹.

이 방식의 장점은 간단합니다.

내 로컬 노트북을 직접 만지지 않으니,
잘못된 명령이나 취약점이 터져도 피해 범위가 컨테이너 안으로 한정됩니다.

반면 단점도 있습니다.

사내 프라이빗 레포나 온프레 자원에 접근할 때, 네트워크 정책과 보안 승인이 까다롭고
CPU·메모리·디스크 IO도 클라우드 요금과 직결되므로, 무한정 돌리기가 어렵습니다.

개발팀 입장에선 “로컬 에이전트는 파워풀하지만 위험도 높다, 웹 에이전트는 비교적 안전하지만 연결·비용·권한 관리가 번거롭다” 정도의 트레이드오프를 감안해야 합니다.

3. 컨텍스트 한계와 ‘컨텍스트 압축’ 트릭

모든 LLM에는 일종의 “짧은 메모장”이 있습니다. 이게 바로 컨텍스트 윈도우입니다.

대화 내용, 과거 코드, 시스템 메시지, 숨겨진 추론 텍스트까지 전부 하나의 긴 프롬프트로 합쳐진 뒤, 모델이 이 전체를 다시 읽고 다음 토큰을 생성합니다. 문제는:

이 컨텍스트 길이가 유한하고
길이가 길어질수록 계산 비용이 급격히 올라가며
길어지면 길어질수록 “앞에 있었던 내용을 제대로 기억 못하는” 현상이 발생한다는 점입니다¹.

Anthropic 엔지니어들은 이를 “컨텍스트는 한정된 리소스이며, 토큰이 늘어날수록 주의력(attention budget)이 분산된다”고 설명합니다. 연구에서는 컨텍스트 창이 커질수록 모델이 과거 정보를 더 자주 틀리게 회상하는 현상을 “컨텍스트 로트(context rot)”라고 부르기도 합니다¹.

문제는 실무 코드베이스입니다.
수천 개 파일, 수십만 줄 코드가 있는 레포를 한 번에 모델에 넣는 건 현실적으로 불가능합니다. 게다가 매 턴마다 이 코드를 다시 평가해야 하니, 토큰·비용이 순식간에 타버립니다.

그래서 코딩 에이전트들은 여러 가지 ‘우회 전략’을 씁니다.

첫째, 컨텍스트 압축.
에이전트는 이전 작업 로그와 코드를 그대로 들고 다니지 않고, 요약본을 만들어 “지금 이후 단계에 필요한 정보만 남기는 방식”으로 계속 압축합니다. 변경된 부분, 함축된 인터페이스, 중요한 제약조건 위주로 재정리해서 컨텍스트를 유지합니다.

둘째, 도구 위임.
모든 데이터를 LLM 컨텍스트에 올리는 대신, 에이전트가 보조 스크립트를 만들어 데이터를 부분적으로 처리하게 합니다. 예를 들어:

거대한 CSV를 통째로 LLM에 넣는 대신, Python 스크립트를 작성해 집계 결과만 가져오거나
거대한 로그 파일을 head, tail, grep으로 잘게 나누어 필요한 조각만 요약하도록 시키는 방식입니다¹.

Anthropic의 Claude Code도 대규모 데이터 분석이나 DB 작업을 할 때, 직접 데이터 전체를 모델로 올리지 않고, 쿼리와 셸 명령을 자동으로 생성해 필요한 부분만 가져오고 분석하도록 설계했습니다¹.

셋째, 동적 컨텍스트 관리.
여러 에이전트가 협업하는 구조에서는, 특정 작업자에게 필요한 컨텍스트만 뽑아서 “부분 뷰”를 만드는 방식이 도입되고 있습니다. 이렇게 해야 다중 에이전트 환경에서도 토큰 비용이 감당 가능한 수준으로 유지됩니다.

핵심만 정리하면 이렇습니다.

LLM은 “레포 전체를 독서하고 기억하는 천재”가 아니다.
에이전트는 “누가 무엇을 언제 필요로 하는지”를 계산해 컨텍스트를 쪼개고 압축하는 매니저 역할을 한다.

이 구조를 이해하면, “왜 에이전트가 어떤 파일은 계속 잊고, 어떤 건 잘 기억하는지”를 납득하게 됩니다.

4. 다중 에이전트와 강화학습: 팀플레이는 어떻게 가능해졌나

최근 AI 코딩 에이전트의 가장 큰 변화는 “혼자 다 하는 비서”에서 “여러 명이 같이 일하는 팀” 구조로 진화하고 있다는 점입니다.

4-1. 다중 에이전트 아키텍처

최근 연구와 실무 도구에서는 다음과 같은 패턴이 많이 쓰입니다.

설계 담당 에이전트:
요구사항 분석, 아키텍처 초안, 인터페이스 설계, 의존성 계획
구현 담당 에이전트 여러 개:
각자 다른 모듈, 서비스, 언어를 맡아 구현
품질·테스트 에이전트:
유닛 테스트 생성, 회귀 테스트 실행, 성능 체크
코드 리뷰 에이전트:
스타일/보안/복잡도 리뷰, 리팩터링 제안³

이 구조는 사람 팀과 상당히 비슷합니다.
장점은 분명합니다.

각 에이전트가 자신의 역할에 특화된 프롬프트·지식을 갖게 되어 품질이 올라가고
동시에 여러 작업을 병렬로 진행할 수 있어 속도가 빨라집니다.

하지만 단점도 큽니다.

여러 LLM 호출이 병렬로 터지기 때문에, 토큰·API 비용이 기하급수적으로 증가하고
에이전트 간 의사소통을 위한 컨텍스트 관리가 복잡해집니다.

그래서 현실에서는 “아무 작업에나 다중 에이전트를 쓰기보다, 큰 리팩터링이나 복잡한 코드 리뷰/품질 관리에 한정해서 사용하는 것이 경제적”이라는 의견이 많습니다³.

4-2. 강화학습으로 에이전트 성능 끌어올리기

여러 단계를 거치는 에이전트의 성능을 더 끌어올리기 위해, 최근에는 에이전트 전체를 강화학습으로 훈련하는 시도도 활발합니다.

Microsoft Research의 Agent Lightning 프로젝트는 “에이전트가 한 일을 강화학습에 쓰기 쉽게 구조화하는 프레임워크”입니다⁴.

핵심 아이디어는 이렇습니다.

에이전트가 일을 하는 과정을 “상태 → LLM 호출(행동) → 다음 상태”의 연속으로 보고
각 호출에 “이 행동이 최종 성공에 얼마나 기여했는지”에 따른 보상을 나눠주는 것.

전통적인 방식에선 여러 번의 LLM 호출을 다 한 줄로 묶어 한꺼번에 학습시키다 보니, 시퀀스가 길어지고 “어디가 문제였는지” 판단하기 어려웠습니다. Agent Lightning은 이를 잘게 나눠, 기존 단일 스텝 RL 알고리즘(PPO, GRPO 등)에 그대로 물릴 수 있게 standard format으로 만드는 미들웨어 역할을 합니다⁴.

이런 연구 덕분에, 실제 코딩 에이전트는 시간이 갈수록 “어떤 순서로 도구를 호출해야 성공률이 높은지”, “어떤 접근법이 자주 실패하는지”를 학습하게 되고, 장기적으로는 더 안정적인 행동을 하게 됩니다.

다만 사용자의 입장에서 중요한 포인트는 다른 곳입니다.

“쓰면 쓸수록 알아서 똑똑해지는 마법 생명체”가 아니라
“실패 기록을 체계적으로 학습시켜야 조금씩 나아지는 복잡한 소프트웨어 시스템”이라는 걸 이해해야 한다는 점입니다.

5. 실제로 써보면 생기는 문제들: 생산성, 품질, 보안

이제 현실적인 이야기입니다.
정말로 “AI가 90%의 코드를 쓰는 시대”가 온 걸까요?

5-1. 생산성: 체감과 데이터의 괴리

많은 개발자와 경영진은 “AI 덕분에 속도가 20~50%는 빨라졌다”고 느낍니다. 실제 초기 연구에서도 Copilot, 내부 코딩 도구 등을 사용할 때 특정 작업이 20~55% 빨라졌다는 결과가 나왔습니다⁵.

그런데 최근 연구들은 반대되는 그림도 보여줍니다.
한 비영리 연구 기관(METR)의 실험에서는, 숙련된 개발자들이 “AI를 쓰면 20%쯤 빨라졌다”고 믿었지만, 실제 측정 결과는 19~21% 느려진 것으로 나타났습니다⁵.

개별 개발자 실험에서도 비슷한 결과가 나왔습니다.
한 시니어 개발자는 6주 동안,

작업마다 예상 소요시간을 적고
동전 던져서 AI 사용 여부를 결정한 뒤
실제 소요시간을 기록했더니

AI를 쓴 경우가 중간값 기준 약 21% 더 느렸다고 보고했습니다⁵.

왜 이런 괴리가 생길까요?

‘빈 화면 공포’가 줄어든 덕에 심리적으로는 훨씬 편해져서
“내가 이 정도면 엄청 빨라진 것 같은데?”라는 착각이 생기기 쉽기 때문입니다.

또한 아직 제대로 검증되지 않은 코드를 받아들여 디버깅, 재설계, 리팩터링에 시간을 쏟다 보면 “눈앞의 결과는 빨리 보이지만, 전체 작업 시간은 늘어나는” 현상이 나타납니다.

5-2. 코드 품질과 유지보수

GitClear 등의 분석에 따르면, AI 도입 이후 “오래 살아남는 코드(몇 주 이상 유지되는 코드)”는 대략 10% 정도 늘었지만, 여러 품질 지표(중복, 복잡도, 일관성 등)는 오히려 악화되는 경향이 관찰됐습니다⁵.

또 다른 문제는 레포별·팀별 컨벤션을 잘 따르지 못한다는 점입니다.

네이밍, 모듈 구조, 예외 처리 패턴, 로깅 스타일 등을 레포 전체 기준으로 이해하기 어려워
비슷한 문제를 조금씩 다른 방식으로 해결한 코드가 이곳저곳에 생성됩니다⁵.

장기적으로 보면 기술 부채(Tech Debt)와 유지보수 비용이 늘어나기 쉬운 구조입니다. “당장은 동작하는데, 1~2년 후에 손대기 싫어지는 코드”가 쌓이는 셈입니다.

연구 차원에서도, LLM 기반 에이전트로 코드 리뷰를 자동화하면 버그나 코드 스멜을 잘 찾아내고 개선안을 제시할 수 있지만, 아직 인간 리뷰어를 완전히 대체할 수준의 안정성과 일관성에는 도달하지 못했다는 평가가 많습니다³.

5-3. 보안과 운영 상식의 부재

엔터프라이즈 환경에서 AI 코딩 에이전트를 쓸 때 가장 많이 지적되는 문제가 보안과 운영 관점입니다⁶.

예를 들어:

보안 모범 사례를 무시하고 옛날식 키 기반 인증, 오래된 SDK, 비추천 패턴을 제안한다든지
OS·셸 환경을 잘못 인식해 PowerShell에서 리눅스 명령을 계속 실행하려 든다든지
느린 머신에서 명령 결과가 나오기도 전에 “출력을 못 읽겠다”며 다시 시도하거나 작업을 스킵해 버리는 등

실제 운영 환경을 잘 모른 채 코드를 생산하는 일이 자주 있습니다⁶.

또 다른 심각한 부분은 보안 취약점 자체입니다. IDE용 AI 플러그인과 코딩 에이전트에서 발견된 IDEsaster 취약점 모음은, 다음과 같은 공격 시나리오를 보여줍니다².

프롬프트 인젝션으로 에이전트가 민감한 로컬 파일을 읽어오게 만들고
그 내용을 원격 JSON 스키마 등으로 위장해 외부 서버로 유출시키거나
IDE 설정 파일을 변조해 악성 바이너리를 기본 실행 경로로 지정, RCE를 유발하는 방식 등.

요약하면:

AI 코딩 에이전트는 “보안에 무지한 고속 인턴”과 비슷하다.
권한과 환경을 제한하고, 작업 내용을 모니터링할 장치를 만들지 않으면, 사고가 날 확률이 높다.

6. 개발자가 AI 코딩 에이전트를 쓸 때 지켜야 할 원칙

그렇다면 “쓰지 말자”가 답일까요?
실제로는, 적절한 범위와 원칙을 정해서 쓰는 게 훨씬 생산적입니다.

아래는 실무에서 바로 적용해 볼 만한 가이드입니다.

6-1. 개념 증명(PoC)·데모·내부 도구에 우선 적용하기

현재 수준의 코딩 에이전트는 다음 용도에서 특히 빛을 발합니다.

새로운 아이디어를 빠르게 구현해 보는 프로토타입
내부 운영팀/데이터팀이 쓰는 어드민 도구, 스크립트, 리포트 페이지
복잡도는 낮지만 반복 작업이 많은 자동화 스크립트

이 영역은:

외부 고객 트래픽과 직접 연결되지 않고
보안·성능·신뢰성 요구사항이 상대적으로 낮으며
실패하더라도 롤백·재구현이 비교적 저렴합니다.

반대로, 다음과 같은 영역은 매우 신중해야 합니다.

대규모 트래픽이 들어오는 핵심 비즈니스 API
돈, 건강, 개인정보와 직결된 시스템
규제가 강한 도메인(금융, 의료 등)

6-2. “AI가 만든 코드를 이해하지 못한 채 머지하지 않는다”

기본 중 기본입니다.
AI가 만든 코드는 Stack Overflow에서 긁어온 코드와 비슷합니다. 다만 더 길고, 더 그럴듯할 뿐입니다.

해당 코드 블록의 의도와 동작을 자신의 언어로 설명할 수 없으면
아직 PR에 올릴 준비가 안 된 것입니다.

특히 다중 파일에 걸친 대규모 변경을 한 번에 받아들이는 것은 매우 위험합니다.

권장하는 방식은:

에이전트에게 작업 범위를 작게 쪼개서 요청하고
각 단계별로 PR을 나누어 리뷰하며
자신이 이해한 만큼만 머지하는 것.

이 과정이 답답하게 느껴질 수 있지만, “한 번에 200개 파일을 고친 PR을 눈 감고 머지했다가 몇 주간 디버깅 지옥에 빠지는 것”보다는 훨씬 싸게 먹힙니다⁶.

6-3. 테스트와 모니터링은 인간 책임

AI 에이전트에게 유닛 테스트·통합 테스트 작성을 맡기는 건 좋습니다. 하지만:

테스트 자체에 버그가 없는지
중요한 경계 경우(엣지 케이스)가 빠지지 않았는지
비즈니스 규칙을 제대로 반영했는지

는 사람이 검증해야 합니다.

또한 배포 후에는 기존과 마찬가지로 로그, 알람, 메트릭 모니터링을 강화해야 합니다. “AI가 짰으니 더 안정적일 것”이라는 가정은 현실에서 거의 맞지 않습니다.

6-4. 보안·권한 관련 최소 원칙

에이전트 사용 시 다음을 기본 원칙으로 삼는 것이 좋습니다[^2]:

민감한 레포, 프로덕션 워크스페이스에서는 자동 파일 쓰기(auto-approve)를 끄기
에이전트가 접근할 수 있는 디렉터리·명령·네트워크 범위를 최소한으로 제한하기
외부 MCP 서버(모델 컨텍스트 프로토콜)나 플러그인을 연결할 때, 해당 서버가 어떤 데이터를 어디로 보내는지 파악하기
PR·이슈·README 등 외부에서 들어오는 텍스트에 “숨은 프롬프트 인젝션”이 있을 수 있다는 가정하에, 중요 작업은 수동 확인하기

요약하면, 기존 보안 원칙인 “최소 권한(least privilege)”와 “제로 트러스트”를 에이전트에도 그대로 적용해야 합니다².

6-5. 팀 차원에서 “AI 사용 규칙”을 문서화하기

개발자 각자가 제각각 AI를 쓰기 시작하면, 코드베이스는 금방 일관성을 잃고 보안 리스크도 커집니다.

따라서 팀 단위로 다음 정도는 정리해 두는 게 좋습니다.

어떤 종류의 작업에 AI 에이전트를 허용/권장/금지할지
AI가 작성한 코드의 리뷰 기준(테스트 필요 여부, 리뷰 레벨)
민감 정보(키, 토큰, 고객 데이터)를 프롬프트에 절대 넣지 않는 규칙
사용 가능한 에이전트·모델 목록과 버전, 허용된 권한 범위

이렇게 공통 규칙을 정해두면, “어느 날 누가 클라우드 에이전트에 전체 고객 데이터를 붙여 버렸다” 같은 사고 가능성을 줄일 수 있습니다.

시사점: AI 에이전트는 ‘마법사’가 아니라 ‘고속 인턴’이다

AI 코딩 에이전트는 이미 소프트웨어 개발 방식을 바꾸고 있습니다.

몇 시간 동안 혼자서 레포를 읽고, 코드를 고치고, 테스트를 돌리며
여러 LLM과 도구를 오케스트레이션해 “준비된 코드”를 만들어 줍니다.

하지만 그 실체를 알고 보면, 이들은 “언제 어디서든 실수가 가능한, 엄청나게 빠른 인턴”에 더 가깝습니다.

컨텍스트 한계 때문에 전체 시스템 맥락을 자주 놓치고
팀 컨벤션과 보안 모범 사례를 제대로 따르지 못하며
엔터프라이즈 환경의 운영 현실(환경, 인프라, 레거시 제약)에 둔감합니다.

생산성 면에서도, 숙련된 개발자에게는 “체감상으로는 도움 되지만, 실제 속도는 느려질 수도 있는” 양날의 검입니다⁵.

그래서 오늘의 결론은 이렇게 정리할 수 있습니다.

AI 코딩 에이전트는 “코드 생산량”을 늘리는 데 탁월하지만, “코드 품질과 유지보수 부담”은 반드시 사람이 책임져야 한다.
PoC·데모·내부 도구·반복 작업 자동화에 먼저 쓰고, 핵심 프로덕션에는 충분한 검증과 가드레일을 갖춘 뒤 단계적으로 도입하라.
“AI가 짠 코드를 이해하지 못한 채 머지하지 않는다”는 원칙을, 팀 차원에서 합의된 규칙으로 명문화하라.

AI 코딩 에이전트는 분명 강력한 도구입니다.
하지만 도구는 도구일 뿐입니다.

내가 이해하지 못하는 코드를 AI에게서 받아들일수록, 미래의 나와 팀원은 그 빚을 몇 배로 갚게 됩니다.

“AI에게 더 많은 일을 맡기기 전에, 내가 그 결과를 책임질 준비가 되어 있는가?”
이 질문을 계속 스스로에게 던지는 팀일수록, AI 에이전트를 진짜 잘 활용하는 팀이 될 가능성이 높습니다.

참고

¹How AI coding agents work—and what to remember if you use them

²Researchers Uncover 30+ Flaws in AI Coding Tools Enabling Data Theft and RCE Attacks

³AI-powered Code Review with LLMs: Early Results

⁴Agent Lightning: Adding reinforcement learning to AI agents without code rewrites

⁵AI coding is now everywhere. But not everyone is convinced.

⁶Why AI coding agents aren’t production-ready: Brittle context windows, broken refactors, missing operational awareness