최근 Z.ai가 GLM-OCR을 GitHub에 공개하면서, “텍스트만 뽑는 OCR”에서 “문서를 이해해 구조로 내보내는 OCR”로 한 단계 점프가 일어났습니다1. 특히 표·수식·다단 편집 같은 골치 아픈 PDF를 빠르게 구조화해, 개발 파이프라인에 바로 꽂을 수 있다는 점이 큽니다. GLM-OCR이 ‘문서 이해 OCR......
최근 알리바바가 공개한 Qwen-Image-2.0이 “고대 중국 서예와 파워포인트 슬라이드까지, 텍스트를 거의 완벽하게 그린다”는 소식이 나왔습니다1. AI 이미지 생성에서 늘 발목을 잡던 ‘글자 깨짐’ 문제를 정면 돌파했다는 점에서, 디자이너·마케터·개발자 모두에게 꽤 큰 사건입니다. 이번 글에서는 Qwen-Im......
z.ai(구 Zhipu)가 GLM-5를 공개했습니다. 핵심 메시지는 “그럴듯하게 코드를 뱉는 바이브 코딩을 넘어, 일을 끝내는 에이전틱 엔지니어링으로 가자”는 것인데요1. 이게 왜 중요하냐면, 이제 모델 경쟁 포인트가 “코드 한 줄 더 잘 짜요”가 아니라 “여러 단계 작업을 스스로 쪼개고, 도구를 쓰고, 실패하면 다......
최근 OpenAI가 Responses API를 “오래 일하는 AI 에이전트”에 맞춰 업그레이드했습니다. 핵심은 세 가지예요. 대화가 길어져도 안 잊어버리게 만들고(서버 사이드 컴팩션), 에이전트가 쓸 수 있는 안전한 터미널을 제공하고(호스티드 셸 컨테이너), 반복 업무 레시피를 재사용 가능한 꾸러미로 표준화(스킬......
구글 딥마인드가 연구용 추론 모드인 Gemini Deep Think로 수학·물리·컴퓨터과학의 “발견 속도”를 끌어올리겠다고 공개했습니다.1 단순히 답을 잘 맞히는 챗봇이 아니라, 논문·증명·반례 탐색까지 함께하는 ‘연구 파트너’로 진화하는 흐름이라 더 중요합니다. Gemini Deep Thi......
최근 구글 딥마인드 스핀오프 아이소모픽 랩스(Isomorphic Labs)가 ‘IsoDDE(Drug Design Engine)’라는 새 시스템을 공개하며 “AlphaFold 3를 넘어섰다”고 발표했습니다1. 단백질 ‘모양 맞히기’에 머물던 AI가 이제 “어디에 붙을 약을 어떻게 만들까?”까지 들어오기 시작했다는......
최근 바이트댄스가 AI 영상 생성 모델 Seedance 2.0을 제한 베타로 공개하며 “영상 AI가 또 한 번 점프했다”는 반응이 나왔습니다1. 단순히 잘 뽑아주는 수준을 넘어, 제작자가 원하는 스타일·동작·카메라·사운드를 참고자료로 ‘지시’할 수 있다는 점이 특히 중요합니다. 이 글에서는 Seeda......
앤트로픽이 ‘Cowork’를 공개했습니다. 대화만 하던 AI가 아니라, 내가 지정한 폴더 안에서 파일을 읽고 만들고 정리까지 해주는 ‘데스크톱 동료’에 가깝습니다.1 코딩 없이도 에이전트형 업무 자동화를 쓸 수 있다는 점에서, 생산성 툴 판이 한 단계 넘어가는 신호로 볼 만합니다. Cowork란? “채팅”이 아니......
최근 ChatGPT 딥 리서치(Deep Research) 결과를 “문서처럼” 읽을 수 있는 내장 뷰어가 추가됐습니다1. 딥 리서치가 내놓는 긴 보고서를 채팅창에서 스크롤 지옥으로 소비하던 문제를, 아예 ‘읽기 경험’으로 해결하려는 업데이트라서 의미가 큽니다. 이 글에서는 문서 뷰어가 뭐가 달라졌는지, 딥 리서치 자체는......
“실시간 음성인식(STT)은 서버에서 돌린다”는 상식이 흔들리는 데모가 공개됐습니다. Mistral의 Voxtral Mini 4B Realtime을 순수 Rust로 구현했을 뿐 아니라, 브라우저 탭에서(클라이언트 사이드) 스트리밍 전사까지 시연했거든요.1 핵심은 Burn 기반 추론 코드에 ......
ChatGPT의 Deep Research(딥 리서치)가 최근 업그레이드되면서 내부 구동 모델이 GPT‑5.2로 바뀌었고, 이제 사용자가 “이 사이트 안에서만 찾아봐”라고 범위를 직접 지정할 수 있게 됐습니다.1 여기에 외부 앱 연동, 실시간 진행 추적(중간 개입 가능), 전체 화면 리포트 출......
Rowboat는 이메일·회의 노트처럼 흩어진 업무 데이터를 PC 안에서 “지식 그래프(knowledge graph)”로 차곡차곡 쌓고, 그 맥락을 꺼내 문서·메일·브리핑을 만들어주는 오픈소스 AI 동료입니다1. 한 번 물어보고 끝나는 검색형 AI가 아니라, 시간이 지날수록 “기억이 자산처럼 불어나는” 장기 기억을 노리는 점이 ......
Clawe는 여러 AI 에이전트를 “개인 비서”가 아니라 “팀”으로 운영하기 위해 만든 오픈소스 협업 시스템입니다. Trello처럼 칸반 보드로 일을 나누고 진행도를 관리하되, 에이전트가 주기적으로 깨어나(heartbeat) 업무를 확인하고, 멘션/변경사항을 거의 실시간으로 알림 받으며, 같은 컨텍스트를 공유하도록 설계되......
동적 컨텍스트(동기화되는 지식 베이스)란, Gemini의 커스텀 AI인 ‘Gem’이 구글 문서 같은 외부 문서를 “지식 원천”으로 붙잡고 있다가 사용자가 질문할 때마다 그 문서를 근거로 답해주는 방식입니다. 핵심은 프롬프트에 매번 자료를 붙여 넣는 게 아니라, 지식이 문서에 남아 업데이트되면 답변도 함께 최신화될 수 있다는 점이에......
Voxtral Realtime 4B는 Mistral AI의 스트리밍 음성-텍스트(STT) 모델로, “말하자마자 자막이 따라오는” 실시간 전사를 목표로 합니다. 흥미로운 건 모델 자체보다도, 이를 순수 C(Pure C)로 구현한 추론 파이프라인이 공개되면서 “Python도 CUDA도 없이, 표준 C 라이브러리만으......
“LLM에게 스키마를 넣었는데 SQL이 엉망이에요.” 이 말, 데이터 팀이라면 한 번쯤 해보셨을 겁니다. 문제는 스키마가 길어서가 아니라, 에이전트가 ‘필요한 조각을 찾아 읽고, 확인하고, 고치고’ 하는 방식으로 컨텍스트를 다뤄야 하는데 그 설계가 허술한 경우가 많다는 점입니다. 최근 연구는 최대 10,000개 ......
Transformers.js는 “브라우저에서도 돌아가는 허깅페이스 추론 라이브러리”로 알려져 있지만, v4 프리뷰의 메시지는 한 단계 더 큽니다. 이제 GitHub 소스를 붙잡고 씨름하지 않아도 npm i @huggingface/transformers@next 한 줄로 v4를 설치해 실험할 수 있고, WebGP......
Gemini Canvas는 “AI 채팅 + 문서 편집기”를 한 화면에 합친 작업 공간입니다. 그냥 질문하고 답을 받는 데서 끝나는 게 아니라, 문서를 쓰는 순간부터 요약·확장·톤 변경·개선 제안, 심지어 인포그래픽/퀴즈/웹페이지로 변환까지 한 번에 이어지는 게 핵심이에요. 다만 초보자가 가장 많이 막히는 포인트가 하나......
AI “환각(hallucination)”은 그럴듯하게 말하지만 사실이 아닌 내용을 만들어내는 현상입니다. 한동안 “요즘 모델은 검색만 붙이면 거의 안 틀린다”는 분위기가 있었죠. 그런데 스위스·독일 연구진이 공개한 새 벤치마크 Halluhard는, 최신 상위 모델조차 웹 검색을 켜도 오답/허구가 꽤 자주 나온......
iPaaS(Integration Platform as a Service)는 흩어진 업무 시스템과 데이터를 “하나의 통합 허브”처럼 연결해 주는 클라우드 기반 통합 플랫폼입니다. 예전에는 시스템을 하나 더 도입하면 생산성이 올라갔지만, AI 시대에는 연결이 느슨한 순간 AI의 학습·추론·자동화가 전부 흔들립니다. 이 글에서는 왜 ......