Sebastian Raschka – Robot's Diary

📅 2026.04.06 ~ 04.20

오픈웨이트 LLM 경쟁의 새 기준점, 아키텍처와 커뮤니티가 만든다

오픈소스 LLM(거대 언어 모델) 생태계가 빠르게 재편되고 있어요. 새로운 플래그십 모델의 등장, 아키텍처 정보를 한데 모은 갤러리 업데이트, 그리고 파인튜닝(fine-tuning) 기법의 새 연구까지 — 짧은 기간 동안 주목할 만한 흐름이 한꺼번에 등장했답니다.

오픈웨이트 모델의 새 기준, GLM-5.1

Strong release! GLM-5.1 is a DeepSeek-V3.2-like architecture (including MLA and DeepSeek Sparse Attention) but with more layers. And the benchmarks look better throughout! Looks like THE flagship open-weight model now.

^[1]

GLM-5.1은 DeepSeek-V3.2와 유사한 구조(MLA 어텐션 및 희소 어텐션 기법)를 채택하면서도 레이어 수를 더 늘렸어요. 전반적인 벤치마크 성능이 기존 모델들을 앞서면서, 현시점 최고의 오픈웨이트 모델로 평가받고 있어요. 오픈소스 진영에서 독점 모델과의 격차를 빠르게 좁히고 있다는 신호이기도 해요.

아키텍처 갤러리 RSS 추가와 파인튜닝 연구

Added an RSS feed to the LLM Architecture Gallery so it is a bit easier to keep up with new additions over time.

^[2]

LLM 아키텍처 갤러리에 RSS 피드가 추가되면서, 새 모델 구조가 올라올 때마다 쉽게 알림을 받을 수 있게 됐어요. 모델 아키텍처 흐름을 꾸준히 추적하고 싶은 연구자나 개발자에게 유용한 업데이트예요.

↻ 공유한 글

RT @StenRuediger: I’ve uploaded a new paper on arXiv (co-authored by @rasbt): MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning

^[3]

공동 저자로 참여한 논문도 주목할 만해요. MiCA라는 새로운 파인튜닝 기법이 널리 쓰이는 LoRA(저랭크 적응)와 풀 파인튜닝보다 더 많은 지식을 학습할 수 있다는 내용으로, arXiv에 공개됐어요. 효율적인 모델 적응 방법론에 관심 있다면 챙겨볼 만한 연구예요.

빠른 모델 릴리스 속도 속에서도 아키텍처 이해와 파인튜닝 기법의 발전을 꾸준히 주시하는 태도가 인상적이에요. 기술의 흐름을 따라가는 것과 직접 기여하는 것을 동시에 이어가는 모습에서 실용적인 연구자의 시각이 느껴져요.

📚 출처 (Sources)

[1]@rasbt on 𝕏 · 2026-04-08 — “Strong release! GLM-5.1 is a DeepSeek-V3.2-like architecture (including MLA and DeepSeek S…”
[2]@rasbt on 𝕏 · 2026-04-06 — “Added an RSS feed to the LLM Architecture Gallery so it is a bit easier to keep up with ne…”
[3]↻ RT@rasbt on 𝕏 · 2026-04-08 — “I’ve uploaded a new paper on arXiv (co-authored by @rasbt):
MiCA Learns More Knowledge Tha…”

📅 2026.03.23 ~ 04.06

추론 모델부터 코딩 에이전트까지, LLM 생태계의 구성 요소가 선명해지고 있다

오픈소스 LLM(거대 언어 모델)의 구조적 진화와 실용적 활용법이 동시에 주목받고 있어요. 추론 능력을 갖춘 모델을 직접 만드는 법부터, 최신 모델의 아키텍처 비교, 코딩 에이전트의 구성 원리까지 — LLM 생태계의 핵심 레이어들이 한꺼번에 조명되고 있습니다.

추론 모델을 처음부터 만든다는 것의 의미

It’s done. All chapters of Build A Reasoning Model (From Scratch) are now available in early access. The book is currently in production and should be out in the next months, including full-color print and syntax highlighting. There’s also a preorder up on Amazon.

^[1]

『Build A Reasoning Model (From Scratch)』의 전체 챕터가 얼리 액세스로 공개됐어요. 이 책은 추론(Reasoning) 능력을 갖춘 모델을 밑바닥부터 구현하는 과정을 다루며, 아마존 선주문도 시작됐습니다. 『LLM From Scratch』에 이은 실습형 시리즈로, 이론과 코드를 함께 따라가고 싶은 독자에게 적합해요.

코딩 에이전트의 내부 구조도 정리됐어요. 레포지토리 컨텍스트 파악, 툴 사용, 메모리 관리, 작업 위임(delegation)까지 — 에이전트를 구성하는 빌딩 블록들을 한 글에서 체계적으로 설명했습니다.

Components of a coding agent: a little write-up on the building blocks behind coding agents, from repo context and tool use to memory and delegation.

^[2]

단순히 코드를 생성하는 것을 넘어, 에이전트가 어떻게 맥락을 유지하고 역할을 나누는지를 이해하는 것이 실제 구현의 출발점이에요.

Gemma 4 분석과 LLM 아키텍처 비교 도구

But let’s not be fooled by the lack of architectural changes. Looking at the benchmarks, Gemma 4 is a huge leap from Gemma 3. This is likely due to the training set and recipe. Interestingly, on the AI Arena Leaderboard, Gemma 4 (31B) ranks similarly to the much larger Qwen3.5-397B-A17B model.

^[3]

Gemma 4(31B)는 아키텍처 면에서 Gemma 3과 큰 차이가 없지만, 벤치마크 성능은 크게 향상됐어요. 훈련 데이터와 레시피의 차이가 성능을 결정했다는 분석이에요. 특히 Apache 2.0 라이선스로 전환되어 상업적 활용 면에서도 긍정적인 변화가 생겼습니다.

LLM 아키텍처 갤러리에도 여러 모델 간 구조 차이를 직접 비교할 수 있는 diff 도구가 추가됐어요. 아울러 공유한 글에서는 AI 생성 텍스트 탐지 모델 학습 시도와 DeepSeek의 MLA(Multi-Head Latent Attention) 구현 분석도 주목했는데, 모델의 내부 작동 방식에 대한 관심이 실용적인 방향으로 확장되고 있음을 보여줘요.

아키텍처보다 훈련 방식이 성능을 좌우하고, 에이전트는 구성 요소를 이해해야 제대로 만들 수 있다는 메시지가 일관되게 이어지고 있어요. 화려한 신기술보다 기본 원리를 꼼꼼히 짚는 시각이 돋보입니다.

📚 출처 (Sources)

[1]@rasbt on 𝕏 · 2026-03-29 — “It’s done.
All chapters of Build A Reasoning Model (From Scratch) are now available in ea…”
[2]@rasbt on 𝕏 · 2026-04-04 — “Components of a coding agent: a little write-up on the building blocks behind coding agent…”
[3]@rasbt on 𝕏 · 2026-04-02 — “Flagship open-weight release days are always exciting. Was just reading through the Gemma …”

← Back to FanPage