본문 바로가기

attention3

Transformer_5(기초부터 심화까지) 저번 시간 우리는 Multi-Head Attention 에 대해 배웠어요. 이번 시간에는 코드를 통해 Multi-Head Attention을 더 쉽게 이해해 봅시다! transformer_2 포스팅에서 우리는 Self-Attention이 이루어지는 과정을 코드를 통해 이해했어요. 그래서 Self-Attention과 Multi-Head Attention의 코드 구성이 어떻게 다르고 왜 다른지 이해해 봅시다. 먼저 저번 시간 이해했었던 Self-Attention 코드를 다시 한 번 보고 갈까요? 코드에 대해 다시 간단한 설명을 하자면 쿼리, 키, 밸류 선형 레이어를 정의하고, forward 함수에서 입력 시퀀스 내 단어 간의 관계를 반영한 어텐션 출력을 계산합니다. 스케일드 닷 프로덕트 어텐션 계산 - at.. 2023. 6. 28.
Transformer_4(기초부터 심화까지) 지금까지 Self-Attention, 쿼리-키-밸류, embedding, positional encoding 에 대해서 알아보았습니다. 이번 시간은 Multi-Head Attention 에 대해서 알아볼까요? Multi-Head Attention은 Transformer 모델에서 사용되는 주요 구성 요소 중 하나입니다. 기본적으로 Self-Attention 메커니즘을 여러 개의 "헤드(head)"로 분할하여 동시에 수행하는 것입니다. 이를 통해 모델은 다양한 표현 공간(representation space)에서 어텐션을 학습할 수 있습니다. Multi-Head Attention은 다음과 같은 과정으로 수행됩니다. 1. 입력 시퀀스의 임베딩 벡터를 받아옵니다. 2. 각 헤드에 대해 쿼리(Query), 키(K.. 2023. 6. 28.
Transformer_1(기초부터 심화까지) 요즘 정말 인기많은 Transformer에 대해 여러분들은 잘 아시나요? 혹시라도 모르신다면 괜찮습니다. 이번에 스스로 Transformer에 대해 공부하고 있어 글을 작성하게 되었습니다. 이 글을 처음부터 끝까지 다 읽으신다면 여러분들도 Transformer 고수?! 먼저 요즘 핫한 Transformer에 대해 알아보아요! Transformer란? 트랜스포머(Transformer)는 자연어 처리(NLP)와 기계 번역 등 다양한 분야에서 높은 성능을 보이는 딥러닝 모델입니다. 트랜스포머는 2017년에 Vaswani et al.의 논문 "Attention is All You Need"에서 처음 소개되었습니다. 트랜스포머의 핵심 개념은 셀프 어텐션(self-attention) 메커니즘입니다. 셀프 어텐션은 .. 2023. 6. 28.