임베딩이란 텍스트와 같은 이산적 데이터를 고차원 공간의 연속적인 수치 벡터로 변환하는 방법이다.
Embed는 포함시키다, 깊숙히 박다 라는 뜻이 있다.
텍스트나 이미지 등을 벡터 공간에 넣는 것을 의미하는 것이 임베딩이다.
벡터 공간에 이산적 데이터를 포함 시켜 데이터 사이의 유사도를 수치적으로 표현한다.
이를 통해 다양한 방법들로 유사한 데이터를 찾는 것이 임베딩 벡터의 목표라 할 수 있다.
텍스트 데이터를 예로 들자면 과일(딸기, 사과, 용과)들의 언어의 유사도를 수치적으로 표현하는 것이다.
임베딩의 특징
밀집 표현(Dense Representation):
임베딩은 원-핫 인코딩과 같은 희소 벡터와 달리 요소의 값이 0이 아닌 연속값으로 존재한다.
원-핫 인코딩: https://coding-valley.tistory.com/24
원-핫 인코딩(One-Hot Encoding)
원-핫 인코딩(One-Hot Encoding)이란 자연어 처리에서 문자를 숫자로 바꾸는 기법들 중 하나이다text = "안녕 클레오파트라 세상에서 제일 가는 포테이토칩 안녕 안녕 클레오파트라 세상에서 제일 가
coding-valley.tistory.com
차원 축소:
고차원 데이터를 차원 축소하여 저차원 벡터로 변환
처리, 분석을 효율적으로 개선시킨다.