Langchain 과 OpenAI 를 이용한 데이터 임베딩과 RAG(Retrieval-Augmented Generation)
임베딩이란?자연어처리에서 사람이 쓰는 자연어를 기계가 이해할 수 있도록 숫자형태인 Vector로 바꾸는 과정 혹은 일련의 전체 과정을 의미한다.One-Hot Enconding단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이다.아이폰10000갤럭시01000애플워치00100맥북00010갤럭시북00001 위와같은 형태의 벡터 데이터를 가질 수 있다.One-Hot Encoding 의 단점위와 같은 벡터데이터에는 각 데이터의 크기와 상관없이 데이터 할당량 자체가 특정 사이즈로 고정되어있어 데이터크기 측면에서 불리한 점이 있다. 희소 벡터(Sparse vector)가 생긴다는 문제단어의 개수가 늘어나면 벡터의 차원이..
R&D
2024. 7. 5. 10:23