임베딩(Embedding)
·
AI/BigData
임베딩이란 텍스트와 같은 이산적 데이터를 고차원 공간의 연속적인 수치 벡터로 변환하는 방법이다.Embed는 포함시키다, 깊숙히 박다 라는 뜻이 있다.텍스트나 이미지 등을 벡터 공간에 넣는 것을 의미하는 것이 임베딩이다.벡터 공간에 이산적 데이터를 포함 시켜 데이터 사이의 유사도를 수치적으로 표현한다.이를 통해 다양한 방법들로 유사한 데이터를 찾는 것이 임베딩 벡터의 목표라 할 수 있다.텍스트 데이터를 예로 들자면 과일(딸기, 사과, 용과)들의 언어의 유사도를 수치적으로 표현하는 것이다.임베딩의 특징밀집 표현(Dense Representation):임베딩은 원-핫 인코딩과 같은 희소 벡터와 달리 요소의 값이 0이 아닌 연속값으로 존재한다.원-핫 인코딩: https://coding-valley.tistory..
TroubleShooting: Traceback Error
·
개발일지/BrewWing
서버 실행중 Traceback error가 나오면서 서버가 멈추는 현상이 발생Traceback limit의 기본값이 10으로 설정 되어있다는 것을 확인import syssys.tracebacklimit = 50limit을 증가시켜 문제해결
TroubleShooting: 번역 텍스트 줄바꿈 없어짐 문제
·
개발일지/BrewWing
번역한 텍스트가 \n문자가 사라지는 문제 발생def translate_with_linebreaks(text): """ Translate text with line breaks text: str return: str """ lines = [line.strip() for line in text.split('\n') if line.strip()] translated = translator(lines, batch_size=8) return '\n'.join([t['translation_text'] for t in translated])문자열을 \n 기준으로 나눠서 개별 번역후 다시 합쳐서 반환하여 해결
번역 기능 추가
·
개발일지/BrewWing
번역 기능을 추가 하고자 facebook/nllb-200-distilled-600M 모델 사용from transformers import AutoTokenizer, AutoModelForSeq2SeqLMtokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")공식 문서를 참고하여 직접 모델을 로드하여 사용하려고 했으나번역 언어가 인식이 안되고 다른 언어로 번역하는 문제가 생김translator = pipeline( 'translation', model='facebook/n..
코딩밸리
'분류 전체보기' 카테고리의 글 목록 (4 Page)