Columns
- Slug: 리뷰를 가져온 사이트 주소
- All_text: 스크래핑한 모든 텍스트
- Rating: 커피에 대한 점수
- Roaster: 로스팅한 위치
- Name: 커피의 이름
- Location: 로스터의 위치
- Origin: 커피의 원산지
- Roast: 로스팅 정도
- Est_price: 가격/양
- Review_date: 리뷰 작성일자
- Agtron: 커피의 로스팅 정도 분쇄전/분쇄후
- Aroma: 커피의 향/10점만점
ex) 꽃, 과일, 견과류, 초콜릿 등 - Acid: 산미/10점 만점
- Body: 질감, 무게감, 농도 등/10점 만점
- Flavor: 포괄적인 맛과 향/10점 만점
- After_taste: 뒷맛, 향의 지속정도
- desc_1: 세세한 맛의 평가
단어 위주, 풍미, 향, 끝맛 등 세세하게 표기 - desc_2: 맛 평가 및 로스터의 정보 위치 등
텍스트 형식 - desc_3: 전체적인 맛의 평가
달콤한 풍미의 케냐 커피, 꽃 향기와 균형잡힌 구조 같은 전체적인 평가
커피의 평가
rating aroma acid body flavor aftertaste with_milk
count 2440.000000 2427.000000 2126.000000 2439.000000 2439.000000 2439.000000 325.000000
mean 93.043443 8.821178 8.517874 8.610086 8.953670 8.098811 8.855385
std 1.704659 0.436576 0.566858 0.512434 0.371108 0.500691 0.515809
min 80.000000 6.000000 6.000000 6.000000 6.000000 5.000000 5.000000
25% 92.000000 9.000000 8.000000 8.000000 9.000000 8.000000 9.000000
50% 93.000000 9.000000 9.000000 9.000000 9.000000 8.000000 9.000000
75% 94.000000 9.000000 9.000000 9.000000 9.000000 8.000000 9.000000
max 98.000000 10.000000 10.000000 10.000000 10.000000 10.000000 10.000000
위와 같이 각 맛에 대한 점수는 대체적으로 높은 점수에 집중되어 있어
원두를 구별하는데에 사용할 수 없을 것으로 판단
맛에 대한 평가가 적혀있는 desc_1, desc_3 컬럼을 사용하여 분별
텍스트 데이터에 대한 처리가 필요할 것으로 판단
'개발일지 > BrewWing' 카테고리의 다른 글
| TroubleShooting: 번역 텍스트 줄바꿈 없어짐 문제 (0) | 2025.02.04 |
|---|---|
| 번역 기능 추가 (1) | 2025.02.04 |
| TroubleShooting: Llama 답변 구조 문제 (0) | 2025.01.29 |
| TroubleShooting: 답변 줄 정리 (0) | 2025.01.29 |
| 데이터 전처리 (0) | 2025.01.04 |