스프레드시트 데이터 입력 원칙
스프레드시트 데이터 입력 원칙에 대해 알아 본다.
스프레드시트 데이터 입력 원칙
엑셀(Excel)이나 구글 시트(Google Sheets)처럼 행과 열로 구성된 표 형식 데이터를 일반적으로 스프레드시트(spreadsheet)라고 부른다. 스프레드시트는 데이터를 원활히 취합, 변형, 정리하기 위해 사용한다. 추가 기능을 통해 보고서 형식으로 작성할 수 있으나 이는 데이터를 다른다는 본래 기능을 갖춘 후 부수적인 작업으로 진행해야 한다.
데이터를 보다 효과, 효율적으로 처리하가 위한 몇가지 원칙을 알아 본다.
열 단위로 데이터 정리
스프레드시트 데이터는 열 단위로 데이터를 저장하는 것을 원칙으로 한다. 예로, 날짜별 기온을 정리한다면 첫 번째 열에 날짜와 두 번째 열에 기온을 입력한다. 물론 데이터가 늘어나면서 밑으로 길어지는 단점이 생기지만 이는 여러 방법을 통해 효율적으로 통제가 가능하다. 데이터 취합 시 열 단위로 정리하는 것이 이후 추가 작업을 원활히 진행할 수 있다.
날짜 | 기온 |
---|---|
4/01 | 17 |
4/02 | 18 |
4/03 | 19 |
참고로, 열로 정리하게 되면 보기는 편할 수 있으나 데이터를 취급하기엔 불편하다.
날짜 | 4/01 | 4/02 | 4/03 |
---|---|---|---|
기온 | 17 | 18 | 19 |
열 하나에 단일 정보만 지정
열 하나는 단일 정보만 지정하도록 한다. 예로, 날짜별 날씨가 아래와 같이 저장되어 있다면 날씨와 온도를 분리하여 저장한다.
날짜 | 날씨 |
---|---|
4/01 | 맑음 17 |
4/02 | 구름 18 |
4/03 | 맑음 19 |
날짜 | 날씨 | 기온 |
---|---|---|
4/01 | 맑음 | 17 |
4/02 | 구름 | 18 |
4/03 | 맑음 | 19 |
데이터 유형 유지
데이터가 숫자인 경우 숫자로만, 날짜인 경우 날짜 형식을 통일해서 저장한다. 숫자 경우 “,”로 구문을 하거나 화폐 단위를 입력하게 되면 숫자가 아닌 문자로 인식하게 되어 자료 가공 시 추가 작업을 수행해야 한다. 날짜 경우, “2025-04-06”, “2025.04.06” 등 날짜 표현 형식을 통일해야 날짜로 인식하게 된다. 년도가 없거나, 작성자마다 각각 편한 방법으로 입력을 하게 되면 데이터 가공시 불필요한 정제 작업을 진행해야 한다.
날짜 | 날씨 | 기온 | 누적강수량 |
---|---|---|---|
4/01 | 맑음 | 17 | 1010 |
2025-04-02 | 구름 | 18도 | 1010 |
2025.04.03 | 맑음 | 19 | 1,010 |
셀 병합 및 합치기 금지
같은 값을 같거나 가독성을 위해 행이나 열을 병햡 또는 합치는 경우가 있다. 이는 데이터 가공시 많은 주의와 노력을 요구하게 된다. 따라서 비 값으로 유지하거나 동일 값이더라도 명시해야 한다. 원본데이터를 꼭 사용해야 한다면 폰트 색을 변경해서 화면상 감추는 등 다른 방법을 통해 해결한다.
날짜 | 날씨 | 기온 |
---|---|---|
4/01 | 맑음 | 17 |
4/02 | 18 | |
4/03 | 구름 | 19 |
위와 같은 상황이면 아래와 같이 표면적으로 병합한 효과를 만들 수 있다.
날짜 | 날씨 | 기온 |
---|---|---|
4/01 | 맑음 | 17 |
4/02 | 맑음 | 18 |
4/03 | 구름 | 19 |
long 형식과 wide 형식
데이터를 정리함에 있어 long format과 wide format이 있다. 이는 데이터를 행과 열로 구성할 때 구조 차이를 설명하는 것으로 시계열 데이터 처리나 통계분석, 시각화 전처리 등에 사용된다.
항목 | long format | wide format |
---|---|---|
구조 | 관측값이 열(column)로 분리되지 않고, 변수 값으로 표현됨 | 각 변수나 시점이 열(column)로 분리됨 |
형태 | 행이 많고 열이 적음 | 행이 적고 열이 많음 |
용도 | 시각화(ggplot, seaborn 등), 통계 분석에 적합 | 사람이 읽기 쉬움, 요약표 형태 |
예시 | 각 날짜별 기온이 여러 행에 나열 | 날짜를 열로 나열하여 요약 |
1) wide format 예시
지역 | 4/01 | 4/02 | 4/03 |
---|---|---|---|
서울 | 17 | 18 | 19 |
부산 | 15 | 16 | 17 |
2) long format 예시
지역 | 날짜 | 기온 |
---|---|---|
서울 | 4/01 | 17 |
서울 | 4/02 | 18 |
서울 | 4/03 | 19 |
부산 | 4/01 | 15 |
부산 | 4/02 | 16 |
부산 | 4/03 | 17 |
사용 맥락별 장단점
관점 | long format | wide format |
---|---|---|
시각화 (예: seaborn) | 사용 가능 (선호됨) | 사용 불가 또는 변환 필요 |
피벗/집계 | 집계 처리 쉬움 | 피벗 처리 어려움 |
사람이 읽기 편함 | 다소 불편함 | 보기 쉬움 |
데이터 정규화 | 정규화된 구조 | 중복 포함됨 |
데이터 분석이나 머신러닝을 할 경우 long format이 훨씬 활용도가 높다.
반대로 보고용 표나 수기로 작성된 자료는 wide format인 경우가 많다.