Post
새소식
- Chirpy Theme 7.2.0 업데이트

스프레드시트 데이터 입력 원칙

스프레드시트 데이터 입력 원칙에 대해 알아 본다.

스프레드시트 데이터 입력 원칙

스프레드시트 데이터 입력 원칙

엑셀(Excel)이나 구글 시트(Google Sheets)처럼 행과 열로 구성된 표 형식 데이터를 일반적으로 스프레드시트(spreadsheet)라고 부른다. 스프레드시트는 데이터를 원활히 취합, 변형, 정리하기 위해 사용한다. 추가 기능을 통해 보고서 형식으로 작성할 수 있으나 이는 데이터를 다른다는 본래 기능을 갖춘 후 부수적인 작업으로 진행해야 한다.

데이터를 보다 효과, 효율적으로 처리하가 위한 몇가지 원칙을 알아 본다.

열 단위로 데이터 정리

스프레드시트 데이터는 열 단위로 데이터를 저장하는 것을 원칙으로 한다. 예로, 날짜별 기온을 정리한다면 첫 번째 열에 날짜와 두 번째 열에 기온을 입력한다. 물론 데이터가 늘어나면서 밑으로 길어지는 단점이 생기지만 이는 여러 방법을 통해 효율적으로 통제가 가능하다. 데이터 취합 시 열 단위로 정리하는 것이 이후 추가 작업을 원활히 진행할 수 있다.

날짜기온
4/0117
4/0218
4/0319

참고로, 열로 정리하게 되면 보기는 편할 수 있으나 데이터를 취급하기엔 불편하다.

날짜4/014/024/03
기온171819

열 하나에 단일 정보만 지정

열 하나는 단일 정보만 지정하도록 한다. 예로, 날짜별 날씨가 아래와 같이 저장되어 있다면 날씨와 온도를 분리하여 저장한다.

날짜날씨
4/01맑음 17
4/02구름 18
4/03맑음 19
날짜날씨기온
4/01맑음17
4/02구름18
4/03맑음19

데이터 유형 유지

데이터가 숫자인 경우 숫자로만, 날짜인 경우 날짜 형식을 통일해서 저장한다. 숫자 경우 “,”로 구문을 하거나 화폐 단위를 입력하게 되면 숫자가 아닌 문자로 인식하게 되어 자료 가공 시 추가 작업을 수행해야 한다. 날짜 경우, “2025-04-06”, “2025.04.06” 등 날짜 표현 형식을 통일해야 날짜로 인식하게 된다. 년도가 없거나, 작성자마다 각각 편한 방법으로 입력을 하게 되면 데이터 가공시 불필요한 정제 작업을 진행해야 한다.

날짜날씨기온누적강수량
4/01맑음171010
2025-04-02구름18도1010
2025.04.03맑음191,010

셀 병합 및 합치기 금지

같은 값을 같거나 가독성을 위해 행이나 열을 병햡 또는 합치는 경우가 있다. 이는 데이터 가공시 많은 주의와 노력을 요구하게 된다. 따라서 비 값으로 유지하거나 동일 값이더라도 명시해야 한다. 원본데이터를 꼭 사용해야 한다면 폰트 색을 변경해서 화면상 감추는 등 다른 방법을 통해 해결한다.

날짜날씨기온
4/01맑음17
4/0218
4/03구름19

위와 같은 상황이면 아래와 같이 표면적으로 병합한 효과를 만들 수 있다.

날짜날씨기온
4/01맑음17
4/02맑음18
4/03구름19

long 형식과 wide 형식

데이터를 정리함에 있어 long format과 wide format이 있다. 이는 데이터를 행과 열로 구성할 때 구조 차이를 설명하는 것으로 시계열 데이터 처리나 통계분석, 시각화 전처리 등에 사용된다.

항목long formatwide format
구조관측값이 열(column)로 분리되지 않고, 변수 값으로 표현됨각 변수나 시점이 열(column)로 분리됨
형태행이 많고 열이 적음행이 적고 열이 많음
용도시각화(ggplot, seaborn 등), 통계 분석에 적합사람이 읽기 쉬움, 요약표 형태
예시각 날짜별 기온이 여러 행에 나열날짜를 열로 나열하여 요약

1) wide format 예시

지역4/014/024/03
서울171819
부산151617

2) long format 예시

지역날짜기온
서울4/0117
서울4/0218
서울4/0319
부산4/0115
부산4/0216
부산4/0317

사용 맥락별 장단점

관점long formatwide format
시각화 (예: seaborn)사용 가능 (선호됨)사용 불가 또는 변환 필요
피벗/집계집계 처리 쉬움피벗 처리 어려움
사람이 읽기 편함다소 불편함보기 쉬움
데이터 정규화정규화된 구조중복 포함됨

데이터 분석이나 머신러닝을 할 경우 long format이 훨씬 활용도가 높다.
반대로 보고용 표나 수기로 작성된 자료는 wide format인 경우가 많다.

참고자료

This post is licensed under CC BY 4.0 by the author.