피플 애널리틱스의 숨은 영웅 : 데이터 가공과 표준화
피플 애널리틱스People Analytics(이하 'PA')의 열기가 뜨겁다.
피플 애널리틱스의 숨은 영웅 : 데이터 가공과 표준화
제호 : 2021년 10월호, 등록 : 2021-09-24 10:56:05



피플 애널리틱스People Analytics(이하 'PA')의 열기가 뜨겁다. 미국과 유럽, 그리고 국내에서도 많은 글로벌 기업들과 스타트업들이 데이터팀을 만들고 HR에도 데이터 기반Data-informed의 의사결정체계를 구축하려 하고 있다. 이들이 PA에 투자하는 이유는 분명하다. 고객 가치를 만들어내는 혁신의 주체가 바로 조직을 구성하는 사람들, 즉 임직원들이기 때문이다.



데이터 가공, 어떻게 수행해야 하나
많은 사람들이 데이터 표준화의 중요성을 강조한다. 데이터가 무분별하게 산재되어 있고 분석에 적합하지 못한 경우가 많기 때문이다. PA 역시 예외는 아니다. 구성원에 대한 데이터나 이들의 활동 데이터들은 대부분 민감한 정보로, 차후 취합보다는 당면한 과제를 위해 협의 없이 생성되어 데이터 표준화가 제대로 되어 있지 않은 경우가 많다. 통계 분야에서 유명한 '들어온 것이 쓰레기라면 나가는 것도 쓰레기다Garbage in, Garbage out'라는 경구는 PA에서도 다르지 않기에 이들 데이터에 대한 표준화와 적절한 가공이 필요하다. 그렇다면 데이터 가공은 어떻게 수행해야 할까? 

데이터 가공은 ETL(추출Extraction, 변환Transfer, 적재Load)이라고 불리는 전처리를 말한다. 필요한 데이터를 고르고 취합하며 오류와 일관성을 확인하는 일련의 작업들이다. 전처리는 데이터 분석 과정 중 70~80% 이상이 소요될 수 있고 분석의 질을 결정하기 때문에 데이터 표준화가 전처리의 시간, 비용, 효율을 크게 높여줄 수 있다.

데이터 표준화를 위해서는 적합한 기술 인프라, 가공과 분석의 전문성 확보, 그리고 해당 인력들의 지원이 중요하다. 데이터 가공과 분석은 초보자나 무경험자가 배워가며 실전에 바로 적용하기엔 적합하지 않다. 초기 투자비용이 크더라도 애널리틱스의 활용 가치가 크다면 데이터와 분석의 전문성 확보는 현명한 투자다. 그리고 이들이 성장하며 기여할 수 있는 환경도 반드시 만들어 주어야 한다. 규격화된 데이터 인프라란 존재하지 않으며 빠른 기술 변화의 지속적 업데이트가 중요하기 때문이다. 같은 관계형 데이터베이스여도 제품마다 타 시스템과의 호환성과 유지 보수 차이가 크다. 관계형 데이터베이스는 수많은 동시 접속이나 분산환경, 다양한 애플리케이션 환경에선 확장성이 떨어진다. 클라우드 환경이라면 아직 일반적이진 않지만 관계형 데이터베이스를 보완하고자 나온 NoSQL 데이터베이스들도 선택지로 고려해 볼 수 있다. 반가운 소식은 행과 열로 이루어진 정형데이터든 텍스트나 음성, 영상이나 파일시스템 등의 비정형 데이터든 다양한 데이터를 저장하는 솔루션들이 이미 나와 있고 비용과 안정성 측면에서도 꾸준히 향상되고 있다는 점이다. 하지만 한 번 선택하고 나서 변경하려면 더 큰 비용과 많은 어려움이 생기기 때문에 기술 인프라 선택 시 꼼꼼한 기획과 점검이 필요하다. 

지면의 성격상 데이터를 가공하고 표준화하는 방법을 구체적으로 논하긴 어렵지만, 자주 발생하는 상황들 위주로 간단하게 살펴보고자 한다. 데이터 전처리는 주로 SQL(Structured Query Language)이나 R, 혹은 Python 코딩을 통해 이루어진다. 하나의 정답이 있는 것이 아니다. 같은 방법 내에서도 수많은 기술 환경이 존재하며 필요 시 보완적 사용도 가능하다. 인사에서는 비즈니스 인텔리전스라고 불리는 도구와 대시보드를 주로 사용하지만 이들은 데이터를 변경하거나 가공할 때는 사용이 매우 제한적이다. 인사부서가 기본적인 전처리를 배우고 데이터 및 분석 전문가와 협업하는 것은 분석에 적합하고 유용한 데이터를 확보하기 위해 반드시 필요한 일이다.

많은 사람들이 오해하는 2가지가 있다. 하나는 정형데이터와 비정형데이터가 서로 섞이지 않는다는 인식이고 다른 하나는 관계형 데이터베이스와 NoSQL 데이터베이스가 서로 상치하는 배타적 환경이라는 인식이다. 하지만 비정형 데이터인 문장이나 사진도 적합한 분석과 해석 시 열과 행으로의 데이터 전환을 거친다. 필요한 임직원의 학습정보나 협업데이터 역시 관계형 데이터베이스나 NoSQL 데이터베이스로 저장할 수 있다. 전자는 스키마Schema를 통해 데이터 구조와 관계를 미리 정해야 하고 변경이 어려운 반면, 후자는 스키마는 더 용이하지만 기술환경은 복잡하고 상용화의 역사가 상대적으로 길지 않다. 데이터 표준화는 데이터의 적합성과 확장성을 확보한다는 의미를 갖는다. 이를 위해 데이터와 기술 환경, 분석의 전문성이 수반되어야 한다. 따라서 인사나 PA팀의 독자적 결정이 아닌 IT를 비롯한 조직 전체의 합의, 특히 의사결정자들과 데이터 사용자들과의 협의와 합의가 무엇보다 중요하다.


작은 성공으로 피플 애널리틱스의 기반을 잡아라 
필자는 미국과 한국 양국에서 PA를 대학원 수업으로 가르치고 있다. 수업에 참여하는 학생들의 대부분은 인사나 교육담당자들이고, PA과제를 리드한 적이 없으며, 조직의 PA인프라도 취약한 경우가 많다. 하지만 모두가 개별 프로젝트를 수행하며 짧게는 2주에서 길게는 6주 동안 예외 없이 프로젝트를 완성한다. 프로젝트의 필수 조건들은 다음과 같다. PA를 적극 지원할 리더를 확보할 것, 조직의 전략적 이슈여야 하며 연관된 데이터가 설문이나 시스템상의 데이터로 존재할 것, 그리고 분석을 통한 추천들이 조직과 구성원들에게 실질적 가치를 줄 것이라는 조건이다. 프로젝트의 종류는 조직에서의 비대면 교육 운영과 효과, 물품 구매 과정과 벤더 관리 향상, 마케팅 채널의 비용 대비 효과 등 매우 다양하다. 그만큼 PA의 적용범위가 매우 다양하고 조직마다 우선순위가 다름을 의미한다.

공통적 피드백은 처음엔 PA가 어렵게 느껴지고 생소했지만 직관과 경험에 의존했던 결정들을 데이터를 통해 할 수 있게 되었다는 것, 더 배우고 적용해보고 싶은 것들이 분명해졌다는 것, 그리고 프로젝트를 현장에서 수행하는 과정에서 새로운 기회들을 발견하고 소통의 중요성, 필요한 자원의 확보를 구체화할 수 있었다는 것이다.

PA 베스트 프랙티스 기업들이 강조하는 점 역시 작은 경험이라도 가시성과 기여도가 높은 경험이 중요하다는 것과, 끊임없이 기술과 도메인의 전문성을 부서들과의 밀접한 협업을 통해 향상시켰으며 현재도 그렇다는 점이다. PA의 핵심을 구성하지만 숨은 영웅이라 할 수 있는 데이터와 분석에 대한 더 많은 관심과 투자가 생겨나길 바란다. 



 
* 윤승원 교수는 텍사스 에이앤엠-커머스 대학교에서 조직 리더십, 평가, 통계, 연구방법론, 피플 애널리틱스를 가르치고 있다. 일리노이대학교에서 박사학위를 취득했고 IT 프로젝트 매니저로 다년간 일한 바 있다. HRD분야의 대표저널인 Human Resource Development Quarterly의 부편집장으로 재직 중이며 주 연구분야는 네트워크 분석과 컴퓨테이셔널 사회과학이다. 다양한 국내 및 국외 기업들과 데이터 분석 자문 및 프로젝트들을 수행하고 있다.
윤승원 텍사스 에이앤엠-커머스 대학교 교수
 
 
  • 리스트로 이동