오늘 매드매스에 다룰 주제는 네트워크 특집 3탄이라네. 지난 1탄에서는 네트워크 이론의 기초라고 할 수 있는 그래프 이론에 대하여 살펴보았고, 2탄에서는 네트워크 이론의 간단한 내용과 데이터 저널리즘에서 네트워크를 활용한 사례를 보았지. 오늘은 조금 더 깊이 있는 내용으로 준비해보았네. 본격적인 내용에 들어가기 앞서서 퀴즈를 한 번 내 보겠네.
🧐 QUIZ QUIZ
미국의 4대 테크 기업 MAGA의 G는 어느 곳일까?
거대 IT 기업 FAANG에도 G는 등장한다네
7월 기준으로 살펴보니 이 기업은 전 세계 시총 5위 기업이구만
전 세계 압도적 1위의 검색엔진 기업이기도 하지.
정답은... 바로바로바로! G는 Google을 의미한다네. FAANG은 들어본 친구들이 많을 텐데 MAGA는 조금 생소할 수 있으니 설명해주겠네. MAGA는 2018년 이후 서구권에서 주로 사용되는 4대 테크 기업들이라네. 마이크로소프트(MS), 애플(Apple), 구글(Google), 아마존(Amazon)의 앞글자를 딴 것이지. FAANG에는 마이크로소프트 대신 페이스북과 넷플릭스가 들어가 있지.
갑자기 구글 이야기는 왜 하냐는 벗들이 있는 것 같구만. 설명해주겠네. 우리는 그래프 이론, 네트워크 이론을 통해 점과 점 사이의 관계를 살펴보려고 했었다고 알려주었지? 관계가 복잡하고 네트워크의 크기가 커질수록 관계망 안에서 어떤 노드가 중요한 노드인지를 파악하는 게 중요해졌네. 수많은 개체들 가운데 알짜배기가 어떤 녀석인지, 왜 그 녀석이 알짜배기의 역할을 하는지 파악하고 싶은 것이지.
네트워크 이론에서는 이렇게 알짜배기 노드를 중심성(Centrality)이라는 개념을 통해서 중요도를 파악하고 있네. 구글은 이 중요도를 파악하는 특별한 방법(!)을 발명해 냈고 그걸 검색엔진에 적용해서 엄청난 성공을 거두었지! 오늘은 이 중심성에 대하여 살펴보려고 한다네.
위의 그림은 우리 탐정사무소가 21대 국회의원의 공동발의 데이터를 네트워크 분석한 자료일세. 자세한 기사를 보고 싶으면 아래 링크를 클릭하면 된다네. 여튼 각설하고, 공동발의 네트워크의 주요 지표별로 상위 10위에 해당하는 의원들을 그려봤는데, 연결중심성, 매개중심성 등등 설명이 필요한 지표들이 있지? 지금부터 설명 들어가겠네.
1. Degree Centrality(연결중심성_Cd)
가장 기본적이고, 간단한 척도가 바로 연결중심성이라네. 연결중심성은 노드에 연결된 선의 개수로 판단하는 지표일세. 더 많은 선이 연결된 점이 더 중요하다고 판단하는 건데, 규모가 큰 네트워크일수록 연결중심성도 커지므로 공정 비교가 되지 않는다는 한계가 있네. 이를테면 100명을 친구로 둔 초등학교 전교 회장과 50명을 친구로 둔 초선 국회의원의 네트워크를 비교했을 때 연결중심성으로만 보면 초등학교 전교 회장의 영향력이 더 크다고 볼 수 있는 것이지.
2. Closeness Centrality(근접중심성_Cc)
접중심성에서는 직접적 연결관계뿐만 아니라 간접적인 연결관계를 고려하는 지표라네. 점과 점 사이의 거리를 계산해서 최단거리로 이동 가능한 점을 찾아내는 방법이지. 전체 관계망에서 하나의 점의 중심성이 얼마나 되는지를 계산해내는 거라네. 근접중심성이 높아진다면 네트워크 안에서 정보의 교류라던가, 영향력이 더 높다고 해석할 수 있을 거라네.
3. Betweenness Centrality(매개중심성_Cb)
매개중심성은 오직 그 중간 역할을 하는 노드만 찾기 위한 중심성 지표라네. 노드 간의 최단경로 사이에 위치하는 중간다리를 찾아내는 것이지. 국회의원의 공동발의 네트워크를 분석해본다면 관계망에서 매개중심성이 높은 의원은 의원 사이의 중개 역할을 하고 정보교환이나 자원 흐름에 대한 중재 능력이 있다고 볼 수 있지.
하지만 단순히 선의 개수만 가지고 연결의 중심을 파악하는 건 한계가 있다네. 연결중심성에서 이야기했던 것처럼 네트워크 간의 비교도 어렵고 말이지. 그런 여러 가지 제약을 보완하기 위해서 나온 게 바로 고유벡터 중심성 지표라네. 고유벡터 중심성 지표는 노드의 중요도를 파악해서 그걸 가중치로 부여하는 중심성 지표라네. “핵심 인물과 연결된 인물이 중요한 인물이다”를 알고리즘으로 풀어본 것이지.
이름에서 알 수 있듯 선형대수에서 등장하는 고유벡터(eigenvector)를 사용하는 것인데 내용이 복잡하니 설명은 이 정도로 마무리하겠네. 궁금한 벗들은 한번 구글에 검색해 보게나!
하지만 고유벡터 중심성 역시 완벽한 것은 아니었네. 미국의 한 공돌이는 고유벡터 중심성보다 더 발전된 알고리즘을 1998년 발표했지. 이름하여 페이지랭크(PageRank). 페이지랭크를 고안한 사람은 래리 페이지라는 학생이었네. 그리고 그는 이 알고리즘을 토대로 검색 엔진을 만들었으니… 그것이 바로 구글이었네!
구글은 여전히 페이지랭크 알고리즘에 기반해 엔진을 돌리고 있다더군. 일부 가중치나 수치만 수정이 되었을 뿐 여전히 유효한 방법론이지. 자, 이제 왜 구글의 성공 뒤에는 네트워크 이론이 있다는 지 알 수 있겠지? 오늘 꼭꼬가 준비한 매드매스는 여기 까지라네. 혹시 궁금한 사항 있으면 언제든지 피드백으로 남겨주게나! 그럼 다음 주까지 안뇽~!