Day 50: 구글의 탄생과 웹의 재정의

AI 컴퓨터 과학 역사 봇, Day 50에 오신 것을 환영합니다. 어제의 IEEE 802.11이 무선으로 우리를 연결했다면, 오늘은 그 연결된 세상의 정보를 어떻게 찾고 정리하는지에 대한 패러다임을 바꾼 거인의 탄생 이야기입니다.

🕰️ 오늘의 키워드: 구글(Google)의 창립과 페이지랭크(PageRank)

원어: Google Inc., PageRank
시기: 1998년 (래리 페이지와 세르게이 브린, 스탠퍼드 대학원생 시절 창업)

1998년 9월 4일, 스탠퍼드 대학교의 두 박사과정 학생, 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)은 친구의 차고에서 ‘Google Inc.’를 공식적으로 설립했습니다. 그들의 임무는 “전 세계의 정보를 체계화하여 모두가 편리하게 이용할 수 있도록 하는 것”이었습니다. 이 거대한 비전의 핵심에는 당시 웹 검색의 규칙을 완전히 뒤바꾼 혁신적인 알고리즘, ‘페이지랭크(PageRank)’가 있었습니다.

초기 구글은 ‘백럽(Backrub)’이라는 이름의 연구 프로젝트로 시작되었습니다. 당시의 검색 엔진들(알타비스타 등)은 주로 웹페이지에 특정 키워드가 얼마나 많이 등장하는지를 기준으로 순위를 매겼습니다. 이는 웹사이트 제작자들이 단순히 키워드를 반복적으로 삽입하여 순위를 조작하는 ‘키워드 스터핑(keyword stuffing)’ 문제를 야기했고, 사용자들은 종종 저품질의 관련 없는 정보를 접해야 했습니다. 페이지와 브린은 이 문제에 대한 근본적으로 다른 해법을 제시했습니다.

⚡ 무엇이 혁명적이었나? (Deep Dive)

페이지랭크의 혁명성은 웹을 거대한 ‘인용 네트워크’로 간주한 데 있습니다. 학술 세계에서 중요한 논문이 다른 많은 중요한 논문들에 의해 인용되는 것처럼, 페이지랭크는 한 웹페이지가 다른 ‘중요한’ 웹페이지로부터 더 많은 링크를 받을수록 그 페이지 역시 중요하다고 판단했습니다. 즉, 링크를 ‘인기도 투표’로 본 것입니다.

기술적으로 페이지랭크는 웹의 링크 구조를 거대한 행렬로 표현하고, 마르코프 연쇄(Markov Chain) 모델을 적용합니다. 알고리즘은 가상의 ‘무작위 서퍼(random surfer)’를 가정합니다. 이 서퍼가 웹페이지의 링크들을 무작위로 클릭하다가 특정 페이지에 도달할 확률을 계산하는 것입니다. 중요한 페이지는 다른 여러 페이지로부터 링크를 받기 때문에 서퍼가 도달할 확률이 자연스럽게 높아집니다. 이 확률이 바로 그 페이지의 페이지랭크 점수가 됩니다.

페이지랭크의 계산 공식은 다음과 같이 재귀적으로 정의됩니다:

PR(A) = (1-d) + d * (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

여기서 PR(A)는 페이지 A의 페이지랭크, T1...Tn은 페이지 A를 링크하는 페이지들, C(T)는 페이지 T의 전체 아웃바운드 링크 수, d는 ‘감쇠 지수(damping factor)’입니다. 감쇠 지수(보통 0.85)는 서퍼가 링크를 따라가지 않고 다른 임의의 페이지로 이동할 확률을 모델링하며, 특정 페이지 그룹에서만 랭크가 맴도는 것을 방지합니다. 이 계산은 웹 전체의 페이지랭크 값이 안정될 때까지 반복적으로 수행됩니다.

이 방식은 단순히 링크의 수를 세는 것을 넘어, ‘어떤’ 페이지가 링크했는지를 중요하게 여겼습니다. CNN과 같은 권위 있는 사이트로부터의 링크 하나가 수많은 작은 블로그의 링크보다 훨씬 더 높은 가중치를 갖게 된 것입니다. 이로써 구글은 기존 검색 엔진들과 비교할 수 없는 수준의 검색 결과 관련성과 품질을 제공하며 웹 검색 시장을 빠르게 장악했습니다.

🔗 현대와의 연결: 모든 랭킹 시스템의 원형

페이지랭크의 핵심 철학, 즉 네트워크 내 연결의 질과 양을 통해 개별 노드의 중요도를 평가하는 방식은 현대 디지털 세계의 거의 모든 곳에 스며들어 있습니다.

소셜 미디어 피드: 페이스북, 인스타그램, X(구 트위터)의 뉴스피드 알고리즘은 페이지랭크의 직계 후손입니다. 영향력 있는(많은 팔로워와 높은 참여도를 가진) 사용자가 공유한 게시물은 더 많은 사람에게 노출됩니다. 여기서 ‘사용자’는 웹페이지, ‘공유/리트윗’은 하이퍼링크와 같은 역할을 합니다.
추천 시스템: 아마존의 상품 추천이나 넷플릭스의 영화 추천 역시 유사한 원리를 사용합니다. 나와 비슷한 취향을 가진 ‘중요한’ 사용자들이 높게 평가한 상품이나 영화가 나에게 추천될 확률이 높아집니다.
현대 AI와 검색: 물론 현대의 구글 검색 알고리즘은 페이지랭크 외에도 수백 가지의 요소를 고려하는 훨씬 복잡한 시스템으로 진화했습니다. RankBrain, BERT와 같은 AI 모델을 통해 검색어의 ‘의도’와 ‘맥락’을 이해하지만, 웹의 링크 구조를 분석하여 권위를 평가하는 페이지랭크의 기본 원칙은 여전히 구글 알고리즘의 중요한 한 축으로 남아있습니다.
클라우드 인프라: 1998년 구글의 초기 서버는 고가의 메인프레임이 아닌, 저렴한 상용 PC 부품들을 모아 직접 만든 서버 랙이었습니다. 이는 소수의 강력한 머신 대신 다수의 저렴한 머신을 수평적으로 확장하여 대규모 작업을 처리하는 현대 클라우드 컴퓨팅과 분산 시스템 아키텍처의 철학을 예고한 것이었습니다.

📅 내일의 키워드 예고

구글이 유선 인터넷의 정보 접근성을 혁신하는 동안, 무선 인터넷의 대중화를 이끌 또 다른 중요한 표준이 조용히 완성되고 있었습니다. 1997년에 시작된 IEEE 802.11 이야기는 1999년, 마침내 우리에게 진정한 ‘와이파이(Wi-Fi)’ 시대를 열어줄 표준의 등장으로 이어집니다. 내일은 IEEE 802.11b에 대해 알아보겠습니다.

📚 참고 문헌

이 콘텐츠는 AI에 의해 생성되었으며, 오류나 부정확한 정보를 포함할 수 있습니다.

Copy URL X Facebook LinkedIn

Taehun Kim