| 김홍기의 Semantic Focus |
태깅(Tagging)의 존재 이유 |
 |


김홍기 hgkim@snu.ac.kr
미국 조지아 대학교 인공지능센터 연구원과 단국대학교 경영정보학 전공 교수를 거쳐, 현재 서울대학교 치과대학 교수로서 Biomedical Knowledge Engineering Lab을 운영하고 있다. 주 연구 분야는 온톨로지 공학과 Semantic Web으로, 의료 분야를 비롯한 여러 비즈니스 도메인에 Semantic Web을 적용하는 것에 대해 수년간 연구 개발의 경험을 가지고 있다.
2007년 7월 10일
|
|
 |
|
웹의 기본 정신으로 돌아가자. 팀 버너스 리는 웹의 가장 중요한 특징 중 하나로 연결성(connectivity)을 강조하였다. 분산된 환경에서 정보와 사람들이 서로 연결되는 가상공간이 바로 웹인 것이다. 정보의 연결성(information connectivity)을 의미적 차원에서 구현하는 기술을 Semantic Web이라고 한다면, 사회적 연결성(social connectivity)을 위한 참여와 개방적 웹 애플리케이션을 구현하는 것이 웹 2.0의 정신인 것이다. 이에 더해 서비스간의 연결성, 디바이스간의 연결성, 연결성을 위한 지능적 에이전트 기술 등이 강조되면서 새로운 개념이 만들어지고 있지만, 결국 웹의 기본정신에서 본다면 다 같은 것이다.
웹의 탄생에는 HTML이란 마크업 언어가 있었다. 마크업이라고 하는 것은 원래 활자의 모양을 정하나 바꾸기 위해 조판을 지정해 주는 표시다. 태그(tag)라고도 불리는 표시(mark)들을 텍스트에 붙이는데 이 표시들에 대한 의미, 문법과 같은 사용 규칙의 집합을 마크업 언어라고 한다.
XML은 웹을 거대한 데이터베이스로 만들기 위한 데이터 표현 언어로 자리잡은 지 오래되었다. XML 기반의 RDF(S)나 OWL은 Semantic Web 구현을 위해 필수적인 온톨로지 표현을 위한 마크업 언어로 제안되었다. 블로그에서 이미 보편적으로 쓰이는 RSS도 RDF의 일종이고 전세계의 수많은 웹 페이지가 RDF로 된 메타데이터를 포함하고 있으므로 이미 Semantic Web은 알게 모르게 현실화된 기술이라 할 수 있다.
문제는 이런 마크업 기술, 혹은 태깅에 대한 목적과 범위를 다르게 이해함에 따라 위에서 언급한 차세대 웹 브랜드들 간에 간혹 충돌이 생긴다는 점이다. 대표적인 예가 최근 “온톨로지는 과대 평가되었다”라고 주장한 Clay Shirky다. 그는 온톨로지적인 분류 체계를 만드는 것은 엄밀함과 엄청난 노력이 들지만 완벽할 수도 없고, 세상의 지식이 변함에 따라 실용적이지도 못하다는 것이다. 관점에 따라 온톨로지는 다르게 만들어질 수도 있고, 잘 만들어졌다고 해도 사용 목적이 다르면 다른 곳에서는 쓰일 수도 없게 된다는 것이다. 특히 정보 검색에 있어서는 잘 만들어진 어떤 온톨로지도 사용자 관점을 제대로 반영할 수 없으므로 검색 결과를 오히려 제한할 수도 있게 된다. 의료 분야나 자연과학과 같이 개념 체계가 잘 변하지 않고, 온톨로지를 엄밀하게 만들 수 있는 분야 외에는 온톨로지는 쓰임이 별로 없다는 것이다.
온톨로지와 같은 중앙집중적이고 하향(top-down)적인 방식의 복잡한 태깅보다는 플리커(Flickr)나 del.icio.us에서 쓰이는 폭소노미(folksonomy)적인 집단 태깅이 훨씬 더 쓰임새가 있다는 주장을 웹 2.0 진영에서는 꾸준히 하고 있다. 온톨로지에 대한 가장 널리 알려진 정의를 내린 톰 그루버(Tom Gruber)도 RealTravel이란 웹 2.0 회사를 만들고 집단 태깅에 대한 연구를 하고 있으니 말이다.
구글과 같은 페이지 랭킹(ranking) 방식의 검색 엔진을 이런 집단 태깅 기술이 대체할 수도 있을 것이다. 예를 들어, 블로그나 웹 사이트에 대해 수많은 사람이 나름의 관점에서 태깅을 한다고 했을 때, 특정 사이트에 대한 태그들에 대한 빈도와 태그들 사이의 연관 정도, 그리고 태깅을 한 사람들 사이의 사회적 관계 정도를 잘 계산할 수 있다면, 태그 기반으로 사용자에게 원하는 정보를 더 정확하게 찾아줄 수 있을 것이다. 태그는 조직의 지식관리시스템이나 데스크톱 문서 관리에도 사용될 수 있다. 태그는 진화할 뿐만 아니라 집단 별로 태그 사용 방식이 다르므로 사회과학적 연구도 가능하다. 최근 태깅 서비스를 위한 여러 프로젝트가 진행되고 있는데, 국내 연구자들 중심으로 이루어지고 있는 SCOT 프로젝트가 그 중 한 예다.
그렇다면 온톨로지와 태깅 기술은 완전히 서로 다른 길을 가고 있는 것인가? 온톨로지 기반의 Semantic Web은 또 다른 이름의 인공지능(AI) 기술로서 상아탑에만 갇혀있을 기술인가? 온톨로지에 대한 다양한 관점과 접근 방식이 존재하고 있다. 엄밀성을 강조하는 Formal Ontology적인 접근은 철학적 실재론에 기반을 두고 의료, 자연과학, 지리, 건축, 기계, 항공 분야 등에서 특정 목적의 온톨로지를 구축하는 데 사용되고 있다. 자연언어 처리 분야에서는 엄밀한 의미의 온톨로지보다는 자연어 검색 등에 사용될 수 있는 시소러스 형태의 온톨로지를 구축하고 있다.
데이터베이스적인 관점에서는 RDF의 단방향적 그래프 구조는 거대한 웹 관계형 데이터베이스를 반영하며, SPARQL은 RDF의 질의어로 제안되었다. 중요한 것은 Semantic Web 기술을 하나의 관점에서만 바라보는 것은 기술을 왜곡할 수 있으므로 매우 위험하다는 것이다. Social Network를 위한 FOAF나 SIOC, 집단 태깅을 위한 SCOT 온톨로지 등은 메타데이터적인 접근으로서 Semantic Web과 웹 2.0을 연결하는 접근인 것이다. 태깅에 대한 규칙(혹은 개념)을 명료하고 직관적으로 표현하는 표준적인 온톨로지는 더욱 다양한 태깅 서비스를 위해 반드시 필요하다.
[지난 developerWorks Column 보기]
|