예전부터 지도상의 좌표를 주소로 변환의 정확성을 높이기 위해 ML을 적용해야겠다는 생각만 했었는데, 오늘은 그 생각을 실행하기 전에 우선 약 5만개의 우편번호 데이터베이스에 우편번호에 해당하는 좌표간의 거리를 Km로 변환하고 5만x5만 행렬을 만들었다. 제법 100MB 넘는 행렬 데이터를 가진 텍스트 파일이 만들어졌다.

그런데 막상 R을 이용해서 MDS plot을 생성하려고 하는데,,, 여기 저기서 에러가 -.- 한참만에 알아낸건 바로 원본 DB에 문제가 있었다.

1) 중복되는 우편번호가 있다. (원래 그런건가??, 이건 배포하는 우편번호를 보고 확인해봐야겠다)
2) 우편번호가 달라도 좌표가 같은 것들도 있다.(이건 내가 만들때 그렇게 만들었기 때문에,,,)
3) 좌표값이 없는 우편번호가 존재한다. (이건 또 왜그래,,,)

zip
삐뚤빼뚤 우편번호 행렬 ^^ - 시작하자마자 저 0들은 ㅋㅋㅋ

그외에도 정확성에도 문제가 있고,,, 여러 문제가 있어 다시 우편번호DB를 만드는 것이 정신 건강상 좋을것 같다. 다시 한번 느끼는 거지만, 원본 데이터가 깨끗해야 하는것이 기본이거늘,,,,

서울 은평구
서울 은평구 지역만 MDS plot을 생성해봤는데,,, 뒤집고 엎고 하니 실제 지도와 비슷한 그래프 탄생 ^^;;

mds

불광동 아래에 녹번, 응암동이 위치하고, 불광 좌측으로 갈현, 역촌, 구산,  신사, 수색동이 위치한다.



Posted by hongiiv

2008/06/30 21:18 2008/06/30 21:18
, ,
Response
No Trackback , 3 Comments
RSS :
http://socmaster.homelinux.org/~hongiiv/rss/response/425

Trackback URL : http://socmaster.homelinux.org/~hongiiv/trackback/425

Comments List

  1. terra19 2008/07/01 10:07 # M/D Reply Permalink

    생물학관련 데이터들도 표준화가 안돼서 힘들때가 많아요. ㅠ ㅠ

    1. hongiiv 2008/07/01 11:21 # M/D Permalink

      완벽한? 데이터셋을 가지고 분석해야 하거늘,,, 항상 불완전한 데이터셋을 가지고 하다보니 엉망입니다. ㅋㅋㅋ 겨우겨우 짜 맞추어서 결과를 내고 있으니,,,캬캬캬

  2. 강부자아들 2008/07/15 17:45 # M/D Reply Permalink

    http://www.zipfinder.co.kr/ 여기서 예전에 우편번호 검색기 제공했었는데
    그 주소로 Geocoding해서 이용도 가능하겠네요.
    거기서 엑셀VBA검색기 제공했는데 암호풀어서 사용하면 괜찮을 것 같습니다.
    www.geocoding.co.kr도 참고하세요

Leave a comment
[로그인][오픈아이디란?]
« Previous : 1 : ... 69 : 70 : 71 : 72 : 73 : 74 : 75 : 76 : 77 : ... 447 : Next »


0


Site Stats

Total hits:
220959
Today:
52
Yesterday:
253