다중 서버에서 측정한 데이터 전송 시간이 음수로 나타나는 문제가 발생하였다.
전송 시간은 [수신 시각 - 송신 시각]으로 계산하였는데, 이 값이 음수로 나타난 것은 서버들의 시간 동기화가 제대로 이루어져 있지 않기 때문으로 보인다.
이를 해결하기 위해, NTP(Network Time Protocol)로 서버들의 시간을 동기화하자.
(1) 전송 시간 측정 프로그램
서버 간의 데이터 전송 시간을 측정하기 위해, 다음과 같이 파이썬으로 구현된 소켓 통신 프로그램을 사용해보자.
소켓 통신 프로그램은 "파이썬에서 간단한 소켓 통신 예제"를 수정하였다.
먼저 서버 프로그램이다.
- 5번 라인에서 인자로 받은 서버의 ip 값을 저장한다.
- 6~9번 라인에서 서버 소켓을 열고 대기한다.
- 10번 라인에서 클라이언트로부터 데이터를 입력받는다. 데이터는 클라이언트에서 측정한 송신 시각이다.
- 11번 라인에서 수신 시각을 측정하고, 전달받은 송신 시각과의 차이를 출력한다. 각 시각은 마이크로초 단위이며, 자세한 내용은 "파이썬에서 Microsecond(마이크로초) 단위까지 시간 출력하기"를 참고한다.
| import socket import sys from datetime import datetime ip = sys.argv[1] server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM) server_socket.bind((ip, 12345)) server_socket.listen(0) client_socket, addr = server_socket.accept() data = client_socket.recv(65535) print(int(datetime.utcnow().strftime('%S%f')) - int(data)) | cs |
다음은 클라이언트 프로그램이다.
- 5번 라인에서 인자로 받은 서버의 ip 값을 저장한다.
- 6~7번 라인에서 서버와 연결을 요청한다.
- 8번 라인에서 서버에게 송신 시각을 측정하여 전달한다.
| import socket import sys from datetime import datetime ip = sys.argv[1] sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM) sock.connect((ip, 12345)) sock.send(datetime.utcnow().strftime('%S%f')) | cs |
이제 두 프로그램을 실행하여 전송 시간을 측정해보자.
두 개의 쉘을 열고, 먼저 서버 프로그램을 실행한다.
| [user@vm1~]$ python server.py vm1 | cs |
서버 프로그램이 실행된 후, 클라이언트로부터 연결을 대기하고 있다.
이제 다른 쉘에서 클라이언트 프로그램을 실행한다.
| [user@vm2 ~]$ python client.py vm1 [user@vm2 ~]$ | cs |
클라이언트 프로그램을 실행하면, 메시지 없이 프로그램이 바로 종료된다.
다시 서버 프로그램을 실행한 쉘로 돌아가보면, 숫자 값이 출력되어 있을 것이다.
이 숫자가 클라이언트에서 서버로 데이터를 송신할 때 걸린 전송 시간(단위: 마이크로 초)이 된다.
아래 예제에서는 1015 마이크로 초(1015 * 10^-6 초)로 측정되었다.
| [user@vm1 ~]$ python server.py vm1 1015 [user@vm1 ~]$ | cs |
(2) 동기화가 되지 않은 다중 서버
어떤 시간 동기화 작업을 하지 않은 경우, 운영 체제를 설치하면서 초기화했던 시간 덕분에 초 단위까지는 거의 비슷할 것이다.
하지만 앞서 (1)에서 설명한 전송 시간 측정 프로그램으로 다중 서버간의 전송 시간을 측정해보면 그 문제를 확인할 수 있다.
예를 들어, 동기화가 되지 않은 세 대의 CentOS 가상머신에서 서로 간의 전송 시간을 측정해보니 다음과 같은 결과가 나타났다.
<동기화가 되지 않은 다중 서버에서 데이터 전송 시간>
측정 결과를 보면, 전송 시간들의 편차가 매우 클뿐만 아니라 음수가 나타난 것을 알 수 있다.
즉, 송신 시각이 수신 시각보다 더 큰 것이다.
따라서 각 서버들의 시간을 반드시 동기화해야 한다.
(3) 공용 NTP 서버 time.bora.net를 이용한 동기화
시간 동기화에 가장 많이 쓰이는 프로토콜인 NTP로 동기화해보자.
동기화 기준으로는 공용 NTP 서버인 time.bora.net을 사용한다.
각 서버에서 다음 명령을 실행하고, 동기화가 잘 이루어지도록 10분을 대기하였다.
| sudo ntpdate –b time.bora.net | cs |
10분이 지난 후, (2)와 같이 (1)의 전송 시간 측정 프로그램으로 서버간의 전송 시간을 측정해보았다.
측정 결과는 아래와 같다.
<공용 NTP 서버를 통한 시간 동기화>
측정 결과를 보면, (2)의 동기화되지 않은 경우에 비해 전송 시간들의 편차가 많이 줄었다.
하지만 여전히 결과에 음수가 포함되어 있다.
이는, 공용 NTP 서버와의 통신에 필요한 hop의 수가 많다보니 서버마다 오차가 발생하기 때문이다.
결과의 음수들은 작게는 수십, 크게는 수백으로 나타났는데 이는 밀리 초 이하의 오차라는 것을 추정할 수 있다.
(4) 로컬 NTP 서버를 이용한 동기화
앞서 (3)에서의 동기화에 오차가 발생한 이유가 공용 서버와의 통신 hop이 많기 때문이라고 하였다.
이를 해결하기 위해, NTP 서버를 공용 서버가 아닌 로컬 서버로 지정한다.
현재 서버는 vm1, vm2, vm3가 있으며, 이 중 vm1을 로컬 NTP 서버로 지정하였다.
로컬 NTP 서버를 통한 동기화 방법은 다음 글을 참고한다.
Linux에서 Local NTP를 이용한 다중 서버의 시간 동기화하기
로컬 NTP 서버로 동기화한 후에 (1)의 전송 시간 측정 프로그램으로 서버간의 전송 시간을 측정해보았다.
측정 결과는 아래와 같다.
<로컬 NTP 서버를 통한 동기화>
측정 결과를 보면, 전송 시간의 편차가 크게 줄었을 뿐만 아니라 음수도 나타나지 않음을 알 수 있다.
이렇듯, 다중 서버에서 시간을 동기화할 때에는 공용 NTP 서버보다 로컬 NTP 서버를 사용한다면 오차를 최소화할 수 있다.
다중 서버의 시간 동기화를 위해 로컬 NTP 서버를 사용해보았다.
그 결과, 공용 NTP 서버에 비해 편차도 적으며 음수도 발생하지 않음을 확인하였다.
How to keep the time on multiple servers in sync, https://serverfault.com/questions/625072/how-to-keep-the-time-on-multiple-servers-in-sync/625696