CAE-Simulator ThunderBolt를 위한 소프트웨어 구조는 OS, MiddleWare, Application등으로 이루워져 있다.
1. Operating System(운영체제)
CAE-Simulator ThunderBolt 운영체제는 Linux를 기반으로 CAE-Simulatr 환경에 적합하도록 패치 및 보완을 하여 H/W에 최적화 하였으며, Multi-User 환경에서 잘 작동하도록 구성하였다. 특히, Firewall 패키지인 ThunderFirewall-v2 를 탑재하여, 해킹으로 부터 안전하도록 구성하였다.
2. MiddleWare(미들웨어)
(1) DreamFast Server - 자체개발솔루션
Sub-module(Computation)의 O/S 운영을 관장하는 DreamFast Server는 쉬운 모듈 관리 및 쉬운 프로그램 배포등 Admin User의 시스템관리에 들어가는 TCO(총비용)를 최소화 시켜준다. 또한 Disk 및 Diskless 모듈에도 적용가능하도록 유연성을 제공한다.
특히 서브모듈 O/S를 RAMROM기반으로 램에 탑재되어 작동되도록 작은 크기로 모듈화하여, 기존 시스템 및 타시스템 보다 수십배 빠른 O/S 응답 및 처리속도와 안정성을 구현하였다.
(2) DTK - 자체개발솔루션
Console 기반의 Cluster Management Tool로 아래와 같은 기능을 제공한다.
• Terminal base Cluster Management tools
• dtk_mond_clt Client Daemon
• dtk_mond_svr Server Daemon
• Cluster User Management(add, del, change)
• Cluster Process Management(job allocation, monitoring, kill)
• Cluster Node Management(Node halt & reboot)
(3) ThunderManager - 자체개발솔루션
Windows PC에서도 쉽게 사용할 수 있는Web기반의 CAE-Simulator Management Solution 으로, ① 모니터링 ② 사용자관리, ③ 시스템관리 ④ 라이센스관리, ⑤ 시스템무결성관리 ⑥ 서브노드관리 ⑦ Extra Tools, ⑧ 스토리지 관리 등으로 구성된다.
① 모니터링
• 모듈당 CPU/GPU 사용율 및 사용유저별 CPU 사용률, 프로세스 리스트, 업타임
• 모듈당 메모리 사용상황, 캐쉬 및 스왑메모리 상태, Disk I/O 상태
• 모듈당 네트워크 및 Infiniband 사용상황, 네트워크 파일 시스템 리스트
• 모듈별 top 프로세스 모니터링
• CAE-Simulator 사용자 Login Status
• CAE-Simulator Scheduler 작업 상태 모니터링
② 사용자 관리
CAE-Simulaotr 사용자의 일괄관리를 처리하는 부분으로 사용자 추가, 사용자 삭제, 사용자 변경, 그룹추가, 그룹삭제, 사용자 동기화등을 처리할 수 있다.
③ 시스템 관리
CAE-Simulaotr 시스템을 관리하는 부분으로 디스플레이설정(Remote PC/RDP/공유기지원), 파워온/오프/리부트, 네트워크 주소설정, 보안기능설정, 쉘(Shell) 환경설정등을 할 수 있다.
④ 라이센스 관리
Fluent, Abaqus, CFX, CFD-ACE등 FlexLM 을 기반으로 하는 application의 라이센스를 일괄관리 하도록 지원한다.
⑤ 시스템무결성관리
정기적으로 시스템 무결성을 체크하고, 그 결과를 리포트 해 준다.
⑥ 서브모듈관리
서브모듈의 부팅모드(Hybrid의 경우 Linux 또는 Windows) 설정, 모듈 콘솔실행, 스크래치 파일 삭제, PBS 로그삭제, 캐쉬제거등을 지원한다.
⑦ Tools : Webterm, Ganglia, Webmin, Samba등 3rd Part Program을 지원한다.
⑧ 보고서기능 : 시스템의 각종 항목에대한 사용이력을 그래프로 보고하는 기능을 제공한다.
⑨ 스토리지 관리
ThunderManager를 통해 다양한 형태의 DAS, NAS, LUSTRE 등 클러스터 스토리지를 모니터링 및 관리할 수 있다.
주요 지원되는 기능은,
- 파일시스템 사용량 모니터링
- 노드상태 모니터링 및 Alarm
- Raid 상태 모니터링 및 Alarm
- Raid Disk 상태 모니터링 및 Alarm
- Quota 설정 및 사용자별 디스크 사용량 체크
- Console 지원 : Host, RAID GUI, IPMI
- 스토리지 모듈의 일괄적 파워관리 지원(Halt, Reboot, Power On, Power Off)
3. 딥러닝 가상화센터(Optional)
HPC Korea에서 개발한, ThunderManager에 탑재가능한 선택형 모듈제품으로, CAE-Simulator의 자원을 가상화하여 사용자로 하여금 PC에서 웹브라우저를 통해 쉽고 편하게 작업을 등록/모니터링/관리 할 수 있도록 지원한다.
- 웹기반 클러스터 자원가상화 및 해석작업관리
- 사용자 Web-VNC 자동생성/연결 및 rGPU가속- 해석작업모듈의 주요기능1) 작업제출, 작업관리, 작업 모니터링, 전·후처리작업, 작업결과 검색 및 재사용
2) 해석작업 스케쥴링 및 통합자원관리
3) 웹기반 작업폴더 관리 및 윈도우 네트워크 드라이브 연동 지원
4) 웹기반 작업 유틸 지원Emacs, to zip, tail –f, dos2unix, Hanterm
5) Linux의 권한과 인증기반, 엄격한 사용자 인증 및 작업 폴더 관리
6) X-Windows 기반 Pre/Post 프로그램의 연동
7) 원격 데스크톱 기반 Pre/Post/Solver 연동
- 도입효과 : 1) 쉽고 편리한 작업환경 및 자원가상화로 해석시간 단축을 통한 생산성 극대화
2) 쉬운 인터페이스로 복잡한 실행 단계를 단순화
3) 해석작업의 DB화로 검색 및 재사용
4) 웹하드 형태로 작업폴더를 쉽게 관리
5) 체계화된 자원배치로 시뮬레이터 활용성 제고
- 주요지원 프로그램 Caffe, TensorFlow, Theano, Torch, 그외 Customizing Solver