02AI / Deep learning 1 페이지

본문 바로가기

HPC 최고의 자체 개발 미들웨어 솔루션

DreamFast Server / DTK / ThunderManager


AI / Deep learning


t_icon.pngCAE-Simulator ThunderBolt  AI-DL/ML 구성도 및 구조도 

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620051317_0715.png
 

 
4ef8fb3ada6d87177bcd354e5ca4cd4f_1620042515_0991.png 


t_icon.pngCAE-Simulator ThunderBolt  DeepLearning-Module 
10GPU DeepLearning-Module


4ef8fb3ada6d87177bcd354e5ca4cd4f_1620191195_3292.png 

 Processor   

:  (2) Intel  Xeon Scalable Processor / 2nd Gen Intel Xeon Scalable Processor Family

:  Max TDP   up to 205W

 Chipset       

:  Intel C621

:  Switch IC PLX PEX8796

 Slots 

:  (10) PCI-E Gen3 x16 slots (FH / 10.5"L / DW) / (1) PCI-E Gen3 x16 slot (FH / 10.5"L / SW)

:  Supporting up to 10GPUs

:  CPU-GPU Link Topology - Single-Root

 Memory Capacity

:  24 DIMM slots supporting up to 3TB 

:  DDR4 RDIMM/RDIMM 3DS/LRDIMM/LRDIMM 3DS 2933/2666 / DDR4 JEDEC NVDIMM 2666 / 

:  Intel Optane DC Persistent Memory Module (DCPMM)

 LAN:  (2) 10Gb-T ports Intel X550-BT2 

 Onboard Video

:  Onboard Aspeed AST2500
 I/O Ports

:  (2) USB3.0 ports (@ rear) / (2) USB3.0 ports (@ front)

:  (1) DB-9 COM port (@ front)

:  (1) D-Sub 15-pin port (@ front)

:  (2) 10GbE ports, (1) dedicated GbE for IPMI

 Drive bays

:  (12) 3.5" Hot-swap, Tool-less SSD/HDDs

 Management 

:  IPMI 2.0 compliant baseboard management controller (BMC) / 10/100/1000 Mb/s MAC interface

 Power Supply 

:  4,800Watts (200-240Vac input) PFC / 80 plus Platinum 3+1 Redundant

 Dimensions(H x W x D)

:  176mm x W438mm x D770mm (30.3”) 4U

 



5GPU DeepLearning-Module
4ef8fb3ada6d87177bcd354e5ca4cd4f_1620191215_9125.png 
 

 Processor   

:  (2) Intel  Xeon Scalable Processor / 2nd Gen Intel Xeon Scalable Processor Family

:  Max TDP   up to 205W

 Chipset       

:  Intel C621

 Slots 

:  (5) PCI-E Gen3 x16 slots (FH/FL/DW) / (1) PCI-E Gen3 x16 slot (FH/FL/SW)

:  Supporting up to 4GPUs

 Memory Capacity

:  12 DIMM slots supporting up to 1.5TB 

:  DDR4 RDIMM/RDIMM 3DS/LRDIMM/LRDIMM 3DS 2933/2666 / DDR4 JEDEC NVDIMM 2666 / 

:  Intel Optane DC Persistent Memory Module (DCPMM)

 LAN:  (2) 10Gb-T ports Intel X550-BT2 

 Onboard Video

:  Onboard Aspeed AST2500
 I/O Ports

:  (2) USB3.0 ports (@ rear) / (2) USB3.0 ports (@ front)

:  (1) D-Sub 15-pin port (@ front)

:  (2) 10GbE ports, (1) dedicated GbE for IPMI

 Drive bays

:  (8) 3.5" Hot-swap, Tool-less SSD/HDDs

 Management 

:  IPMI 2.0 compliant baseboard management controller (BMC) / 10/100/1000 Mb/s MAC interface

 Power Supply 

:  2000Watts (200-240Vac input) PFC / 80 plus Platinum 1+1 Redundant

 Dimensions(H x W x D)

:  176mm x W427mm x D700mm 4U


t_icon.pngCAE-Simulator ThunderBolt AI-DL/ML SW 
4ef8fb3ada6d87177bcd354e5ca4cd4f_1620040489_2621.png
 


CAE-Simulator ThunderBolt를 위한 소프트웨어 구조는 OS, MiddleWare, Application등으로 이루워져 있다.

1. Operating System(운영체제)

CAE-Simulator ThunderBolt 운영체제는 Linux를 기반으로 CAE-Simulatr 환경에 적합하도록 패치 및 보완을 하여 H/W에 최적화 하였으며, Multi-User 환경에서 잘 작동하도록 구성하였다. 특히, Firewall 패키지인 ThunderFirewall-v2 를 탑재하여, 해킹으로 부터 안전하도록 구성하였다.

2. MiddleWare(미들웨어)

(1) DreamFast Server - 자체개발솔루션
Sub-module(Computation)의 O/S 운영을 관장하는 DreamFast Server는 쉬운 모듈 관리 및 쉬운 프로그램 배포등 Admin User의 시스템관리에 들어가는 TCO(총비용)를 최소화 시켜준다. 또한 Disk 및 Diskless 모듈에도 적용가능하도록 유연성을 제공한다.
특히 서브모듈 O/S를 RAMROM기반으로 램에 탑재되어 작동되도록 작은 크기로 모듈화하여, 기존 시스템 및 타시스템 보다 수십배 빠른 O/S 응답 및 처리속도와 안정성을 구현하였다.

(2) DTK - 자체개발솔루션
Console 기반의 Cluster Management Tool로 아래와 같은 기능을 제공한다.
• Terminal base Cluster Management tools
• dtk_mond_clt Client Daemon
• dtk_mond_svr Server Daemon
• Cluster User Management(add, del, change)
• Cluster Process Management(job allocation, monitoring, kill)
• Cluster Node Management(Node halt & reboot)

(3) ThunderManager - 자체개발솔루션
Windows PC에서도 쉽게 사용할 수 있는Web기반의 CAE-Simulator Management Solution 으로, ① 모니터링 ② 사용자관리, ③ 시스템관리 ④ 라이센스관리, ⑤ 시스템무결성관리 ⑥ 서브노드관리 ⑦ Extra Tools, ⑧ 스토리지 관리 등으로 구성된다.


4ef8fb3ada6d87177bcd354e5ca4cd4f_1620051073_991.png

① 모니터링
• 모듈당 CPU/GPU 사용율 및 사용유저별 CPU 사용률, 프로세스 리스트, 업타임
• 모듈당 메모리 사용상황, 캐쉬 및 스왑메모리 상태, Disk I/O 상태
• 모듈당 네트워크 및 Infiniband 사용상황, 네트워크 파일 시스템 리스트
• 모듈별 top 프로세스 모니터링 
• CAE-Simulator 사용자 Login Status
• CAE-Simulator Scheduler 작업 상태 모니터링

m02_01_img_05.jpg


② 사용자 관리
CAE-Simulaotr 사용자의 일괄관리를 처리하는 부분으로 사용자 추가, 사용자 삭제, 사용자 변경, 그룹추가, 그룹삭제, 사용자 동기화등을 처리할 수 있다.

m02_01_img_06.jpg


③ 시스템 관리
CAE-Simulaotr 시스템을 관리하는 부분으로 디스플레이설정(Remote PC/RDP/공유기지원), 파워온/오프/리부트, 네트워크 주소설정, 보안기능설정, 쉘(Shell) 환경설정등을 할 수 있다.

m02_01_img_07.jpg


④ 라이센스 관리
Fluent, Abaqus, CFX, CFD-ACE등 FlexLM 을 기반으로 하는 application의 라이센스를 일괄관리 하도록 지원한다.

m02_01_img_08.jpg


⑤ 시스템무결성관리
정기적으로 시스템 무결성을 체크하고, 그 결과를 리포트 해 준다.

m02_01_img_09.jpg


⑥ 서브모듈관리
서브모듈의 부팅모드(Hybrid의 경우 Linux 또는 Windows) 설정, 모듈 콘솔실행, 스크래치 파일 삭제, PBS 로그삭제, 캐쉬제거등을 지원한다.

m02_01_img_10.jpg


⑦ Tools : Webterm, Ganglia, Webmin, Samba등 3rd Part Program을 지원한다.

⑧ 보고서기능 : 시스템의 각종 항목에대한 사용이력을 그래프로 보고하는 기능을 제공한다.

m02_01_img_11.jpg


⑨ 스토리지 관리

m02_01_img_12.jpg


ThunderManager를 통해 다양한 형태의 DAS, NAS, LUSTRE 등 클러스터 스토리지를 모니터링 및 관리할 수 있다.
주요 지원되는 기능은,

- 파일시스템 사용량 모니터링
- 노드상태 모니터링 및 Alarm
- Raid 상태 모니터링 및 Alarm 
- Raid Disk 상태 모니터링 및 Alarm
- Quota 설정 및 사용자별 디스크 사용량 체크
- Console 지원 : Host, RAID GUI, IPMI
- 스토리지 모듈의 일괄적 파워관리 지원

(Halt, Reboot, Power On, Power Off)

m02_01_img_13.jpg


3. 딥러닝 가상화센터(Optional)

HPC Korea에서 개발한, ThunderManager에 탑재가능한 선택형 모듈제품으로, CAE-Simulator의 자원을 가상화하여 사용자로 하여금 PC에서 웹브라우저를 통해 쉽고 편하게 작업을 등록/모니터링/관리 할 수 있도록 지원한다. 

- 웹기반 클러스터 자원가상화 및 해석작업관리
- 사용자 Web-VNC 자동생성/연결 및 rGPU가속


- 해석작업모듈의 주요기능
1) 작업제출, 작업관리, 작업 모니터링, 전·후처리작업, 작업결과 검색 및 재사용
2) 해석작업 스케쥴링 및 통합자원관리
3) 웹기반 작업폴더 관리 및 윈도우 네트워크 드라이브 연동 지원
4) 웹기반 작업 유틸 지원Emacs, to zip, tail –f, dos2unix, Hanterm
5) Linux의 권한과 인증기반, 엄격한 사용자 인증 및 작업 폴더 관리
6) X-Windows 기반 Pre/Post 프로그램의 연동 
7) 원격 데스크톱 기반 Pre/Post/Solver 연동

- 도입효과 : 
1) 쉽고 편리한 작업환경 및 자원가상화로 해석시간 단축을 통한 생산성 극대화
2) 쉬운 인터페이스로 복잡한 실행 단계를 단순화
3) 해석작업의 DB화로 검색 및 재사용
4) 웹하드 형태로 작업폴더를 쉽게 관리
5) 체계화된 자원배치로 시뮬레이터 활용성 제고

- 주요지원 프로그램
 Caffe, TensorFlow, Theano, Torch, 그외 Customizing Solver

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620041348_511.png

4ef8fb3ada6d87177bcd354e5ca4cd4f_1620041725_9554.png


 

회사소개 제품소개 제품문의 납품실적 자료실 묻고답하기 개인정보 취급방침
회사명 : 에이치피씨코리아(주)    / 대표자명 : 박명순    / 전화번호 : 042-610-6131~3/6135~7    / 팩스번호 : 042-610-6134    / www.hpckorea.co.kr
주소 : 대전광역시 서구 대덕대로 408 테크노월드 713호
COPYRIGHT (C) HPCKOREA. ALL RIGHTS RESERVED.