하이거

판교핫뉴스1

모바일 기기에서도 알파고 알고리즘 실행 가능성을 열다!-한국과학기술원, 심층 강화학습 처리 인공지능 반도체 기술 개발 논문 발표

하이거 2021. 7. 16. 14:47

모바일 기기에서도 알파고 알고리즘 실행 가능성을 열다!-한국과학기술원, 심층 강화학습 처리 인공지능 반도체 기술 개발 논문 발표

작성일 2021-07-16 부서 인공지능산업팀

 

 

 

모바일 기기에서도 ‘알파고 알고리즘’ 실행 가능성을 열다!

 

- 한국과학기술원, 심층 강화학습 처리 인공지능 반도체 기술 개발 논문 발표 -

- 지능형 로봇 조종, 자율주행 무인기(드론), 게임 등에 활용 기대 -

 

 

□ 한국과학기술원(KAIST) 유회준 교수 연구팀(제1저자 : 이주형 박사과정)이 구글 딥마인드에서 개발한 바둑 인공지능 프로그램인 ‘알파고’에서 활용되었던 심층 강화학습(DRL: Deep Reinforcement Learning)*을 높은 성능과 전력효율로 처리할 수 있는 첨단 인공지능 반도체 기술을 개발했다고 과학기술정보통신부(장관 임혜숙, 이하 ‘과기정통부’)는 밝혔다.

 

    * 인간이 미리 만든 데이터-정답 쌍을 활용하여 인공지능을 학습시키는 ‘지도학습’과 달리 인공지능이 주어진 환경에서 시행착오로 얻어진 경험을 활용해 스스로 최적의 답안을 도출하면 인간이 그 결과에 대한 피드백을 주는 방식

 

 ㅇ 이번 연구는 지난 6월 14일부터 19일까지 개최된 반도체 분야 최고 학회 중 하나인 ‘IEEE VLSI(Very Large Scale Intergrated Circuit) 기술 및 회로에 대한 심포지엄*(VLSI Symposia)’에서 200여 편의 발표 논문 중 우수 논문인 하이라이트 논문으로 선정되는 등 큰 주목을 받았다.

 

    * ISSCC(International Solid-State Circuits Conference, 국제 고체회로 학회)와 함께 반도체 분야 세계 최고 학회

 

□ 심층 강화학습 알고리즘은 정답이 주어지지 않은 상황에서 최적의 답을 빠르게 찾기 위해 여러 개의 신경망을 동시에 사용하는 특징이 있다.

 ㅇ 하지만 신경망이 복잡하게 얽혀있고 대규모 데이터를 처리해야 하기 때문에 기존에는 대용량 메모리를 가진 다수의 고성능 컴퓨터를 병렬 활용*해야만 구현 가능하였으며, 연산 능력이 제한적이고 사용되는 메모리가 적은 노트북, 스마트폰 등에서는 구현이 불가능하였다.

 

    * 알파고 : GPU 176개, CPU 1,202개 사용

 

□ 이에 연구팀은 모바일 기기 등에서도 심층 강화학습이 가능하도록 기존 대비 성능이 우수하고 특히, 전력효율이 2.4배 높은 인공지능 반도체 기술인 ‘OmniDRL*’을 개발하였다.

 

    * Omni(모든) +DRL(심층 강화학습) : 모든 심층 강화학습 알고리즘을 처리 가능한 반도체

 

 ㅇ 구체적으로 △심층 신경망 데이터(가중치)에 대한 압축률 증가(연산에 불필요하거나 중복된 데이터 개수 감소), △데이터 압축 상태로 연산(기존 반도체는 압축 해제 필요), △연산(프로세서)·저장(메모리) 기능이 통합된  SRAM(Static RAM) 기반의 PIM(Processing-In-Memory) 반도체* 기술을 사용하였다.

 

   * 연산·저장 기능이 분리된 “폰노이만 컴퓨터 구조(1945∼)”를 탈피하여 프로세서-메모리 간 데이터 병목현상 및 전력소모 문제 해결

 

 ㅇ 특히, 기존 PIM 반도체는 정수(Integer) 단위만 연산이 가능하였으나, 이번 연구를 통해 세계 최초로 소수점(Floating-Point*) 기반 연산(추론 및 학습 모두 가능)이 가능한 기술을 개발하였다.

 

    * 부동 소수점(Floating-Point) : 컴퓨터 내부에서 데이터를 저장하는 형태의 한 종류로, 유효숫자를 나타내는 가수와 소수점의 위치를 나타내는 지수로 이루어짐

 

< 기존 반도체 기술과 이번 연구의 차이점 >

 

구  분

기존 반도체 기술

이번 연구

데이터 압축

낮은 압축률

높은 압축률

(기존 대비 최대 41.5%P 증가)

→ 데이터 이동속도↑

압축 데이터 연산

압축 해제 필요

압축된 상태로 연산 가능

→ 연산 속도↑, 전력 소모↓ 

처리 단위

정수

소수점

→ 학습 및 추론 가능

 

□ ‘OmniDRL’을 심층 강화학습 알고리즘의 성능 비교 연구에 주로 활용되는 ‘인간형 로봇 적응 보행 시스템*’에 적용한 결과, ‘OmniDRL’이 연결되지 않았을 때보다 7배 이상 빠른 속도로 적응 보행이 가능하였다.

 

    * 인간형 로봇의 머리와 팔의 크기를 자유롭게 조절하는 등 환경에 변화를 주면, 심층 강화학습을 통해 변화된 형태에 스스로 적응하여 보행

    ※ 관련 동영상 링크 : https://youtube.com/watch?v=qpnu1k8jqSQ

 

□ 유회준 교수는 “이번 연구는 한 개의 반도체에서 심층 신경망을 높은 압축을 유지한 상태로 추론 및 학습을 가능하게 하였으며, 특히, 불가능이라 여겨졌던 소수점 연산이 가능한 인공지능 반도체 기술을 개발했다는 점에서 의미가 크며, 향후 지능형 로봇 조종, 자율주행 드론, 게임 등 다양한 분야에 응용이 가능할 것으로 기대된다.”고 연구의 의의를 설명했다.

 

□ 과기정통부 송경희 인공지능기반정책관은 “이번 연구는 반도체 분야의 새로운 패러다임인 인공지능 반도체 분야에서 국내의 연구결과를 국제적으로 인정받았다는 점에서 의미가 크다”면서,

 

 ㅇ 과기정통부는 앞으로 지난해 착수한 1조원 규모의 인공지능 반도체 연구개발*(R&D)을 지속 지원하는 한편, 내년부터 4,000억원 규모의 PIM 반도체 기술 개발 사업**을 본격적으로 추진하는 등 인공지능 반도체 분야에 대한 투자를 지속 확대해 나갈 계획이다.”라고 밝혔다.

 

    * 차세대 지능형 반도체 기술개발 사업(‘20~’29) : 총 1조 96억원, 과기정통부·산업부 공동

   ** PIM 인공지능 반도체 핵심기술 개발사업(‘22∼’28) : 총 4,027억원, 과기정통부·산업부 공동

 

□ 한편, 이번 연구는 과기정통부 ‘혁신성장 연계 지능형반도체 선도기술 개발’ 사업의 지원(‘19∼’21년, 총 18억원)을 받아 수행되었다.

 

【붙임】 1. 학회 발표 주요내용 2. 연구결과 개요

3. 연구이야기 4. 용어설명

5. 그림설명 6. 연구자 이력사항

 

 

 

학회 발표 주요 내용

 

 

□ 논문명, 저자정보 

 

   - 논문명-1 : OmniDRL: A 29.3 TFLOPS/W Deep Reinforcement Learning Processor with Dual-Mode Weight Compression and On-Chip Sparse Weight Transposer

   - 저  자-1 : 이주형(제1저자), 김상엽(제2저자), 김상진(제3저자), 조우영(제4저자), 한동현(제5저자), 이진수(제6저자), 유회준(교신저자)

 

   - 논문명-2 : A 13.7 TFLOPS/W Floating-point DNN Processor using Heterogeneous Computing Architecture with Exponent-Computing-in-Memory

   - 저  자-2 : 이주형(제1저자), 김지훈(제2저자), 조우영(제3저자), 김상엽(제4저자), 김상진(제5저자), 이진수(제6저자), 유회준(교신저자)

 

□ 학회 발표의 주요 내용 

 

 1. 연구의 필요성

   ○ 심층 강화학습은 기존의 대표적 인공지능 학습법인 지도학습과는 달리 인공지능이 인간의 도움 없이도 스스로 환경에 적응하며 학습할 수 있는 기술로서 지능형 로봇 조종이나 자율주행 드론, 인공지능 전투기 조종사 등 큰 주목을 받고 있다.

   ○ 하지만 현재 대부분의 심층 강화학습은 알파고에서와 같이 전력 소모가 크고 효율이 낮은 CPU와 GPU 위에서 소프트웨어 기술로만 구현되어 왔으며, 최근의 NPU들은 일반적인 심층신경망의 가속에는 효과가 있지만 심층 강화학습에서는 메모리 접근량의 요구가 너무 높아 속도가 저하되고 전력 소모가 커져서 별도의 심층 강화학습 가속 프로세서 칩의 개발이 필수적이다.

 

 2. 연구내용

   ○ 가중치 (Weight) 및 특징맵 (Feature Map)을 모두 고압축한 상태로 추론 및 학습을 가속할 수 있는 심층 강화학습 가속기 반도체 칩 개발

   ○ 부동 소수점 (Floating-point) 연산 기반 프로세싱-인-메모리 (PIM) 연산이 가능한 심층 강화학습 가속기 반도체 개발

3. 연구 성과

   ○ 기존 모바일용 심층 강화학습 반도체는 성능이 높지 않아 실제 응용에 사용이 불가하였는데 본 연구에서는 기존 대비 2 배 이상 데이터 이동속도 증가시켜 자율주행 로봇이나 게임 등에 사용이 가능함

   ○ 기존 모바일용 심층 강화학습 반도체 대비 2.4 배 증가한 학습 에너지 효율 달성하여 적은 전력소모만으로 고성능 심층 강화학습이 가능.

   ○ 세계 최초로 부동 소수점 연산을 통한 학습이 가능한 프로세싱-인-메모리 기술 개발을 개발

 

 

연 구 결 과  개 요

 

 

 1. 연구배경

  ㅇ 기존의 심층 신경망 가속용 인공지능 반도체들은 가중치 (Weight) 및 특징맵 (Feature Map)의 고압축 가속을 지원하지 못해 심층 강화학습에서 에너지 효율적인 연산을 수행할 수 없었다.

  ㅇ 기존의 프로세싱-인-메모리들은 부동 소수점 (Floating-point) 연산을 지원하지 못해 심층 강화학습과 같은 고정밀을 요구하는 과정들을 가속하는 것이 불가능하였다.

 2. 연구내용

  ㅇ 집단-희소화 학습코어 및 지수의 평균-변화량 부호화를 도입하여 세계 최초로 심층 강화학습 과정에서 가중치 (Weight) 및 특징맵 (Feature Map) 모두에 대해 고압축률을 유지하며 가속할 수 있는 반도체 칩을 개발하였다.

  ㅇ 또한, 세계 최초로 부동 소수점 (Floating-point) 연산을 지원할 수 있는 프로세싱-인-메모리 연산기를 개발하여 심층 강화학습과 같은 고정밀의 학습 과정의 가속을 가능케하였다.

  ㅇ 위의 개발한 연구내용들 덕분에 개발된 반도체 칩은 기존 세계 최고 수준 심층 강화학습 칩 대비 2.4배 높은 에너지 효율성을 지닌다. 

3. 기대효과

  ㅇ 개발된 심층 강화학습용 칩을 사용하면 모바일 기기에서의 사용자 맞춤형 인공지능 서비스에 사용되어 나만의 인공지능 서비스를 가능하게 할 수 있다.

  ㅇ 개발된 심층 강화학습용 칩을 사용하면 모바일 드론이나 자율주행 로봇 등에 사용되어 변화된 환경에서의 적응 주행을 가능하게 할 수 있다.

 

 

★ 연구 이야기 ★

 

 

□ 연구를 시작한 계기나 배경은?

 

본 연구를 시작하게 된 계기는 심층 강화학습 기술을 적용한 인공지능 반도체를 통해 사용자에게 꼭 맞는 ‘맞춤형 인공지능’을 개발하기 위해서이다. 2015년 세상을 놀라게 한 알파고에서는 CPU를 1,202개, GPU를 176개 사용하여 구현된 대형 시스템 위에서 동작하는 소프트웨어 기반 기술로 심층 강화학습을 구현하여 엣지나 모바일에서는 실현이 불가능하였다. 인간과 유사한 학습 방법이라 알려져 있는 심층 강화학습을 모바일 기기에서도 유용하게 활용할 수 있는 저전력 고성능 심층 강화학습 전용 반도체 칩은 그 중요도에 비해 개발이 전무한 실정이었다. 2019년 2월에 KAIST 본 연구 그룹은 세계 최초로 심층 강화학습 가속기를 제작하여 발표하였지만 당시에는 성능이 높지 못하여 실용화가 어려웠다. 이번에는 심층 강화학습을 저전력, 고에너지 효율로 완수할 수 있는 인공지능 반도체 칩을 개발함으로서 명실상부하게 실제 응용이 가능하도록 하였고 이를 다양한 응용에 적용해보고자 노력 중이다.

 

 

□ 연구 전개 과정에 대한 소개

 

2013년부터 심층 신경망이라는 우수한 인공지능 알고리즘이 전 세계에 보급됨에 따라 많은 심층 신경망 반도체 칩들이 만들어졌지만, 이들은 메모리와 연산기 중 연산기에 더 중점을 두어 빠르게 연산하는 것에만 집중했다. 우리 연구 그룹에서는 메모리 기술에 대한 지식이 축적되어 있어 메모리를 최적화하는 것에도 연구 초기부터 힘을 쏟았다. 특히 심층 강화학습은 기존의 단순한 심층 신경망보다 수십 배 메모리 접근량이 많았기 때문에 메모리에 더욱 중점을 두어 효율적으로 메모리에 접근하는 방식의 인공지능 반도체 기술이 더욱 필요했다. 따라서 기존 반도체 칩들과는 달리 모바일용 심층 강화학습 반도체 칩을 위해 데이터 압축을 극대화할 수 있는 기술 개발을 시작하였다.  

또한 심층 강화학습을 실현하기 위해서는 대형 서버가 아닌 소형 모바일 기기에서도 심층신경망의 ‘학습’이 가능하여야 하는데 이를 위해 지난 5년간 ‘온-디바이스 학습’을 연구하여 심층 강화학습에 필요한 저전력 ‘학습’ 기술을 확보할 수 있었다. 

동시에 대한민국의 가장 큰 장점인 메모리 반도체 기술을 여기에 접목하고자 프로세싱-인-메모리 기술을 심층 강화학습에 적용하고자 하였다.

본 심층 강화학습용 칩 개발에 연구가 시작된 지 1년여 만에 위와 같은 기술들이 확보되었고 2년 반 만에 칩 개발에 성공할 수가 있었다.

 

□ 연구하면서 어려웠던 점이나 장애요소가 있었다면 무엇인지? 어떻게 극복(해결)하였는지?

 

엄청난 서버에서나 구현이 가능한 심층 강화학습을 모바일에서도 활용할 수 있는 반도체 칩으로 제작이 불가능하다는 기존 인식을 극복하는 것이 어려웠다. 심층 강화학습을 구현하기 위해서는 먼저 저전력 “학습”이 가능하여야 하는데 이것이 불가능하다는 생각이 많았고 여기에 더해 심층 강화학습 전체의 알고리즘을 저전력 반도체 칩 상에서 가속하는 것이 어려웠다. KAIST 본 연구 그룹에서는 5년 전부터 정확도를 유지하면서도 많은 인공지능 데이터들을 “0”으로 만들 수 있다는 특징에 맞추어 저전력 학습이 가능한 심층신경망 구조들을 연구해 왔으며 이 기술들을 활용하여 심층 강화학습 가속기를 개발할 수 있었다. 또한 심층 신경망을 가속하기 위한 기존의 NPU 반도체 칩들은 ResNet-32, VGG-16 등 성능을 보여주기 위해 일반적으로 사용되는 심층 신경망 네트워크들(벤치마크용 네트워크)이 있었으므로 이에 맞춰 개발된 칩의 성능을 측정하면 되었다. 하지만 심층 강화학습용 반도체 칩의 경우 이러한 벤치마크가 아직 정해져 있지 않아 칩의 개발 방향 및 성능을 측정하기가 어려웠다. 따라서 앞으로 많은 반도체 칩 연구자들이 활용할 수 있는 심층 강화학습 생태계를 마련하기 위해 공정하고 비교 가능한 측정 방식 및 기준을 확립하여 세계 학회에서 크게 인정을 받았다.

 

 

□ 이번 성과, 무엇이 다른가?

 

이번 연구 결과는 크게 3가지 점에서 기존 NPU 반도체 칩들과 큰 차이를 가진다. (1) 학습 과정에서도 데이터들을 크게 압축하여 전력 소모를 줄이고 연산 속도를 높일 수 있었으며, (2) 압축한 데이터를 압축해제 없이 심층신경망 연산을 할 수 있고, (3) 세계 최초로 16비트 부동 소수점 연산이 가능하도록 하여 ‘학습’이 가능한 프로세싱-인-메모리 기술을 개발했다. 이전에도 많은 NPU 반도체 칩들에서 데이터 압축을 활용하려는 시도가 있었지만, 이번처럼 학습을 지원하면서도 높은 수준의 압축이 가능한 경우는 없었다. 또한 기존 프로세싱-인-메모리 기술로는 학습은 불가능하다는 것이 정설이었는데, 이번에 개발한 칩이 그것을 가능하다는 것을 보였다는 점에 큰 의미가 있다.

 

 

□ 꼭 이루고 싶은 목표와 향후 연구계획은? 

 

로봇이나 드론처럼 우리 실생활에 밀접하게 사용되고 있는 기기들에 본 연구에서 개발한 심층 강화학습 반도체를 이용하여 보다 더 인간 친화적인, 인간과 교감이 가능한 인공지능 기술을 실현하는 것이 목표이다. 사용 중 계속 학습이 가능한 심층 강화학습 반도체를 이용하면 이 기기를 사용하면 할수록 사용자의 습관이나 행동 패턴들을 기기가 학습하여 사용자에게 더욱 익숙해진 맞춤형 인공지능 서비스의 구현이 가능할 것이며 이러한 시스템을 우리나라의 시스템 반도체 기술로 구현하는 것이 목표이다. 특히 최근 최고 성능의 인공지능 기술들은 본 심층 강화학습연구와 같이 많은 양의 메모리가 사용되며 메모리 접근 시의 전력 소모와 속도 저하가 문제가 되어 메모리와 프로세서를 하나의 칩으로 집적하는 프로세싱-인-메모리(PIM) 기술이 중요하게 되고 있다. 메모리 강국인 우리나라의 특성을 살린 프로세싱-인-메모리 기술을 연구하여 새로운 인공지능 반도체들을 개발하고 국내 기업들과의 연계를 통해 이를 적극 제품화하여 세계 시장을 선도하고자 한다.

 

 

용 어 설 명

 

 

1. 심층 강화학습(DRL)

  ○ 여러 개의 딥러닝 네트워크를 가진 강화학습 에이전트가 주어진 환경에서 다양한 시도를 하고 그에 상응하는 보상을 받으며, 이러한 시행착오를 통해 얻은 경험을 활용하여 스스로 환경에 적응하는 인공지능 기술. 이세돌과의 바둑 대결을 펼친 알파고 등을 가능하게 하는 기술로 큰 주목을 받기 시작했으며, 인공지능과 딥러닝이 나아가야 할 다음 단계로 여겨지고 있음.

 

2. 프로세싱-인-메모리(PIM)

  ○ 메모리 반도체에 인공지능 연산 기능을 추가한 지능형 반도체 시스템. 메모리 강국인 우리나라의 AI 반도체 세계 시장 공략을 위한 핵심기술로 주목받고 있음.

 

3. 부동 소수점 (Floating-Point)

  ○ 컴퓨터 내부에서 데이터를 저장하는 형태의 한 종류로, 유효숫자를 나타내는 가수와 소수점의 위치를 나타내는 지수로 이루어져 있다.

 

4. 가중치 (Weight)

  ○ 인공신경망 내부의 “뉴런”은 서로서로 연결되어 회로를 이루는 데 각 연결 들이 특정한 값의 연결 강도를 갖게 되며 이 연결 강도를 나타내는 데이터들을 가중치라고 한다.

 

5. VLSI 기술 및 회로에 대한 심포지엄(IEEE Symposia on VLSI Technology and Circuits)

  ○ 미국 하와이와 일본 교토에서 번갈아 가며 매년 6월에 개최되며 ISSCC(국제 고체회로 학회)와 쌍벽을 이루는 반도체 회로 및 심층 신경망 프로세서 분야의 논문을 발표하는 세계 최고 반도체 학회다. 인텔, IBM, 삼성 등의 회사들이 심층 신경망 프로세서, CPU, DRAM 등을 이 학회를 통해 발표해왔다.

 

 

 

그 림 설 명

 

 

 

(그림1) OmniDRL 칩(Chip)

 

DRL (Deep Reinforcement Learning)에 사용되는 심층 신경망의 부동소수점 연산을 프로세싱-인-메모리를 통해 저전력으로 처리하고, 고압축률을 유지하면서 추론뿐만 아니라 학습까지도 엣지에서 구현할 수 있도록 개발된 프로세서 칩.

 

 

 

 

 

 

 

 

 

 

 

(그림 2) 인간형 로봇 적응 보행 시스템

 

인간형 로봇 적응 보행 시스템을 통해 OmniDRL 칩의 성능을 확인해 볼 수 있다. 사용자가 인간형 로봇의 머리와 팔의 크기를 조절함으로써 환경에 변화를 주면, 심층 강화학습을 통해 에이전트가 스스로 적응하여 보행할 수 있다. 아래는 머리 크기가 커진 인간형 로봇을 보행할 수 있게 적응시키는 예를 보여 주고 있다. 제안된 OmniDRL이 집적된 보드를 꽂을 경우 꽂지 않았을 때에 비해 7배 이상 빠른 속도로 적응 보행이 가능하다

 

 ※ 관련 동영상 링크 : https://youtube.com/watch?v=qpnu1k8jqSQ

 

 

 

 

 

 

(그림 3) VLSI 기술 및 회로에 대한 심포지엄(VLSI Symposia) 발표 및 데모

 

이주형 박사과정학생 (지도교수 유회준)이 지난 6월 15일 개최된 세계적 반도체 학술대회 VLSI Symposia(VLSI 기술 및 회로에 대한 심포지엄)에서 OmniDRL칩을 발표하고 로봇 적응 시스템을 시연하고 있다 (사진 상단 왼쪽). 발표된 논문 중 프로세싱-인-메모리 관련 논문은 VLSI Symposia에서 가장 많이 조회된 상위 20개 논문 중 하나로 선정되었고 (사진 상단 오른쪽), 심층 강화학습 관련 논문은 학회 측에서 선정한 Technical highlighted paper로 채택되었다 (사진 하단).

 

 

 

 

(그림 4) OmniDRL의 압축 방법 : 집단-희소화 압축 방법

 

기존 학습 프로세서들은 학습 도중 계속 업데이트 되는 가중치에 대해서는 높은 압축을 할 수 없었다. 개발한 OmniDRL은 현재 심층 강화학습의 학습상태를 파악하여 정확도를 유지하는 선에서 심층 신경망 가중치(weight)를 집단화 혹은 희소화로 압축할 수 있는 방식을 제안하여 압축률을 최대 41.5 %P 증가시켰다.

 

 

 

 

 

 

 

 

 

 

(그림 5) OmniDRL의 압축 데이터 연산 코어 아키텍처의 동작 예

 

OmniDRL은 압축 데이터 연산 코어 아키텍처를 가지고 있어 집단-희소화 압축 방법으로 압축된 데이터를 압축 해제 하지 않은 채 그대로 연산하는 것이 가능하다. 따라서 그 압축률이 높으면 높을수록 심층 강화학습을 빠른 속도 뿐 아니라 고에너지 효율로 가속하는 것이 가능한 것이 장점이다. 

 

 

 

 

 

(그림 6) 부동소수점 연산을 가능하게 하는 프로세싱-인-메모리 기술

 

기존 프로세싱-인-메모리(PIM) 기술들은 전체 부동소수점 데이터들을 전부 PIM으로 처리하여 처리 속도가 매우 느려지고 에너지 효율이 낮아졌다. 제안된 기술은 메모리 내 연산으로 적합한 심층 신경망 데이터의 지수 부분만을 PIM로 처리하여 메모리 소비 전력을 크게 낮출 수 있는 것이 장점이고, 기존 칩에 비해 274배 높은 에너지 효율을 달성하였다.

 

 

 

 

 

 

(그림 7) OmniDRL의 성능

 

OmniDRL은 28nm 공정을 사용하여 설계 및 제작되었으며 12.96mm2 의 칩 크기를 갖는다. 또한 1.1V 전압, 250MHz 동작 주파수에서 최대 283mW의 전력 소모로 동작하며, 이는 0.68V, 5MHz까지 작아져 3.1mW의 낮은 전력 소모로 동작하는 것이 가능하다. 

 

OmniDRL은 16비트 bfloat16 부동 소수점 정밀도를 사용하며 이때 1W 전력 소모당 최대 29.3 테라 부동 소수점 연산을 수행할 수 있는 에너지 효율을 가진다.

 

 

 

유회준 교수[교신저자] 이력사항

 

 

1. 인적사항               

 ○ 소 속 : 한국과학기술원(KAIST) 

 

 

 

2. 경력사항

 ○ 1988 ~ 1990   Bell Communications Corp. USA Post-doc

 ○ 1991 ~ 1995   현대전자(하이닉스) 반도체연구소 DRAM 설계실장

 ○ 1998 ~ 현재 KAIST 전기및전자공학부 교수

 ○ 2007 ~ 현재 KAIST SDIA(반도체시스템설계응용연구센터) 소장 

 ○ 2008 ~ 현재 IEEE Fellow

 ○ 2011.12.12.      옥조근정훈장

 ○ 2014.11.07.      경암학술상 

 ○ 2019.02.18.      KAIST 학술대상 

 ○ 2020.01.01. ~ 2024.12.31. IEEE ASSCC학회장 

  

3. 전문분야 정보

  ○ 메모리 반도체 칩 설계

  ○ 인공지능 반도체 칩 설계

  ○ Wearable Healthcare  회로 및 시스템 

 

 

 

 

 

 

 

 

 

 

이주형 박사과정[제1저자] 이력사항

 

 

1. 인적사항 

 ○ 소 속 : 한국과학기술원(KAIST)   

 

 

 

 

 

2. 경력사항

 (없음)

 

3. 전문분야 정보

 ○ 에너지 효율적인 딥러닝 추론 및 학습 프로세서 연구

 ○ 에너지 효율적인 인메모리 컴퓨팅 가속기 연구

 ○ 인공지능 SW/HW 동시 설계

 ○ 하드웨어 효율적인 인공지능 가속을 위한 알고리즘 설계