KR20200081630A - 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체 - Google Patents

무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체 Download PDF

Info

Publication number
KR20200081630A
KR20200081630A KR1020180171182A KR20180171182A KR20200081630A KR 20200081630 A KR20200081630 A KR 20200081630A KR 1020180171182 A KR1020180171182 A KR 1020180171182A KR 20180171182 A KR20180171182 A KR 20180171182A KR 20200081630 A KR20200081630 A KR 20200081630A
Authority
KR
South Korea
Prior art keywords
value
contention window
hew
calculating
local area
Prior art date
Application number
KR1020180171182A
Other languages
English (en)
Other versions
KR102206775B1 (ko
Inventor
김성원
알리라시드
김병서
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020180171182A priority Critical patent/KR102206775B1/ko
Publication of KR20200081630A publication Critical patent/KR20200081630A/ko
Application granted granted Critical
Publication of KR102206775B1 publication Critical patent/KR102206775B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0808Non-scheduled access, e.g. ALOHA using carrier sensing, e.g. carrier sense multiple access [CSMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/10Small scale networks; Flat hierarchical networks
    • H04W84/12WLAN [Wireless Local Area Networks]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

고효율 무선 근거리 네트워크(HEW) 장치가 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법에 있어서, 고효율 무선 근거리 네트워크(HEW) 장치가 분산된 프레임간 공간(DIFS)에서 통신 채널이 유휴(idle) 상태가 된 후에 무선 접속 장치가 미리 설정된 컨텐션 윈도우 범위에서 무작위로 백오프 값을 선택하는 단계, 고효율 무선 근거리 네트워크(HEW) 장치가 통신 채널이 유휴 상태로 감지된 구간에서는 각 구간의 관측 시간 슬롯에 대해 상태 값을 0으로 설정하면서 백오프 값을 소정 시간 간격마다 감소시키다가, 통신 채널이 점유 상태로 감지된 구간에서는 관측 시간 슬롯에 대해 상태 값을 1로 설정하면서 백오프 값을 유지시키는 과정을 반복 수행하는 단계, 고효율 무선 근거리 네트워크(HEW) 장치는 백오프 값이 미리 설정된 임계값에 도달하면, 데이터 송신을 시도하고, 데이터의 전송이 성공하면 관측 시간 슬롯에 대해 상태 값을 0으로 설정하고, 충돌이 발생하면 관측 시간 슬롯에 대해 상태 값을 1로 설정하는 단계 및 고효율 무선 근거리 네트워크(HEW) 장치는 설정된 감지 값에 따라 채널 관측 기반 충돌 확률을 계산하고, 채널 관측 기반 충돌 확률을 기초로 컨텐션 윈도우 값을 계산하는 제 1 계산 단계를 포함하는 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법을 개시하고 있다.

Description

무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체{METHOD FOR ALLOCATING RESOURCE USING MACHINE LEARNING IN A WIRELESS NETWORK AND RECORDING MEDIUM FOR PERFORMING THE METHOD}
본 발명은 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체에 관한 것으로, 더욱 상세하게는 무선 네트워크에서 맥-계층(MAC-Layer) 채널 액세스 성능을 최적화하기 위해 지능형 큐-러닝(Q-Learning)을 기반으로 한 자원 할당 방법 및 상기 방법을 수행하기 위한 기록 매체에 관한 것이다.
미래의 고밀도 무선 근거리 네트워크(WLAN, Wireless Local Area Network)과 관련하여 IEEE작업 그룹은 IEEE 802.11ax 고효율 무선 근거리 네트워크(HEW, high-efficiency WLAN)을 다루는 개정안을 발표할 예정이다. 무선 근거리 네트워크(WLAN)에서 MAC 계층 캐리어 감지 다중 액세스 충돌 회피(CSMA/CA, carrier sense multiple access with collision avoidance) 메커니즘을 이용하여 리소스를 동적으로 관리함으로써 사용자의 경험의 질(QoE, Quality of Experience) 을 개선하고 있다. WLAN 리소스는 공유 채널 액세스 및 무선 인프라로 인해 근본적으로 제한적인 특성을 가짐에도 불구하고, 무선 근거리 네트워크(WLAN) 서비스는 점점 더 다양해지고 있다. 따라서 향후 HEW의 성공을 위해서는 효율적이고 강력한 맥 계층 자원 할당(MAC-RA, MAC resource allocation) 프로토콜을 연구하는 것이 중요하다. 이와 관련하여, 무선 통신 기술에서 머신 인텔리젼스(MI, machine intelligence)를 구현하기 위해 심층 학습(DL, Deep learning)에 대한 연구가 활발하다.
도 1은 심층 강화 학습(DRL)모델과 고밀도 무선 근거리 네트워크(WLAN)의 잠재적 어플리케이션을 나타내는 도면이다.
도 1을 참조하면, 심층 강화 학습 모델(DRL)은 마코프 결정 과정(MDP, Markov decision process), 부분적으로 관찰되는 마코프 결정 과정(POMDP, partially observed MDP) 및 큐-러닝(QL, Q-learning)과 같은 특정 학습 모델을 사용한다. 알려지지 않은 채널 모델을 사용하여 복잡한 시나리오를 학습하는 알려지지 않은 환경의 학습(Learning unknown environments), 의사 결정(Decision making), 무선 인지 네트워크에서의 채널 액세스(Channel Access in Cognitive Radio Network) 및 맥-자원할당(MAC Resource Allocation)에 이르기까지 무선 통신 네트워크의과 같은 응용 프로그램이 활용될 수 있다.
강화 학습(RL, Reinforcement Learning)은 행동심리학에서 영감을 받은 기계 학습(ML, Machine Learning)의 한 종류로, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
도 2는 본 발명에 따른 지능형 고효율 무선 근거리 네트워크(HEW) 장치를 위한 지능형 맥 자원 할당(MAC-RA, MAC Resource Allocation) 학습 모델을 설명하는 도면이다.
도 2를 참조하면, 큐-러닝(Q-learning) 알고리즘을 이용하여 채널 자원에 액세스하고 최적의 성능을 달성하기 위해 자발적으로 관찰(Observation), 학습(Learning), 평가(Evaluation) 및 최적 행동의 수행하는 지능형 고효율 무선 근거리 네트워크(HEW) 장치를 나타내고 있다. 큐-러닝(Q-Learning)은 주로 환경이 알려지지 않은 경우처럼 유한 마코프 결정 과정(finite-MDP)에 대한 적절한 행동을 취하기 위한 최적의 전략을 탐색하는 데 활용된다.
강화 학습(RL, Reinforcement Learning)에 있어서 학습탐험과 활용(exploration and exploitation) 사이의 절충(tradeoff)는 다른 종류의 학습에 없는 강화 학습(RL)만의 특징이다. 강화 학습(RL)은 보상을 얻는 것을 목적으로 하며, 상당한 보상을 얻기 위해서는 과거에 시도했던 행동에 활용(exploitation)하여 보상을 얻어야 하지만, 더 나은 보상을 얻는 행동을 선택하기 위해서는 탐험(exploration)이 필요하다. 따라서 학습자는 다양한 행동을 시도해야 하고, 확률적 관점에서 예상되는 보상을 얻기 위해서는 각각의 행동을 여러 번 시도해서 가장 좋은 것으로 판단되는 행동을 발견하기 위해서는 지속적으로 지원해야 한다. 이에 대해 고효율 무선 근거리 네트워크(HEW) 시스템에서 지능형 장치는 알고리즘의 성능을 향상시키기 위해 기존의 행동을 활용(exploitation)해야 하고, 무선 근거리 네트워크(WLAN)의 변동성(dynamicity)를 알기 위해 탐험(explore)을 해야 한다.
강화 학습(RL)의 프레임 워크는 정책(Policy), 보상(Reward flag) 및 가치 함수(Value Function)를 필수적으로 포함하며, 때때로 큐 러닝 환경의 모델(Q-learning model of Environment)을 포함할 수 있다.
정책(Policy)은 학습자가 주어진 시간에 행동하는 학습자의 방식에 특성을 부여한다. 일반적으로, 정책은 환경의 명백한 상태에서 해당 상태에서 취할 행동으로 매핑(mapping)하는 것이다. 이는 심리학에서 행동-반응 관계 집합과 비교된다. 정책은 간단한 함수 또는 인덱스 테이블이 될 수도 있고, 추적 절차(pursuit procedure)와 같은 상당한 계산을 포함할 수 있다. 정책은 정책만으로도 학습자의 행동을 결정하기에 충분하기 때문에 강화 학습(RL)의 학습자의 본질이다.
보상(Reward Flag)은 학습 문제의 목적에 특성을 부여합니다. 각 시간 단계에서 환경은 보상이라는 유일한 번호를 결정한다. 학습자의 주된 목적은 장기적으로 수집하는 전체 보상을 최대화하는 것이다. 그러므로, 보상은 학습자를 위한 좋고 나쁜 이벤트를 나타냅니다. 보상은 어떤 상태에서 정책(policy)을 바꾸는 중요한 이유이다. 정책에 의해 선택된 행동이 낮은 보상을 가져 오는 경우, 그 정책은 향후 그 상태를 위해 어떤 다른 행동을 선택하도록 변경될 수 있다.
보상은 즉각적인 의미에서 더 좋은 지를 나타내지만, 가치 함수(Value Function)는 무엇이 최종적으로 최선인지를 나타낸다. 이와 같이 특정 상태의 가치 함수는 학습자가 최초 상태에서 시작하여 장기적으로 수집할 수 있는 보상의 총합이다. 예를 들어, 하나의 상태는 낮고 빠른 보상을 지급할 수 있지만, 동시에 높은 보상을 지급하는 다른 상태가 종종 뒤따를 수 있기 때문에 높은 가치 함수를 가지게 된다. 어쨌든 가치 함수는 결정을 하고, 평가를 할 때 최대로 고려한다. 행동 선택은 가치 판정을 기반으로 한다. 이러한 행동이 학습자에게 장기적 관점에서 최고의 보상을 제공하기 때문에 최고의 보상이 아닌 최고의 가치를 가지는 행동을 추구한다. 실제로, 대부분의 강화 학습(RL) 알고리즘에서 가장 중요한 요소는 능숙하게 가치를 추정하는 기술이다.
환경 모델(Model environment)는 큐-러닝(Q-Learning) 프레임 워크의 선택적 구성 요소이다. 환경 모델은 환경의 행동을 반영할 수 있고, 일반적으로는 환경이 어떻게 행동할 것인가에 대한 제안하는 것이다. 예를 들어, 상태와 행동이 주어지면, 모델은 결과로 나오게 되는 다음의 상태와 다음의 보상을 예상할 수 있다. 모델은 계획을 위해 활용되며, 실제 경험하기 전에 예상 가능한 미래 상황을 고려하여 일련의 행동을 정착시키는 방법을 의미한다.
강화 학습(RL)은 정책(policy) 및 가치 함수(value function)에 대한 입력으로서 상태의 개념에 강하게 의존한다. 비공식적으로, 우리는 상태가 특정한 시간에 어떻게 존재하는지에 대한 약간의 감각을 가지고 학습자에게 전달되는 플래그라고 생각할 수 있다. 강화 학습(RL) 기법의 상당 부분은 가치 함수 평가를 중심으로 구성된다. 그러나 강화 학습(RL) 문제를 처리하기 위해 이 작업을 수행하는 것이 전적으로 중요하진 않다. 예를 들어, 유전 알고리즘, 유전 프로그래밍, 시뮬레이션 단조 및 기타 최적화 알고리즘과 같은 접근법은 가치 함수를 사용하지 않고 강화 학습(RL) 문제에 접근하는 데 활용되었다. 이러한 진화적 접근은 환경과의 인터페이스를 위한 대체 정책을 활용하고 가장 많은 보상을 얻을 수 있는 행동을 선택하는 수많은 비-학습자의 평생 수행을 평가한다. 정책의 공간이 적절히 작거나 최상의 정책이 공통적으로 또는 발견하기 쉽도록 조직되거나 검색에 상당한 시간을 사용할 수 있는 경우, 진화론적 접근이 실행 가능할 수 있다. 또한, 진화론적 접근은 학습자가 환경의 전체 상태를 감지 할 수 없는 문제에 초점을 맞춘다. 진화론적 접근법과 달리 강화 학습(RL) 기술은 환경과 간섭하면서 학습한다. 개별 행동 상호 작용의 세부 사항을 개발할 준비가 된 기술은 많은 유형의 무선 네트워크에서 진화론적 전략보다 훨씬 생산적일 수 있다.
도 3은 지능형 고효율 무선 근거리 네트워크(HEW) 장치를 위한 큐-러닝(Q-learning) 모델을 설명하는 도면이다.
도 3을 참조하면, 큐-러닝(Q-Learning)은 불명확한 시스템 모델에 대한 주어진 (유한) 마코프 결정 과정(MDP)에 대한 최적의 행동 정책을 추적하기 위해 호출될 수 있다. 이 경우, 큐-러닝(Q-Learning) 모델은 모든 상태를 위한 학습자, 상태 집합(S), 행동 집합(A)으로 구성된다. 특정 상태에서 행동함으로써 학습자는 누적 보상을 최대화하기 위해 보상을 수집한다. 이러한 보상은 큐- 함수 (큐-가치 함수라고도 함)로 표현됩니다. 큐-가치는 학습자가 조치를 취한 후 반복적으로 업데이트되고 각 순간에 관련 보상 상태뿐만 아니라 결과 보상을 관찰한다. 큐-러닝(Q-Learning)은 최근 이 기종 무선 네트워크에 적용되었다. 강화 학습(RL) 모델에 기반한 이질적이고 완전히 분산된 다중 목적 접근법은 펨토셀의 자기 최적화를 위해 개발되었다. 제안된 패러다임은 펨토셀의 다운 링크에서 자원 할당 및 간섭 조정 문제를 모두 해결해야 한다.
한편, 종래 캐리어 감지 다중 액세스 충돌 회피(CSMA/CA, carrier sense multiple access with collision avoidance) 알고리즘에서는 2진 지수 백오프(BEB, Binary Exponential Backoff) 메커니즘을 사용하여 충돌을 회피하고 있다. 이 메커니즘은 전송 성공하거나 충돌이 발생한 경우 지수적으로 컨텐션 윈도우(contention window)를 감소 또는 증가시킨다. 이로 인해 고밀도 무선 근거리 네트워크(WLAN)과 고효율 무선 근거리 네트워크(HEW) 장치에 있어 처리량(throughput), 채널 액세스 지연(Channel Access Delay) 및 공정성(Fairness)을 충족시키기 어려운 문제가 있다.
한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
한국공개특허 제10-2017-0132138호 한국등록특허 제10-1810260호 중국공개특허 제101714935호
본 발명의 일 측면은 고밀도 무선 네트워크(WLAN)에서 지능형 큐-러닝 기반 자원 할당(iQRA, intelligent QL-based resource allocation) 알고리즘을 이용하여 채널 관측 기반의 맥 프로토콜을 최적화하기 위한 방법 및 그 방법을 수행하기 위한 기록 매체를 제공한다.
본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시 예에 따른 고효율 무선 근거리 네트워크(HEW) 장치가 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법에 있어서, 상기 고효율 무선 근거리 네트워크(HEW) 장치가 분산된 프레임간 공간(DIFS)에서 통신 채널이 유휴(idle) 상태가 된 후에 무선 접속 장치가 미리 설정된 컨텐션 윈도우 범위에서 무작위로 백오프 값을 선택하는 단계; 상기 고효율 무선 근거리 네트워크(HEW) 장치가 상기 통신 채널이 유휴 상태로 감지된 구간에서는 각 구간의 관측 시간 슬롯에 대해 상태 값을 0으로 설정하면서 상기 백오프 값을 소정 시간 간격마다 감소시키다가, 상기 통신 채널이 점유 상태로 감지된 구간에서는 상기 관측 시간 슬롯에 대해 상태 값을 1로 설정하면서 상기 백오프 값을 유지시키는 과정을 반복 수행하는 단계; 상기 고효율 무선 근거리 네트워크(HEW) 장치는 상기 백오프 값이 미리 설정된 임계값에 도달하면, 데이터 송신을 시도하고, 데이터의 전송이 성공하면 상기 관측 시간 슬롯에 대해 상태 값을 0으로 설정하고, 충돌이 발생하면 관측 시간 슬롯에 대해 상태 값을 1로 설정하는 단계; 및 상기 고효율 무선 근거리 네트워크(HEW) 장치는 상기 설정된 감지 값에 따라 채널 관측 기반 충돌 확률을 계산하고, 상기 채널 관측 기반 충돌 확률을 기초로 컨텐션 윈도우 값을 계산하는 제 1 계산 단계;를 포함할 수 있다.
일 실시 예에서, 고효율 무선 근거리 네트워크(HEW) 장치가 상기 채널 관측 기반 충돌 확률을 기초로 현재 보상 값을 계산하고, 보상 테이블을 업데이트하는 단계; 고효율 무선 근거리 네트워크(HEW) 장치가 상기 보상 테이블을 기초로 학습 추정치를 계산하는 단계; 고효율 무선 근거리 네트워크(HEW) 장치가 상기 학습 추정치를 기초로 총 보상인 큐-가치를 계산하여 큐-가치 테이블을 업데이트하는 단계; 고효율 무선 근거리 네트워크(HEW) 장치가 상기 큐-가치 테이블에서 최대로 측정된 가치를 가지는 큐-가치를 가지는 행동을 찾는 단계; 및 고효율 무선 근거리 네트워크(HEW) 장치가 상기 최적의 행동에 따라 상기 컨텐션 윈도우 값을 계산하는 제 2 계산 단계;를 더 포함할 수 있다.
일 실시 예에서, 고효율 무선 근거리 네트워크(HEW) 장치는 사전에 정해진 확률에 따라 탐험(explore)과 활용(exploit) 중에서 하나를 선택하고, 상기 탐험(explore)이 선택된 경우 상기 제 1 계산 단계에 따라 계산된 컨텐션 윈도우 값을 반환하는 단계;를 더 포함할 수 있다.
일 실시 예에서, 고효율 무선 근거리 네트워크(HEW) 장치는 사전에 정한 확률에 따라 탐험(explore)과 활용(exploit) 중에서 하나를 선택하고, 상기 활용(exploit)이 선택된 경우 상기 제 2 계산 단계에 따라 계산된 컨텐션 윈도우 값을 반환하는 단계;를 더 포함할 수 있다.
일 실시 예에서, 상기 제 1 계산 단계는, 관측 시간 슬롯에 있는 각각의 값을 더하고, 관측 슬롯의 총 개수로 나누어 상기 채널 관측 기반 충돌 확률을 구할 수 있다.
일 실시 예에서, 상기 제 1 계산 단계는, 고효율 무선 근거리 네트워크(HEW) 장치는 데이터의 전송이 성공하면 상기 컨텐션 윈도우의 값을 감소시키고, 충돌이 발생하면 상기 컨텐션 윈도우의 값을 증가시켜 새로운 컨텐션 윈도우 값을 계산할 수 있다.
일 실시 예에서, 상기 보상 테이블을 업데이트하는 단계는, 각 상태에서 취한 행동에 따른 보상을 아래 수식에 따라 계산할 수 있다.
Figure pat00001
여기서r(s,a)는 개별 상태(s)에서 취한 행동(a)에 의해 주어지는 보상이고, Pobs는 채널 관측 기반 충돌 확률이다.
일 실시 예에서, 상기 보상 테이블을 기초로 학습 추정치를 계산하는 단계는, 상기 학습 추정치를 아래 수식에 따라 계산할 수 있다.
Figure pat00002
여기서 r(s,a)는 개별 상태(s)에서 취한 행동(a)에 의해 주어지는 보상이고, β는 할인 보상 요소(discounted reward factor)이며, maxaQ(s',a')는 잠재적인 상태(s')에서 최대로 추정되는 가치이며, Q(s,a)는 총 보상(aggregate reward)이다.
일 실시 예에서, 상기 큐-가치 테이블을 업데이트하는 단계는, 상기 큐-가치를 아래 수식에 따라 계산할 수 있다.
Figure pat00003
여기서 Q(s,a)는 총 보상(aggregate reward)이고, α는 학습율(learning rate)이며, ΔQ(s,a)는 학습 추정치(learning estimate)이다.
일 실시 예에서, 상기 큐-가치를 가지는 행동을 찾는 단계는, 최대로 측정된 큐-가치를 가지는 행동을 선택하되, 최대로 측정된 큐-가치를 가지는 행동이 둘 이상인 경우 무작위로 하나를 선택할 수 있다.
본 발명의 일 실시 예에 따른 컴퓨터로 판독 가능한 기록 매체에는 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상술한 본 발명의 일 측면에 따르면, 채널 관측 기반 스케일 백오프(COSB, Channel Observation Scaled Backoff)을 최적화 하는 지능형 큐-러닝 기반 자원 할당(iQRA) 알고리즘을 이용하여 적응적으로 컨텐션 윈도우(contention window)의 크기를 변화시켜 네트워크에서 처리량(throughput), 채널 액세스 지연(Channel Access Delay) 및 공정성(Fairness)을 개선할 수 있고, 네트워크 변동성(network dynamicity)에도 일정한 처리량을 나타내며, 거리가 멀어지더라도 성능 감소 비율을 줄일 수 있다.
도 1은 심층 강화 학습(DRL)모델과 고밀도 무선 근거리 네트워크(WLAN)의 잠재적 어플리케이션을 나타내는 도면이다.
도 2는 본 발명에 따른 지능형 고효율 무선 근거리 네트워크(HEW) 장치를 위한 지능형 맥 자원 할당(MAC-RA, MAC Resource Allocation) 학습 모델을 설명하는 도면이다.
도 3은 지능형 고효율 무선 근거리 네트워크(HEW) 장치를 위한 큐-러닝(Q-learning) 모델을 설명하는 도면이다.
도 4는 백오프 절차를 수행하는 동안 채널 관측 기반 스케일 백오프(COSB, Channel observation based scaled backoff)의 채널 관측 메커니즘을 설명하는 도면이다.
도 5는 지능형 큐-러닝 기반 자원 할당(iQRA, Intelligent Q-learning-based Resource Allocation) 알고리즘의 시스템 환경과 구성요소를 나타내는 도면이다.
도 6은 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘을 이용한 채널 관측 기반 스케일 백오프(COSB)의 최적화 방법의 블록도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시 예들을 보다 상세하게 설명하기로 한다.
도 4는 백오프 절차를 수행하는 동안 채널 관측 기반 스케일 백오프(COSB, Channel observation based scaled backoff)의 채널 관측 메커니즘을 설명하는 도면이다.
도 4를 참조하면, 채널 관측 기반 스케일 백오프(COSB) 프로토콜은 채널 액세스 절차를 수행하는 동안 충돌 횟수를 줄임으로써 높은 처리량과 낮은 채널 액세스 지연을 보장한다. 채널 관측 기반 스케일 백오프(COSB) 프로토콜에서, 통신 매체가 분산된 프레임 간 공간(DIFS, Distributed Interframe Space)에서 유휴(idle) 상태가 된 후, 경쟁 스테이션 (STA)은 무작위로 백오프 값(B)을 선택함으로써 백오프 절차로 진행한다. 도 4의 경우, 예를 들어 스테이션1(STA1)에 대해 백오프 값(B)은 9를 설정하고, 스테이션2(STA2)에 대해서는 백오프 값(B)은 7를 설정한다. 분산된 프레임 간 공간(DIFS, Distributed Interframe Space) 직후의 시간은 이산 관측 시간 슬롯(α)으로 취급된다. 이산 관측 시간 슬롯(α)의 지속 시간은 유휴 슬롯 시간(σ)은 상수 또는 가변 점유 슬롯 시간 중 하나입니다. 이 때 가변 점유 슬롯 시간은 성공적인 전송 또는 충돌로 인해 점유되는 것을 의미한다. 매체가 유휴 슬롯 시간(σ)에 대해 유휴(idle) 상태로 감지될 때마다 백오프 값(B)은 1씩 감소합니다. 백오프 값(B)이 0에 도달하면 데이터 프레임이 전송됩니다. 이 때, 통신 채널이 점유된 것으로 감지되면, 태그가 붙은 스테이션(STA)은 백오프 값(B)을 감소시키고, 분산된 프레임 간 공간(DIFS) 이후 다시 유휴로 감지 될 때까지 채널 감지를 계속한다. 모든 경쟁 스테이션(STA)은 전송이 실패할 확률로 정의되는 조건부 채널 관측 기반 충돌 확률(Pobs)을 가능한 범위에서 측정할 수 있습니다. 이어서, 채널 관측 기반 스케일 백오프(COSB) 프로토콜은 관측 시간 슬롯의 개수(Bobs)로 시간을 이산화한다. 여기서 Bobs의 값은 두 개의 연속된 백오프 단계 사이의 이산 관측 시간 슬롯(α)에 대해 분할된 관측 슬롯의 총 개수이다. 태그가 있는 경쟁 스테이션(STA)은 관측 시간 슬롯의 개수(Bobs)로부터 조건부 채널 관측 기반 충돌 확률(Pobs)을 아래 수학식 1에 따라 업데이트한다.
Figure pat00004
관측 시간 슬롯(k)에 대해 상태 값(SK)은 이산 관측 시간 슬롯(α)이 유휴(idle)로 감지되거나 태그가 붙은 스테이션(STA)이 데이터 프레임을 성공적으로 전송하면 상태 값(SK)은 0으로 설정되고, 이산 관측 시간 슬롯(α)이 점유된 것으로 감지되거나 태그가 붙은 스테이션(STA)이 충돌하게 되면 상태 값(SK)은 1로 설정된다. 이 때, 전송이 성공하면 컨텐션 윈도우(CW, contention window)를 다시 설정하는 것 대신에, 채널 관측 기반 스케일 백오프(COSB) 프로토콜은 현재 측정된 조건부 채널 관측 기반 충돌 확률(Pobs)에 따라 기하 급수적 감소시킨다. 현재의 백오프 단계는 태그가 붙은 스테이션(STA)의 성공적인 전송 또는 충돌의 횟수를 나타내기 때문에, 컨텐션 윈도우(CW, contention window)의 증가 또는 감소는 아래 수학식 2에 따라 수행된다.
Figure pat00005
여기서 CWpre는 이전의 컨텐션 윈도우(CW, contention window)의 크기를 의미하고, WPobs는 현재 CW의 최적 크기를 제어하기 위한 정적 설계 파라미터로 사용되며 WPobs=Wmin으로 표현된다.
도 5는 지능형 큐-러닝 기반 자원 할당(iQRA, Intelligent Q-learning-based Resource Allocation) 알고리즘의 시스템 환경과 구성요소를 나타내는 도면이다.
도 5를 참조하면, 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘은 학습하는 스테이션(STA)가 컨텐션 윈도우(CW)의 크기를 확대 또는 축소시키는 상태의 가용 집합으로서 백오프 단계를 고려한다. 특정 상태(s)에있는 행동(a)은 누적된 큐-가치 함수(Q(s,a))를 활용함으로써 보상(r)을 얻습니다. 이 큐-가치 함수(Q(s,a))는 스테이션(STA)이 작업을 수행하고 결과 보상을 인식하는 것을 반복하는 방식으로 업데이트된다. 채널 관측 기반 스케일 백오프(COSB) 메커니즘에 대한 고효율 무선 근거리 네트워크(HEW) 환경에서 가능한 m개의 상태의 유한 집합(S)은 S = {0, 1, 2, ..., m}로 나타내고, 선택할 수 있는 고정 동작 세트(A)는 A = {0,1}로 나타낸다. 이 때, 0은 감소 (전송 성공)를 나타내고 1은 증가 (충돌 후)를 나타낸다. 시간 슬롯(t) 에서, 스테이션(STA)은 현 상태(s, 즉 st = s∈ S)를 관측하고, 명확한 상태 및 이전 정보에 기초하여 행동(a, 즉 at = a∈ A)을 취한다. 행동(at)은 현재 상태(st) 에서 다음 상태(st+` = s'∈ S)로 환경 상태를 바꾼다. 큐-러닝 알고리즘의 주요 목표는 아래 수학식 3과 같은 벨만 방정식(Bellman's equation)으로 주어지는 전체 예상 보상을 활용하여 최적의 정책을 학습하는 것이다.
Figure pat00006
보상은 제한 없이 얻을 수 있기 때문에, 0보다 크고 1보다 작은 할인된 보상 요소(β, 0<β<1)가 이용된다. 큐-러닝 알고리즘에서 큐-가치 함수(Q(s,a))는 총 보상으로 보상을 추정하며, 이는 아래 수학식 4에 의해 업데이트된다.
Figure pat00007
여기서 학습 속도(α, 0<α<1)는 0보다 크고 1보다 작은 값으로 정의된다. 학습은 개선된 학습 추정치(ΔQ(s,a))에 기초하여 신속하게 발생하며, 이는 아래 수학식 5로 표현된다.
Figure pat00008
여기서 β 는 할인율이며, 할인율(β)은 미래의 보상보다는 즉각적인 보상을 더욱 중요하게 고려한다. 수학식 3 및 수학식 5에서 maxaQ(s',a')는 잠재적인 상태(s')에 대해 가장 잘 추정된 값으로 정의한다. 장기적으로 큐-가치 함수(Q(s,a))는 최적의 큐-가치로 수렴하며, 최적화된 큐-가치 함수(Qopt(s,a))는 limt→∞Q(s,a)를 의미한다. 행동 선택을 위한 가장 단순한 정책은 최대로 측정된 큐-가치(즉, 활용(exploitation))를 가지는 행동 중 하나를 선택할 수 있다. 최대의 큐-가치를 가지는 행동이 둘 이상이면, 무작위로 선택할 수 있다. 이 활용(exploitation) 방법은 탐욕적인 행동(aopt)으로 알려져 있으며, 수학식 6으로 쓸 수 있다.
Figure pat00009
여기서 argmaxa는 행동(a)과 관련한 큐-가치 함수(Q(s,a))의 활용(exploitation)을 나타낸다. 즉각적인 보상은 탐욕적인 방법으로서 지속으로 활용(exploitation)함으로써 최대화된다. 보통의 대체물은 더 자주 활용되지만, 때로는, 학습 스테이션(STA)은 탐험으로 알려진 확률(ε)을 가진 독립된 모든 허용 가능한 액션(aopt)을 탐구한다. 행동의 탐욕적 및 비탐욕적인 선택은 ε-탐욕 기법으로 알려져 있다. ε-탐욕 기법의 특징은 인스턴스의 수가 증가함에 따라 모든 동작이 큐-가치 함수(Q(s,a))와 최적화된 큐-가치 함수(Qopt(s,a))로의 수렴을 보장한다. 고밀도 무선 근거리 네트워크(WLAN)를 위한 고효율 무선 근거리 네트워크(HEW)에서 스테이션(STA)은 처리량을 향상시키기 위해 활용(exploit)할 것이고, 무선 근거리 네트워크(WLAN) 환경의 역동성을 알기 위해 탐험(explore)할 것이다. 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘에서 활용(exploit)과 탐험(explore)의 균형을 맞추기 위해서 ε-탐욕 기법에는 활용(exploit)을 위한 확률 ε와 탐험(explore)을 위한 확률 1-ε이 적용된다.
채널 관측 기반 충돌 확률(Pobs)을 최소화하기 위해 보상을 표현한다. 슬롯 시간(t)에서 상태(st)에서 취한 행동(at)에 의해 주어진 보상은 아래 수학식 7과 같이 표현된다.
Figure pat00010
상기에 기재된 내용은 스테이션(STA)이 상태(st)에서 그 행동에 대해 얼마나 만족해하는지를 나타낸다. 도 5는 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘의 상태 전이 다이어그램을 나타낸다. 스테이션(STA)은 1-Pobs를 보상으로 하여 하나의 상태에서 다른 상태로 이동한다. 스테이션(STA)는 백 오프 프로세스를 최적화하기 위한 환경을 관찰하고 학습합니다.
채널 관측 기반 스케일 백오프(COSB) 프로토콜을 최적화하기 위한 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘은 알고리즘 1에 따라 수행한다.
[알고리즘 1]
Figure pat00011
도 6은 지능형 큐-러닝 기반 자원 할당(iQRA) 메커니즘을 이용한 채널 관측 기반 스케일 백오프(COSB)의 최적화 방법의 블록도이다.
도 6을 참조하면, 전역 초기화 단계(S110)는 보상 및 큐-가치 행렬은 모든 상태(s)(즉, 보상(r(s,a)) 및 가치 함수(Q(s,a))에서 모든 상태 전이(행동)를 위한 즉각적 보상 및 누적 보상을 추적하기 위해 전역 초기화된다.
채널 관측 기반 충돌 확률 입력 및 지역 초기화 단계(S120)는 채널 관측 기반 충돌 확률(Pobs)을 입력 받고, 현재 보상 값(cur_rew), 학습 추정치(ΔQ(s,a)) 및 확률을 각각 0으로 초기화 한다.
보상 값 계산 및 보상 테이블 업데이트 단계(S130)는 1에서 채널 관측 기반 충돌 확률(Pobs)을 뺀 값으로 현재 보상 값(cur_rew)을 계산하고, 상기 현재 보상 값(cur_rew)으로 보상 함수(r(s,a))에 대한 보상 테이블을 업데이트한다.
학습 추정치 계산 및 큐-가치 테이블 업데이트 단계(S140)는 상기 수학식 5에 따라 개선된 학습 추정치(ΔQ(s,a))을 계산하고, 상기 수학식 4에 따라 큐-가치 함수(Q(s,a))에 대한 큐-가치 테이블을 업데이트 한다.
탐험과 활용 중 무작위 선택하는 단계(S150)는 활용(exploit)과 탐험(explore) 중 하나를 ε-탐욕 기법에 따라 무작위로 선택한다. 이 때, 활용(exploit)을 선택하면, 최적화된 행동을 찾고, 그 행동에 따라 컨텐션 윈도우를 계산하는 단계(S160)를 수행하고, 탐험(explore)을 선택하면, 채널 관측 기반 스케일 백오프를 이용한 컨텐션 윈도우 계산하는 단계(S170)를 수행한다.
최적화된 행동을 찾고, 그 행동에 따라 컨텐션 윈도우를 계산하는 단계(S160)는 상기 단계(S150)에서 활용(exploit)을 선택하면 수행되고, 상기 수학식 6에 따라 최적화된 행동(aopt)을 찾고, 최적화된 행동(aopt)에 따라 컨텐션 윈도우(CW)를 계산한다.
채널 관측 기반 스케일 백오프를 이용한 컨텐션 윈도우 계산하는 단계(S170)는 상기 단계(S150)에서 탐험(explore)을 선택하면 수행되고, 채널 관측 기반 스케일 백오프(COSB) 알고리즘을 이용하여 컨텐션 윈도우(CW)를 계산한다.
컨텐션 윈도우 값 출력 단계(S180)는 상기 컨텐션 윈도우(CW)를 구하는 두 종류의 단계(S160 및 S170)에서 계산된 컨텐션 윈도우(CW)를 반환한다.
큐-러닝 기반 자원 할당(iQRA) 메커니즘의 계산 복잡도는 시스템의 학습 단계에 기반한다. 스테이션(STA)은 모든 특정 상태에서 허용되는 다른 행동을 탐험(explore)함으로써 시스템을 학습한다. 그러나 환경을 학습하자마자 최선의 행동은 ε-탐욕적 방법으로 활용(exploit)되어 주어진 상태에서 최적의 해결책이 될 수 있다. 큐-러닝 기반 자원 할당(iQRA)은 고정된 수의 행동과 상태만을 수행하기 때문에, 반복마다 최악의 계산 복잡도는 백오프 단계의 수에 따라 달라지고, 대수 항은 특정 상태에서 행동-상태 가치 추정치를 보유하는 우선 순위 대기 열을 업데이트하기 때문에 O(ln(m))로 기록될 수 있다.
도 6을 통해 설명된 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법은, 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법 은, 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
이와 같은, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법 은, 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시 예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술된 실시 예들은 예시를 위한 것이며, 상술된 실시 예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시 예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

Claims (11)

  1. 고효율 무선 근거리 네트워크(HEW) 장치가 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법에 있어서,
    상기 고효율 무선 근거리 네트워크(HEW) 장치가 분산된 프레임간 공간(DIFS)에서 통신 채널이 유휴(idle) 상태가 된 후에 무선 접속 장치가 미리 설정된 컨텐션 윈도우 범위에서 무작위로 백오프 값을 선택하는 단계;
    상기 고효율 무선 근거리 네트워크(HEW) 장치가 상기 통신 채널이 유휴 상태로 감지된 구간에서는 각 구간의 관측 시간 슬롯에 대해 상태 값을 0으로 설정하면서 상기 백오프 값을 소정 시간 간격마다 감소시키다가, 상기 통신 채널이 점유 상태로 감지된 구간에서는 상기 관측 시간 슬롯에 대해 상태 값을 1로 설정하면서 상기 백오프 값을 유지시키는 과정을 반복 수행하는 단계;
    상기 고효율 무선 근거리 네트워크(HEW) 장치는 상기 백오프 값이 미리 설정된 임계값에 도달하면, 데이터 송신을 시도하고, 데이터의 전송이 성공하면 상기 관측 시간 슬롯에 대해 상태 값을 0으로 설정하고, 충돌이 발생하면 관측 시간 슬롯에 대해 상태 값을 1로 설정하는 단계; 및
    상기 고효율 무선 근거리 네트워크(HEW) 장치는 상기 설정된 감지 값에 따라 채널 관측 기반 충돌 확률을 계산하고, 상기 채널 관측 기반 충돌 확률을 기초로 컨텐션 윈도우 값을 계산하는 제 1 계산 단계;를 포함하는 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  2. 제 1 항에 있어서,
    고효율 무선 근거리 네트워크(HEW) 장치가 상기 채널 관측 기반 충돌 확률을 기초로 현재 보상 값을 계산하고, 보상 테이블을 업데이트하는 단계;
    고효율 무선 근거리 네트워크(HEW) 장치가 상기 보상 테이블을 기초로 학습 추정치를 계산하는 단계;
    고효율 무선 근거리 네트워크(HEW) 장치가 상기 학습 추정치를 기초로 총 보상인 큐-가치를 계산하여 큐-가치 테이블을 업데이트하는 단계;
    고효율 무선 근거리 네트워크(HEW) 장치가 상기 큐-가치 테이블에서 최대로 측정된 값을 가지는 큐-가치를 가지는 행동을 찾는 단계; 및
    고효율 무선 근거리 네트워크(HEW) 장치가 상기 최적의 행동에 따라 상기 컨텐션 윈도우 값을 계산하는 제 2 계산 단계;를 더 포함하는 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  3. 제 2 항에 있어서,
    고효율 무선 근거리 네트워크(HEW) 장치는 사전에 정해진 확률에 따라 탐험(explore)과 활용(exploit) 중에서 하나를 선택하고, 상기 탐험(explore)이 선택된 경우 상기 제 1 계산 단계에 따라 계산된 컨텐션 윈도우 값을 반환하는 단계;를 더 포함하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  4. 제 2 항에 있어서,
    고효율 무선 근거리 네트워크(HEW) 장치는 사전에 정한 확률에 따라 탐험(explore)과 활용(exploit) 중에서 하나를 선택하고, 상기 활용(exploit)이 선택된 경우 상기 제 2 계산 단계에 따라 계산된 컨텐션 윈도우 값을 반환하는 단계;를 더 포함하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  5. 제 1 항에 있어서, 상기 제 1 계산 단계는,
    관측 시간 슬롯에 있는 각각의 값을 더하고, 관측 슬롯의 총 개수로 나누어 상기 채널 관측 기반 충돌 확률을 구하는 단계; 및
  6. 제 1 항에 있어서, 상기 제 1 계산 단계는,
    고효율 무선 근거리 네트워크(HEW) 장치는 데이터의 전송이 성공하면 상기 컨텐션 윈도우의 값을 감소시키고, 충돌이 발생하면 상기 컨텐션 윈도우의 값을 증가시켜 새로운 컨텐션 윈도우 값을 계산하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  7. 제 2 항에 있어서, 상기 보상 테이블을 업데이트하는 단계는,
    각 상태에서 취한 행동에 따른 보상을 아래 수식에 따라 계산하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
    Figure pat00012

    여기서 r(s,a)는 개별 상태(s)에서 취한 행동(a)에 의해 주어지는 보상이고, Pobs는 채널 관측 기반 충돌 확률이다.
  8. 제 2 항에 있어서, 상기 보상 테이블을 기초로 학습 추정치를 계산하는 단계는,
    상기 학습 추정치를 아래 수식에 따라 계산하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
    Figure pat00013

    여기서 r(s,a)는 개별 상태(s)에서 취한 행동(a)에 의해 주어지는 보상이고, β는 할인 보상 요소(discounted reward factor)이며, maxaQ(s',a')는 잠재적인 상태(s')에서 최대로 추정되는 가치이며, Q(s,a)는 총 보상(aggregate reward)이다.
  9. 제 8 항에 있어서, 상기 큐-가치 테이블을 업데이트하는 단계는,
    상기 큐-가치를 아래 수식에 따라 계산하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
    Figure pat00014

    여기서 Q(s,a)는 총 보상(aggregate reward)이고, α 학습율(learning rate)이며, ΔQ(s,a)는 학습 추정치(learning estimate)이다.
  10. 제 2 항에 있어서, 상기 큐-가치를 가지는 행동을 찾는 단계는,
    최대로 측정된 큐-가치를 가지는 행동을 선택하되, 최대로 측정된 큐-가치를 가지는 행동이 둘 이상인 경우 무작위로 하나를 선택하는, 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법.
  11. 제1항 내지 제10항 중 어느 하나의 항에 따른 기계 학습을 이용하여 컨텐션 윈도우를 계산하는 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020180171182A 2018-12-27 2018-12-27 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체 KR102206775B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180171182A KR102206775B1 (ko) 2018-12-27 2018-12-27 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180171182A KR102206775B1 (ko) 2018-12-27 2018-12-27 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체

Publications (2)

Publication Number Publication Date
KR20200081630A true KR20200081630A (ko) 2020-07-08
KR102206775B1 KR102206775B1 (ko) 2021-01-26

Family

ID=71600037

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180171182A KR102206775B1 (ko) 2018-12-27 2018-12-27 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체

Country Status (1)

Country Link
KR (1) KR102206775B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308799B1 (ko) * 2020-07-10 2021-10-01 영남대학교 산학협력단 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20220009308A (ko) * 2020-07-15 2022-01-24 한양대학교 에리카산학협력단 패킷전송 결정 장치 및 패킷전송 스케줄 결정 방법
KR102371694B1 (ko) * 2021-05-12 2022-03-04 국방과학연구소 학습 기반의 무선 통신 방법
KR102516527B1 (ko) * 2022-10-19 2023-03-31 한국전자기술연구원 동적 vlan 설정을 활용한 네트워크 최적화 방법
KR20230071969A (ko) * 2021-11-17 2023-05-24 부산대학교 산학협력단 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법
KR20230092294A (ko) 2021-12-17 2023-06-26 조선대학교산학협력단 심층 q-학습을 이용한 우선순위 기반 자원 할당 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100085370A (ko) * 2009-01-20 2010-07-29 인하대학교 산학협력단 슬롯 점유 확률을 이용한 펄스 프로토콜 기반의 알에프아이디 리더 충돌 방지 방법
KR101714935B1 (ko) 2014-12-24 2017-03-10 주식회사 포스코 용접성 및 가공부 내식성이 우수한 아연합금도금강재 및 그 제조방법
KR20170132138A (ko) 2015-03-25 2017-12-01 인텔 아이피 코포레이션 고효율 wi-fi (hew) 스테이션, 액세스 포인트, 및 랜덤 액세스 경쟁을 위한 방법
KR101810260B1 (ko) 2010-02-12 2017-12-18 인터디지탈 패튼 홀딩스, 인크 상향링크 랜덤 액세스 채널 전송을 최적화하는 방법 및 장치
KR101845398B1 (ko) * 2017-02-28 2018-04-04 숙명여자대학교산학협력단 기계학습기반의 단말 접속 제어를 위한 차단 인자 설정 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100085370A (ko) * 2009-01-20 2010-07-29 인하대학교 산학협력단 슬롯 점유 확률을 이용한 펄스 프로토콜 기반의 알에프아이디 리더 충돌 방지 방법
KR101810260B1 (ko) 2010-02-12 2017-12-18 인터디지탈 패튼 홀딩스, 인크 상향링크 랜덤 액세스 채널 전송을 최적화하는 방법 및 장치
KR101714935B1 (ko) 2014-12-24 2017-03-10 주식회사 포스코 용접성 및 가공부 내식성이 우수한 아연합금도금강재 및 그 제조방법
KR20170132138A (ko) 2015-03-25 2017-12-01 인텔 아이피 코포레이션 고효율 wi-fi (hew) 스테이션, 액세스 포인트, 및 랜덤 액세스 경쟁을 위한 방법
KR101845398B1 (ko) * 2017-02-28 2018-04-04 숙명여자대학교산학협력단 기계학습기반의 단말 접속 제어를 위한 차단 인자 설정 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptively Scaled Back-off (ASB) mechanism for Enhanced Performance of CSMA/CA in IEEE 802.11ax High Efficiency WLAN, NOMS 2018-2018 IEEE/IFIP Network Operations and Management Symposium, (2018.4.27.)* *
Channel observation-based scaled backoff mechanism for high-efficiency WLANs, Electronics Letters (2018.4.5)* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308799B1 (ko) * 2020-07-10 2021-10-01 영남대학교 산학협력단 사물 인터넷 네트워크 환경에서 mac 계층 충돌 학습을 기초로 전달 경로를 선택하는 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20220009308A (ko) * 2020-07-15 2022-01-24 한양대학교 에리카산학협력단 패킷전송 결정 장치 및 패킷전송 스케줄 결정 방법
KR102371694B1 (ko) * 2021-05-12 2022-03-04 국방과학연구소 학습 기반의 무선 통신 방법
KR20230071969A (ko) * 2021-11-17 2023-05-24 부산대학교 산학협력단 Wi-SUN에서의 강화학습을 이용한 비슬롯 기반 CSMA/CA 최적화를 위한 장치 및 방법
KR20230092294A (ko) 2021-12-17 2023-06-26 조선대학교산학협력단 심층 q-학습을 이용한 우선순위 기반 자원 할당 방법 및 장치
KR102516527B1 (ko) * 2022-10-19 2023-03-31 한국전자기술연구원 동적 vlan 설정을 활용한 네트워크 최적화 방법
WO2024085314A1 (ko) * 2022-10-19 2024-04-25 한국전자기술연구원 동적 가상 랜 설정을 활용한 네트워크 최적화 방법

Also Published As

Publication number Publication date
KR102206775B1 (ko) 2021-01-26

Similar Documents

Publication Publication Date Title
KR102206775B1 (ko) 무선 네트워크에서 기계 학습을 이용하여 자원을 할당하는 방법 및 그 방법을 수행하기 위한 기록 매체
Cui et al. A game-theoretic framework for medium access control
CN108924944B (zh) 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法
US9585077B2 (en) Systems and methods facilitating joint channel and routing assignment for wireless mesh networks
US20200322272A1 (en) Communication method and apparatus for optimizing tcp congestion window
Ali et al. Deep reinforcement learning paradigm for dense wireless networks in smart cities
CN114173421B (zh) 基于深度强化学习的LoRa逻辑信道及功率分配方法
CN114449584B (zh) 基于深度强化学习的分布式计算卸载方法及装置
Lee et al. Resource allocation in wireless networks with federated learning: Network adaptability and learning acceleration
Zheng et al. An adaptive backoff selection scheme based on Q-learning for CSMA/CA
US20220369115A1 (en) Predicting a radio spectrum usage
Kazemi Rashed et al. Learning‐based resource allocation in D2D communications with QoS and fairness considerations
Hlophe et al. Secondary user experience-oriented resource allocation in AI-empowered cognitive radio networks using deep neuroevolution
CN110800364B (zh) 改进或相关于基于用户调度的动态通道自相关
Christian et al. A low-interference channel status prediction algorithm for instantaneous spectrum access in cognitive radio networks
JP6652762B2 (ja) チャネル選択方法
CN110996398A (zh) 一种无线网络资源调度方法及装置
CN117715218B (zh) 基于超图的d2d辅助超密集物联网资源管理方法及***
CN114641030B (zh) 基于fttr的家庭用户热点区域识别方法、***、设备及介质
US12052735B1 (en) Method for offloading decision and resource allocation based on integration of communication, sensing and computing
JP7397956B1 (ja) 電力制御方式およびその通信デバイス
CN108513328B (zh) 一种移动通信设备部分重叠信道稳健共享接入方法及装置
Maghsudi et al. Dynamic bandit with covariates: Strategic solutions with application to wireless resource allocation
WO2023133816A1 (en) Value-based action selection algorithm in reinforcement learning
CN116887429A (zh) 车联网资源分配方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant