![Artificial neuron structure](https://upload.wikimedia.org/wikipedia/commons/c/c6/Artificial_neuron_structure.svg)

인공 뉴런

Artificial neuron structure

인공 뉴런은 신경망에서 생물학적 뉴런의 모델로 고안된 수학적 함수이다. 인공 뉴런은 인공 신경망의 기본 단위이다.[^11]

인공 뉴런의 설계는 생물학적 신경 회로에서 영감을 받았다. 인공 뉴런의 입력은 신경 수상돌기에서의 흥분성 시냅스후 전위 및 억제성 시냅스후 전위와 유사하다. 가중치는 시냅스 가중치와 유사하며, 출력은 축삭을 따라 전달되는 뉴런의 활동 전위와 유사하다.

일반적으로 각 입력에는 개별적으로 가중치가 부여되며, 그 합은 비선형 함수인 활성화 함수를 통과하기 전에 편향(역치 전위에 대략적으로 대응)이라고 알려진 항이 더해지는 경우가 많다. 과제에 따라 이러한 함수는 시그모이드 형태(예: 이진 분류용)를 가질 수 있지만, 다른 비선형 함수, 구간별 선형 함수, 또는 계단 함수의 형태를 취할 수도 있다. 이러한 함수는 흔히 단조 증가, 연속, 미분 가능, 유계인 특성을 갖는다. 최근에는 다수의 영점을 가진 비단조, 비유계, 진동 활성화 함수가 시그모이드 및 ReLU 계열 활성화 함수보다 많은 과제에서 더 우수한 성능을 보이는 것이 연구되기도 하였다. 역치 함수는 역치 논리라고 불리는 논리 게이트 구축에 영감을 주었으며, 이는 뇌 처리와 유사한 논리 회로를 구축하는 데 적용할 수 있다. 예를 들어, 멤리스터와 같은 새로운 소자가 이러한 논리를 개발하는 데 광범위하게 사용되어 왔다.[^12]

인공 뉴런의 활성화 함수는 선형 시스템의 전달 함수와 혼동해서는 안 된다.

인공 뉴런은 사용되는 구조에 따라 준선형 유닛, Nv 뉴런, 이진 뉴런, 선형 역치 함수, 또는 맥컬록–피츠(MCP) 뉴런이라고 불리기도 한다.

맥컬록–피츠 모델과 같은 단순한 인공 뉴런은 때때로 "캐리커처 모델"이라고 불리는데, 이는 하나 이상의 신경생리학적 관찰을 반영하고자 하되 사실성은 고려하지 않기 때문이다.[^13] 인공 뉴런은 또한 자연적 물리 뉴런과 유사한 뉴로모픽 공학의 인공 세포를 지칭할 수도 있다.

기본 구조

주어진 인공 뉴런 k에 대해, 신호 x_0부터 x_m까지와 가중치 w_{k0}부터 w_{km}까지를 가진 m+1개의 입력이 있다고 하자. 일반적으로 입력 x_0에는 +1의 값이 할당되어 w_{k0} = b_k인 편향 입력이 된다. 이로써 뉴런에 대한 실제 입력은 m개, 즉 x_1부터 x_m까지만 남게 된다.

k번째 뉴런의 출력은 다음과 같다:

y_k = \varphi \left(\sum_{j=0}^m w_{kj} x_j \right),

여기서 \varphi(파이)는 활성화 함수이다.

출력은 생물학적 뉴런의 축삭과 유사하며, 그 값은 시냅스를 통해 다음 층의 입력으로 전파된다. 또한 출력 벡터의 일부로서 시스템 외부로 나갈 수도 있다.

인공 뉴런 자체에는 학습 과정이 없다. 활성화 함수의 가중치는 계산되며, 역치 값은 미리 결정된다.

맥컬록-피츠(MCP) 뉴런

MCP 뉴런은 이산 시간 단계에서 작동하는 일종의 제한된 인공 뉴런이다. 각 뉴런은 0개 이상의 입력을 가지며, x_1, ..., x_n으로 표기한다. 하나의 출력을 가지며, y로 표기한다. 각 입력은 흥분성 또는 억제성일 수 있다. 출력은 비활성 또는 발화 상태일 수 있다. MCP 뉴런은 또한 임계값 b \in {0, 1, 2, ...}을 가진다.

MCP 신경망에서 모든 뉴런은 t = 0, 1, 2, 3, ...의 동기식 이산 시간 단계로 작동한다. 시각 t+1에서, 발화 중인 흥분성 입력의 수가 임계값 이상이고 억제성 입력이 하나도 발화하지 않는 경우 뉴런의 출력은 y(t+1) = 1이 되며, 그렇지 않으면 y(t+1)=0이 된다.

각 출력은 자기 자신을 포함하여 임의의 수의 뉴런에 대한 입력이 될 수 있다(즉, 자기 순환이 가능하다). 그러나 하나의 출력이 단일 뉴런에 두 번 이상 연결될 수는 없다. 신경망이 동기식 이산 시간 단계로 작동하기 때문에 자기 순환은 모순을 일으키지 않는다.

간단한 예로, 임계값이 0이고 억제성 자기 순환이 하나 있는 단일 뉴런을 생각해 보자. 이 뉴런의 출력은 매 단계마다 0과 1 사이를 진동하며 "시계" 역할을 한다.

모든 유한 상태 기계는 MCP 신경망으로 시뮬레이션할 수 있다.[^1] 무한 테이프가 제공되면, MCP 신경망은 모든 튜링 기계를 시뮬레이션할 수 있다.[^14]

생물학적 모델

수상돌기의 입력에서 축삭 말단의 출력까지 신호 흐름을 나타낸 뉴런과 수초화 축삭

인공 뉴런은 생물학적 뉴런의 특성을 모방하도록 설계되었다. 그러나 생물학적 신경망과 인공 신경망 사이에는 상당한 성능 차이가 존재한다. 특히, 인간의 뇌에서 진동 활성화 함수를 가진 단일 생물학적 뉴런이 XOR 함수를 학습할 수 있다는 사실이 발견되었다.[^15]

수상돌기 – 생물학적 뉴런에서 수상돌기는 입력 벡터의 역할을 한다. 이러한 수상돌기를 통해 세포는 다수(1000개 이상)의 인접 뉴런으로부터 신호를 수신할 수 있다. 위의 수학적 처리에서와 같이, 각 수상돌기는 해당 수상돌기의 "가중치"에 의한 "곱셈"을 수행할 수 있다. 이 곱셈은 시냅스 신경전달물질에 반응하여 수상돌기로 유입되는 시냅스 신경전달물질과 신호 화학물질의 비율을 증가 또는 감소시킴으로써 이루어진다. 시냅스 신경전달물질의 수용에 반응하여 수상돌기를 따라 신호 억제제(즉, 반대 전하를 가진 이온)를 전달함으로써 음의 곱셈 효과를 달성할 수 있다.
세포체 – 생물학적 뉴런에서 세포체는 위의 수학적 설명에서 볼 수 있는 합산 기능을 수행한다. 수상돌기로부터 양성 및 음성 신호(각각 흥분성 및 억제성)가 세포체에 도달하면, 양이온과 음이온은 세포체 내부 용액에서 함께 혼합되는 단순한 원리에 의해 사실상 합산된다.
축삭 – 축삭은 세포체 내부에서 발생하는 합산 작용으로부터 신호를 받는다. 축삭의 입구는 본질적으로 세포체 내부 용액의 전위를 표본 추출한다. 세포체가 특정 전위에 도달하면, 축삭은 전체 길이를 따라 전부 아니면 전무(all-in) 신호 펄스를 전달한다. 이러한 점에서 축삭은 하나의 인공 뉴런을 다른 인공 뉴런과 연결할 수 있게 해주는 능력과 유사하게 작동한다.

그러나 대부분의 인공 뉴런과 달리, 생물학적 뉴런은 이산적인 펄스 형태로 발화한다. 세포체 내부의 전위가 특정 임계값에 도달할 때마다 축삭을 따라 펄스가 전달된다. 이러한 펄스는 연속적인 값으로 변환될 수 있다. 축삭이 발화하는 속도(초당 활성화 횟수 등)는 인접 세포에 신호 이온이 유입되는 속도로 직접 변환된다. 생물학적 뉴런이 빠르게 발화할수록, 인접 뉴런은 더 빠르게 전위를 축적(또는 발화한 뉴런에 연결된 수상돌기의 "가중치"에 따라 전위를 상실)한다. 바로 이러한 변환 덕분에 컴퓨터 과학자와 수학자들은 개별적인 값(흔히 −1에서 1까지)을 출력할 수 있는 인공 뉴런을 사용하여 생물학적 신경망을 시뮬레이션할 수 있다.

부호화

연구에 따르면, 새의 노래 생성을 담당하는 신경 회로에서 단항 부호화(unary coding)가 사용되는 것으로 밝혀졌다.[^16][^17] 생물학적 네트워크에서 단항 부호화의 사용은 아마도 이 부호화 방식의 본질적인 단순성에 기인하는 것으로 보인다. 또 다른 기여 요인으로는 단항 부호화가 일정 수준의 오류 정정 기능을 제공한다는 점이 있다.[^18]

물리적 인공 세포

물리적 인공 뉴런에 대한 연구와 개발이 진행되고 있으며, 유기물과 무기물 모두를 대상으로 한다.

예를 들어, 일부 인공 뉴런은 도파민(전기 신호가 아닌 화학 신호)을 수신[^2][^19]하고 방출할 수 있으며, 자연 쥐의 근육 세포 및 뇌 세포와 통신할 수 있어 BCI/보철 장치에 활용될 잠재력이 있다.[^20][^21]

저전력 생체적합성 멤리스터는 생물학적 활동 전위의 전압에서 작동하는 인공 뉴런의 구축을 가능하게 할 수 있으며, 생체 감지 신호를 직접 처리하거나, 뉴로모픽 컴퓨팅 및/또는 생물학적 뉴런과의 직접적인 통신에 사용될 수 있다.[^22][^23][^24]

폴리머로 만들어지고 이온이 풍부한 겔로 코팅되어 실제 뉴런처럼 전하를 전달할 수 있는 유기 뉴로모픽 회로가 로봇에 내장되어, 시뮬레이션이나 가상 환경이 아닌 실제 세계에서 감각운동적으로 학습할 수 있게 되었다.[^3][^25] 또한, 연질 물질(폴리머)로 만들어진 인공 스파이킹 뉴런은 생물학적으로 관련된 환경에서 작동할 수 있으며, 인공 영역과 생물학적 영역 간의 시너지적 통신을 가능하게 한다.[^26][^27]

역사

최초의 인공 뉴런은 임계 논리 장치(Threshold Logic Unit) 또는 선형 임계 장치(Linear Threshold Unit)로,[^4] 1943년 워런 맥컬록과 월터 피츠가 *신경 활동에 내재된 관념의 논리적 계산(A logical calculus of the ideas immanent in nervous activity)*에서 처음 제안하였다. 이 모델은 뇌의 "신경망"에 대한 계산 모델로 특별히 설계되었다.[^5] 활성화 함수로는 헤비사이드 계단 함수를 사용하는 것과 동등한 임계값을 채택하였다. 처음에는 이진 입력과 출력, 가능한 가중치에 대한 일부 제한, 그리고 보다 유연한 임계값을 가진 단순한 모델만이 고려되었다. 초기부터 이러한 장치의 네트워크를 통해 모든 부울 함수를 구현할 수 있다는 것이 이미 인식되었으며, 이는 AND와 OR 함수를 구현하고 이를 선언적 정규형이나 논리곱 정규형에 사용할 수 있다는 사실에서 쉽게 알 수 있다. 연구자들은 또한 뉴런을 통한 피드백이 있는 순환 네트워크가 메모리를 가진 동적 시스템을 정의할 수 있다는 것을 곧 깨달았지만, 대부분의 연구는 더 적은 난이도를 보이는 순수 순방향 네트워크에 집중되었고 현재도 그러하다.

선형 임계 함수를 사용한 중요하고 선구적인 인공 신경망 중 하나는 프랭크 로젠블랫이 개발한 퍼셉트론이었다. 이 모델은 뉴런에서 보다 유연한 가중치 값을 이미 고려하고 있었으며, 적응 능력을 갖춘 기계에 사용되었다. 임계값을 편향 항으로 표현하는 방식은 1960년 버나드 위드로에 의해 도입되었다 – ADALINE을 참조하라.

이후의 발전은 도널드 O. 헵이 제안한 헵 학습 규칙으로, 이는 신경망에서 가중치를 조정하기 위한 기본적인 규칙을 제공하였다.[^6] 헵 학습의 원리는 두 뉴런이 동시에 활성화되면 연결이 강화되고, 별도로 활성화되면 약화된다는 것이다.[^6] 스파이크 타이밍 의존 가소성으로 알려진 헵 학습의 개선은 뉴런 스파이크의 정확한 타이밍을 설명하기 위해 개발되었다.[^6] 이 형태의 학습은 스파이킹 신경망에 구현되었으며, 이는 전통적인 ANN보다 더 에너지 효율적인 것으로 여겨지며[^6] 연속적인 계산이 아닌 이벤트 발생에 기반하여 데이터를 처리하므로 전송에 더 적은 에너지를 필요로 한다.[^6]

1980년대 후반, 신경망 연구가 다시 활기를 되찾으면서 보다 연속적인 형태를 가진 뉴런이 고려되기 시작하였다. 활성화 함수의 미분 가능성은 가중치 조정을 위한 경사 하강법 및 기타 최적화 알고리즘의 직접적인 사용을 가능하게 한다. 신경망은 또한 일반적인 함수 근사 모델로 사용되기 시작하였다. 가장 잘 알려진 훈련 알고리즘인 역전파는 여러 차례 재발견되었지만, 최초의 개발은 폴 워보스의 연구로 거슬러 올라간다.[^28][^29]

활성화 함수의 유형

뉴런의 활성화 함수는 해당 뉴런을 포함하는 네트워크를 향상시키거나 단순화하는 여러 속성을 갖도록 선택된다. 결정적으로, 예를 들어 선형 활성화 함수를 사용하는 다층 퍼셉트론은 동등한 단일층 네트워크로 대체될 수 있으므로, 다층 네트워크의 이점을 얻기 위해서는 비선형 함수가 반드시 필요하다.

아래에서 u는 모든 경우에 뉴런에 대한 모든 입력의 가중합을 나타내며, 즉 n개의 입력에 대해 다음과 같다.

u = \sum_{i=1}^n w_i x_i

여기서 w는 시냅스 가중치 벡터이고 x는 입력 벡터이다.

계단 함수

이 활성화 함수의 출력 y는 입력이 지정된 임계값 \theta(세타)를 충족하는지 여부에 따라 이진값을 갖는다. 활성화가 임계값 이상이면 "신호"가 전송되며, 즉 출력이 1로 설정된다.

y = \begin{cases} 1 & \text{if }u \ge \theta \ 0 & \text{if }u < \theta \end{cases}

이 함수는 퍼셉트론에서 사용되며, 다른 많은 모델에서도 나타난다. 이 함수는 초평면에 의해 입력 공간을 분할하는 역할을 한다. 예를 들어 입력의 이진 분류를 수행하려는 네트워크의 마지막 층에서 특히 유용하다.

선형 결합

이 경우 출력 유닛은 단순히 입력의 가중합에 편향 항을 더한 것이다. 이러한 선형 뉴런 여러 개가 입력 벡터의 선형 변환을 수행한다. 이는 보통 네트워크의 초기 층에서 더 유용하다. 조화 해석과 같은 선형 모델에 기반한 다수의 분석 도구가 존재하며, 이들은 모두 이 선형 뉴런을 사용하는 신경망에서 활용될 수 있다. 편향 항은 데이터에 대해 아핀 변환을 수행할 수 있게 해준다.

시그모이드

비교적 단순한 비선형 함수인 로지스틱 함수와 같은 시그모이드 함수는 도함수를 쉽게 계산할 수 있다는 장점이 있으며, 이는 네트워크에서 가중치 갱신을 계산할 때 중요할 수 있다. 따라서 네트워크를 수학적으로 더 쉽게 다룰 수 있게 해주며, 시뮬레이션의 계산 부하를 최소화해야 했던 초기 컴퓨터 과학자들에게 매력적이었다. 이전에는 다층 퍼셉트론에서 흔히 사용되었다. 그러나 최근 연구에 따르면 시그모이드 뉴런은 정류 선형 뉴런보다 효과가 떨어지는 것으로 나타났다. 그 이유는 역전파 알고리즘으로 계산된 기울기가 시그모이드 뉴런의 층을 통과하면서 0에 가까워지는 경향이 있어, 시그모이드 뉴런의 다중 층을 사용하는 신경망을 최적화하기 어렵기 때문이다.

정류기

인공 신경망의 맥락에서 정류기 또는 정류 선형 유닛은 인수의 양의 부분으로 정의되는 활성화 함수이다:

f(x) = x^+ = \max(0, x),

여기서 x는 뉴런에 대한 입력이다. 이것은 램프 함수라고도 하며, 전기공학에서의 반파 정류와 유사하다. 이 활성화 함수는 강력한 생물학적 동기와 수학적 정당화를 바탕으로[^8] Hahnloser 등이 2000년 Nature 논문에서[^7] 동적 네트워크에 처음 도입하였다. 2011년에는 2011년 이전에 널리 사용되던 활성화 함수, 즉 로지스틱 시그모이드(확률론에서 영감을 받은 것으로, 로지스틱 회귀 참조)와 그보다 실용적인[^30] 대안인 쌍곡탄젠트에 비해 더 깊은 네트워크의 학습을 가능하게 한다는 것이 처음으로 입증되었다.[^9]

정류 선형 유닛 활성화 함수의 흔히 사용되는 변형은 리키 정류 선형 유닛으로, 유닛이 비활성 상태일 때 작은 양의 기울기를 허용한다:

f(x) = \begin{cases} x & \text{if } x > 0, \ ax & \text{otherwise}. \end{cases}

여기서 x는 뉴런에 대한 입력이고 a는 작은 양의 상수이다(원래 논문에서는 0.01로 설정됨).[^10]

의사코드 알고리즘

다음은 불리언 입력(참 또는 거짓)을 받아 활성화 시 단일 불리언 출력을 반환하는 단일 임계 논리 유닛의 간단한 의사코드 구현이다. 객체 지향 모델이 사용된다. 여러 가지 학습 방법이 존재하므로 특정 학습 방법은 정의하지 않는다. 순수 함수형 모델을 사용할 경우, 아래의 임계 논리 유닛 클래스는 임계값, 가중치, 입력을 입력 매개변수로 받아 불리언 값을 반환하는 임계 논리 유닛 함수로 대체된다.

class Threshold Logic Unit defined as: data member threshold : number data member weights : list of numbers of size X

 **function member** fire(inputs **: list of** booleans **of size** X) **:** boolean **defined as:**
     **variable** T **:** number
     T **←** 0
     **for each** i **in** 1 **to** X **do**
         **if** inputs(i) **is** true **then**
             T **←** T + weights(i)
         **end if**
     **end for each**
     **if** T > threshold **then**
         **return** true
     **else:**
         **return** false
     **end if**
 **end function**

end class

같이 보기

결합 뉴런
연결주의
리셉트론

더 읽을거리

참고 문헌

[^1]: Minsky, Marvin Lee. 계산: 유한 기계와 무한 기계. Prentice Hall. (1967-01-01)

[^2]: Kleiner, Kurt. 컴퓨터 칩이 뇌세포처럼 작동하도록 만들기. (2022년 8월 25일)

[^3]: Bolakhe, Saugat. 유기적 '뇌'를 가진 레고 로봇이 미로 탐색을 학습하다

[^4]: 신경망의 이산수학: 선별 주제. SIAM. (2001년 1월)

[^5]: 데이터 분류: 알고리즘과 응용. CRC Press. (2014년 7월 25일)

[^6]: Momeni, Ali. 물리적 신경망의 훈련. (2025년 9월)

[^7]: cite journal last1=Hahnloser first1=Richard H. R. last2=Sarpeshkar first2=Rahul last3=Mahowald first3=Misha A. last4=Douglas first4=Rodney J. last5=Seung first5=H. Sebastian titl

[^8]: 대칭 임계값-선형 네트워크에서의 허용 집합과 금지 집합

[^9]: 심층 희소 정류 신경망

[^10]: Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). [https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf 정류기 비선형성이 신경망 음향 모델을 개선하다].

[^11]: 신경 신호의 정보 함량을 향상시키는 신경 변조 기반 뉴로모픽 회로. Association for Computing Machinery

[^12]: Maan, A. K.. 멤리스티브 임계값 논리 회로에 대한 조사. (2016년 1월 1일)

[^13]: 약하게 연결된 신경망. Springer

[^14]: McCulloch, Warren S.. 신경 활동에 내재된 관념의 논리적 계산. (1943-12-01)

[^15]: Gidon, Albert. 인간 2/3층 피질 뉴런의 수상돌기 활동 전위와 계산. (2020-01-03)

[^16]: 조류 노래의 생성, 학습 및 코딩에 대한 신경망 모델. Elservier. (2007년 10월)

[^17]: cite journal last1 = Moore first1 = J.M. display-authors = etal year = 2011 title = 명금류에서 운동 경로 수렴이 음절 레퍼토리 크기를 예측하다 journal = Proc. Natl. Acad. S

[^18]: Potluri, Pushpa Sree. 단항 부호화의 오류 정정 용량. (2014년 11월 26일)

[^19]: Keene, Scott T.. 신경전달물질 매개 가소성을 가진 바이오하이브리드 시냅스. (2020년 9월)

[^20]: 인공 뉴런이 실제 뉴런처럼 쥐의 뇌세포와 도파민을 교환하다

[^21]: Wang, Ting. 화학적으로 매개되는 인공 뉴런. (2022년 8월 8일)

[^22]: 과학자들이 인간의 뇌처럼 작동하는 초소형 장치를 개발하다. (2020년 4월 20일)

[^23]: 연구자들이 효율적인 학습에서 인간의 뇌를 모방하는 전자장치를 공개하다

[^24]: Fu, Tianda. 생체 영감 바이오 전압 멤리스터. (2020년 4월 20일)

[^25]: Krauhausen, Imke. 로봇 공학에서 감각운동 통합 및 학습을 위한 유기 뉴로모픽 전자장치. (2021년 12월)

[^26]: Sarkar, Tanmoy. 현장 뉴로모픽 감지 및 바이오 인터페이싱을 위한 유기 인공 스파이킹 뉴런. (2022년 11월 7일)

[^27]: 인공 뉴런이 생물학적 대응물을 모방하여 시너지 작동을 가능하게 하다. (2022년 11월 10일)

[^28]: [[Paul Werbos]], 회귀를 넘어서: 행동과학에서의 새로운 예측 및 분석 도구. 박사 학위 논문, Harvard University, 1974

[^29]: cite journal last=Werbos first=P.J. author-link=Paul Werbos title=시간을 통한 역전파: 그것이 하는 일과 하는 방법 journal=Proceedings of the IEEE volume=78 issue=10 year=1990

[^30]: 효율적인 역전파. Springer