본문 바로가기

CS/[AI]Artificial Inteligence(AI 인공지능)

[AI]Making Simple Decisions

*공부하면서 정리하기 위한 글이므로 오류가 있을 수 있으니 참고 바랍니다*

지적 댓글 환영합니다.

 

우리는 일상 생활에서도 많은 의사 결정을 하게 되는 상황을 많이 경험한다.

그렇다면 그럴 때 어떤 결정을 할 것이냐에 대해 고민하게 되는데

이를 논리적으로 접근해보자.

 

즉, 불확실성 속에서 의사 결정을 어떻게 할 것이냐에 대해 알아보도록 하겠다.

 

다음과 같은 상황을 가정해보자.

위 그림은

공항에 가는데

25분 전에 출발 했을 때 제 시간에 도착할 확률은 0.04,

90분 전에 출발 했을 때 제 시간에 도착할 확률은 0.70,

120분 전에 출발 했을 때 제 시간에 도착할 확률은 0.95,

1440분 전에 출발 했을 때 제 시간에 도착할 확률은 0.99 라는 것을 의미한다.

 

그렇다면 공항에 제 시간에 가기 위해 몇 분전에 출발해야 하는가?

너무 일찍 출발해도 시간 안에 도착할 확률이 적어지고,

위의 경우 무조건 제 시간에 도착할 확률만 놓고 본다면 1440분 전에 출발하는 것인데 이 경우는 불필요하게 대기 시간이 너무 길어지게 되는 단점이 있다.

 

따라서 몇 분전에 출발하는 것이 좋을 지에 대한 의사 결정은 단순히 시간 안에 도착할 확률적으로만 접근하는 것이 아니라  효용성의 여부도 판단해야 한다.

결정은 확률적 접근 + 효용성 접근을 모두 고려한 결정이어야 한다는 것이고

 

으로 표현하는 것이다.

utility theory는 preferences 나타내고 추론하는데 사용 된다.

 

agent가 lottery에서 선택을 하고 그때의 prize를 A, B라고 하자. 각각을 선택할 확률을 p, 1-p라고 한다면

다음과 같이 표현이 가능하다.

 

일반화시키면, lottery(state) L에 대해서 가능한 output이 S1~ Sn으로 n 가지가 가능하고

각각의 가능한 확률이 p1~pn이라고 했을 때,

다음과 같이 표현이 가능하다는 것이다.

 

preference를 표현하는 notation이 있는데 다음과 같다

왼쪽 notation을 보게 되면

첫번재 줄은 A를 B보다 선호한다

두번째 줄은 A, B는 선호도에 무관하다,

즉 A이던 B이던 상관 없다

세번째 줄은 B는 적어도 A 보다 선호되지 않는다 를 의미한다,

rational preferences

: rational agent의 선호도는 constraints에 순종하게 되므로 expected utility의 최대화를 나타낼 수 있는 결정을 하게 된다.

 

Axioms of utility theory가 있는데 다음과 같다.

 

이전에 언급했듯이 

Rational Preference는 constraint를 지켜야 한다고 했다.

그렇다면 이러한 제약 조건을 지키지 않는다면 어떻게 될까?

 

다음과 같은 겨우를 살펴 보자.

위 예시는 transitivity가 유지되지 않는 예시이다.

 

B는 C보다 선호되면 1센트를 지불하여 B를 얻고자 할 것이다.

A가 B보다 선호되면 1센트를 지불하여 A를 얻고자 할 것이다.

C가 A보다 선호되면 1센트를 지불하여 C를 얻고자 할 것이다.

 

다음과 같은 경우에는 계속 돈을 지불하게 되며 돈을 다 써버리고 말 것이다.

따라서 transivity가 유지되어야 하는 것이다.

 

utility가 무엇인지에 대해 알아보자.

전에 언급했듯 utility theory가 preference를 나타낸다고 하였다. 좀 더 구체적으로 나타내면 state에 대한 열망을 표현하는 숫자로 바꾸어주는 utility function U(s)에 의해 prefences가 정해지는 것이다.

 

Expected Utility of an action은 action에 따른 기대되는 utility 값을 의미하며 함수로 EU(a)로 나타낸다.

설명을 추가하자면

P(Result(a) = s ′ )는 s 상태에서 a action을 취했을 때 s'이 될 확률을 의미하고

U(s')는 s'의 효용성을 의미한다.

모든 s'에 대해 곱한 값을 더하여 EU(a)를 구하게 되는 것이다.

 

우리는 EU(a)의 최대 값을 구하고 싶은 것이고 Maximum EU라고 해서 MEU라고도 한다.

 

Theorem은 위와 같은데

constraints를 모두 만족하는 preferences들이 주어졌을 때,

real-valued utility function U가 위처럼 존재한다는 것이다.

 

MEU 원칙으로 Expected Utility를 최대화 하는 action을 고른다는 것이다.

 

Expected monetary value EMV(L)와 함께 주어진 lottery L이 있다고 하자.

주로 U(L) < U(EMV(L)) 라면 risk-averse, 위험 회피형이다.

반대의 경우인 U(L) > U(EMV(L)) 라면 risk-prone, 위험 감수형이다.

 

-Multiattribute utility

utility function에 many variable을 다루는 경우라면?

1.  U(x1,...,xn) 말 그대로 여러가지를 다 같이 한번에 보는 것

2. 각 variable이 독립이라고 가정하고 각각 구해서 더하는 것 

 

두가지를 생각해볼 수  있다.

사실 다 같이 한번에 고려하는 것은 말이 쉽지 어렵기 때문에 2번 경우로 주로 사용한다

 

-Strict dominance

A,B가 있을 때 만약 

모든 i에 대해서 B가 더 좋다면 strictly하게 B를 선택한다는 것이다.

왼쪽 그래프의 경우는 deterministic한 attribute로 딱 정확히 나눌 수 있지만

오른쪽 그래프의 경우는 명확하게 나눌 수 없는 것을 확인할 수 있다.(영역이 침범됨)

 

-Stochastic dominance

확률적 우세는 질적으로 접근하는 효용성 분포를 제거하고 확률적으로만 우세한 것을 의미한다.