ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍

ଉଇକିପିଡ଼ିଆ‌ରୁ

ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ (English: Reinforcement Learning) କିମ୍ବା ସଂକ୍ଷେପରେ ଆରଏଲ ହେଉଛି ମେସିନ ଲର୍ଣ୍ଣିଙ୍ଗ୍ର ଏକ ବିଭାଗ ଯେଉଁଥିରେ କିପରି ଏକ ସଫ୍ଟୱେର ଏଜେଣ୍ଟ ଏକ ନିର୍ଦ୍ଧିଷ୍ଟ ପରିବେଶରେ ନିଷ୍ପତ୍ତି ନେଇ ଅଧିକ ଲାଭ ଉଠେଇପାରିବ ସେ ବିଷୟରେ ଗବେଷଣା ଓ ଆଲୋଚନା ହୋଇଥାଏ ।[୧][୨] ଏହାର ସାଧାରଣତା ନିମିତ୍ତ ଏହି ବିଷୟାଟିକୁ ଆହୁରି ଅନେକ ସ୍ଥାନରେ ମଧ୍ୟ ପ୍ରୟୋଗ କରାଯାଇଥାଏ ଯେପରିକି ଗେମ ଥିଓରୀ, କଣ୍ଟ୍ରୋଲ ଥିଓରୀ, ଇନଫର୍ମେଶନ ଥିଓରୀ ଇତ୍ୟାଦି ।


ସୁପରଭାଇଜଡ଼ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ପରି ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍ ନିମିତ୍ତ ଚିନ୍ହିତ ତଥ୍ୟ ଆବଶ୍ୟକ ନୁହେଁ । ଚିନ୍ହିତ ତଥ୍ୟର ଅନୁପସ୍ଥିତିରେ ଏଜେଣ୍ଟଟି ନିଜର ଅଭିଜ୍ଞାତାରୁ ଶିକ୍ଷାଲାଭ କରିଥାଏ । ଶିଖିବା ସମୟରେ କେଉଁ ନିଷ୍ପତି ଭଲ ଏବଂ କେଉଁଟି ଖରାପ ଏହା ମନେରଖି ଦୂରଦୃଷ୍ଟିରେ କେଉଁ ନିଷ୍ପତିଟି ଭଲ ହେବ ସେହି ନିଷ୍ପତି ନେବାକୁ ଚେଷ୍ଟା କରିଥାଏ ।[୩]

କିଛି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ତଥ୍ୟ ଏବଂ ଜାଣିବା କଥା[ସମ୍ପାଦନା]

ଆରଏଲର ମୁଖ୍ୟ ଚରିତ୍ରଗୁଡ଼ିକ ହେଲେ ଏଜେଣ୍ଟ ଏବଂ ପରିବେଶ । ଏଜେଣ୍ଟଟି ପରିବେଶ ମଧ୍ୟରେ ରହିଥାଏ । ପରିବେଶ ସହ କଥାବାର୍ତ୍ତା କରିବା ସମୟରେ ପ୍ରତି ସ୍ତରରେ ଏଜେଣ୍ଟଟି ଏକ ଭିନ୍ନ ଦୁନିଆ ଦେଖିଥାଏ, ସେହି ହିସାବରେ ସେ ବିଚାର କରି କ୍ରିୟା କରିଥାଏ । ଏଜେଣ୍ଟଟିର ଏହି କ୍ରିୟା ଜନିତ ହସ୍ତକ୍ଷେପ ଯୋଗୁଁ ପାରିବେଶଟିରେ ପରିବର୍ତ୍ତନ ଘଟିଥାଏ । ବେଳେ ବେଳେ ଆପେ ଆପେ ମଧ୍ୟ ପରିବେଶରେ ପରିବର୍ତ୍ତନ ହୋଇପାରେ ।

ପରିବେଶ ମଧ୍ୟରୁ ଏଜେଣ୍ଟଟିକୁ ଏକ ରିବାର୍ଡ ବା ପୁରସ୍କାର ସଙ୍କେତ ମଧ୍ୟ ମିଳିଥାଏ ଯାହା ବର୍ତ୍ତମାନ ପରିସ୍ଥିତିରେ ଥିବା ପରିବେଶ ବିଷୟରେ ଦର୍ଶାଇଥାଏ । ବିଭିନ୍ନ ସ୍ତରର ପୁରସ୍କାର ମିଶିଲେ ତାହାକୁ ରିଟର୍ନ କୁହାଯାଏ । ଏଜେଣ୍ଟଟିର ଲକ୍ଷ ହେଉଛି ଏହି ରିଟର୍ନକୁ ବଢ଼ାଇବା । ଆରଏଲ ଆଲଗୋରିଦମର ବିଭିନ୍ନ ପ୍ରଣାଳୀ ଉପଯୋଗ କରି ଏଜେଣ୍ଟ ଏହି ଲକ୍ଷ୍ୟ ହାସଲ କରିଥାଏ ।

ଆରଏଲ ବିଷୟରେ ଅଧିକ ଜାଣିବାକୁ ନିମ୍ନଲିଖିତ ଅଧିକ ଶବ୍ଦ ବିଷୟରେ ଜାଣିବା ଜରୁରୀ:[୪]

  • ଷ୍ଟେଟ ଏବଂ ଅବଜର୍ଭେସନ
  • ଆକ୍ସନ ସ୍ପେସ
  • ପଲିସି
  • ଟ୍ରାଜେକ୍ଟୋରି
  • ଅଧିକ ରିଟର୍ନ ପାଇବାର ପ୍ରଣାଳୀ
  • ଆରଏଲ ଅପଟିମାଇଜେସନ ସମସ୍ୟା ଏବଂ
  • ଭାଲ୍ୟୁ ଫଙ୍କସନ

ଘଟଣାବଳୀ[ସମ୍ପାଦନା]

  • ଗୁଗଲ ସର୍ବସାଧାରଣ ଲୋକମାନଙ୍କ ନିମିତ୍ତ ଏହାର ନିଜର ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଫ୍ରେମବାର୍କକୁ ପ୍ରକାଶ କରିଛି ।[୫] ଏହାର ଗିଟହବ ଆଧାର ଏଠାରେ ଉପଲବ୍ଧ ।

ଅଧାର[ସମ୍ପାଦନା]

  1. "ଆର୍କାଇଭ୍ କପି". Archived from the original on 2024-03-16. Retrieved 2024-03-16.
  2. https://top.quora.com/What-is-reinforcement-learning[permanent dead link]
  3. https://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265
  4. https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology
  5. https://venturebeat.com/2018/08/27/google-releases-open-source-reinforcement-learning-framework-for-training-ai-models/

ବାହ୍ୟ ଆଧାର[ସମ୍ପାଦନା]