МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ...

6
“МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА” М.Эрхэмбаатар a , А.Хүдэр b , Б.Луубаатар c , а Магистрант, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс b Удирдагч: Доктор, дэд проф. багш, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс c Зөвлөх: Докторант ахлах багш, Электроникийн салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс a И-мэйл: erkhemee @gmail.com b И-мэйл: khuder @must.edu.mn c И-мэйл: luubaatar @ must.edu.mn Хураангуй: Энэ өгүүллэгт компьютер хараа, машин болон гүн сургалт, хүний царайг илрүүлэх, таних суурь онол аргачлалыг судлан, мөн шаардлагатай техник орчин, программчлалын багаж хэрэгсэлүүдийг ашиглан, тасалгааны камер болон ухаалаг гэрийн туслах-роботын хиймэл оюун ухааныг сургах зорилгоор нэгэн гэр бүлийн хүмүүсийг цөөн тооны зурган өгөгдөл дээр тулгуурлан царай таних туршилтыг богино хугацаанд, бага зардлаар хэрэгжүүлсэн үр дүнг танилцуулав. Түлхүүр үг: дүрс таних, царай таних, компьютер хараа, машин сургалт, гүн сургалт, мэдрэлийн гүн сүлжээ Удиртгал Дүрс болон царай таних нь компьютерийн шинжлэх ухааны компьютер хараа салбарын судлагдахуун бөгөөд уг технологийн хэрэглээ нь хиймэл оюун ухаан, робот, жолоочгүй автомашин, анагаахын салбарт хэт авиан оношлогоо (хавдрын эсийг илрүүлэх), олон нийтийн аюулгүй байдлын хяналт зэрэг олон салбарт хэрэглээ, үйлдвэрлэлийн хувьд маш хурдацтай өсч хөгжиж байна. Аливаа дүрсийг ялгаж таних хүний чадвар нь ~94.9% байдаг бол Google (95.18%), Microsoft (95.06%) компаниудын боловсруулсан аргачлал нь хүний чадавхиас давж гарав [1]. Мөн царай таньж ялгах хүний чадвар нь дундажаар 99.5% байдаг бол Facebook компанийн DeepFace нь 99.7% амжилтаар үүнээс давж гарсан байна [2]. Эдгээр өндөр амжилтууд нь техникийн хүчин зүйл буюу үүлэн болон паралелль тооцоолол ашигласан суперкомпьютерын хүчин чадал сайжирсантай, мөн маш их хэмжээний өгөгдөл цуглуулж машин сургалт, гүн сургалт хийж байгаатай холбоотой байна. Дүрс таних, тэр дундаа хүний царайг таних технологи нь манай улсын практикт төдийлэн нэвтрээгүй байгаа бөгөөд иргэний мэдээлэл, нийгмийн хэв журмыг хангах, олон нийтийн аюулгүй байдлыг хангах зэрэгт уг технологийг нэвтрүүлэх шаардлага бий болоод байна. Жишээ нь: - Гудамж болон замын уулзварын камерын хяналтыг ухаалаг болгох (intelligent surveillance), - Иргэний бүртгэл мэдээлэл, хил гаалийн системд иргэдийг нүүр царайгаар нь таних болон хайх, - Монгол хүмүүсийн царай төрхийн нийтлэг дундаж төрхийг тооцоолж гаргах гэх мэт. 1. Онолын судалгаа Царайг танихын тулд эхлээд оролтын зураг болон видео дундаас царайг олж илрүүлнэ, дараа нь түүн дээр урьдчилсан боловсруулалт хийгээд дараачийн таних үйлдэл руу шилжинэ. Хүний нүүрийг таних, дүрс таних олон аргачлал байгаагийн дотроос хамгийн бага алдааны магадлалтайгаар таньж буй CNN аргачлалуудыг голлон судлаж, онолыг Стэнфордын их сургуулийн “CS231n Convolutional Neural Networks for Visual Recognition” [3] хичээлийн онлайн материалиас голчлон үзсэн ба үүнтэй холбоотойгоор судалж буй ном сурах бичгүүд [4][5][6] ашиглан суралцав. 1.1 Мэдрэлийн гүн сүлжээ Мэдрэлийн гүн сүлжээний нэг хувилбар болох CNN ( Convolutional Neural Network) нь анх 2012 онд Алекс Кризевский ImageNet дэх уралдаанд (Компьютер харааны олимп) зураг ангилалтын алдааг 25%-c 15% хүртэл багасган (AlexNet) рекорд тогтоон түрүүлснээр хөгжил дэвшил нь эхлэсэн [7]. Хүн дүрсийг хүн ялгаж танихдаа, жишээ нь нохойг түүний сарвуу, нүд, арьс үс зэрэг онцлог шинжүүдээр нь ялгаж сурдаг бол компьютер ч мөн үүнтэй адил дүрс, биетийг доод түвшины муруй, хэрчим бүхий шинж чанаруудаас тогтсон конволушн давхаргуудыг байгуулж ялгаж таньдаг аргачлал нь CNN юм. Зураг 1-т ерөнхий бүтэцийг дүрслэн харуулав.

Upload: erkhemee-onair

Post on 16-Apr-2017

138 views

Category:

Science


16 download

TRANSCRIPT

Page 1: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

“МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫНСУДАЛГАА”

М.Эрхэмбаатарa, А.Хүдэрb, Б.Луубаатарc,

аМагистрант, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улсbУдирдагч: Доктор, дэд проф. багш, Компьютерийн Ухааны салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс

cЗөвлөх: Докторант ахлах багш, Электроникийн салбар, ШУТИС-МХТС, Улаанбаатар, Монгол улс

a И-мэйл: erkhemee @gmail.comb И-мэйл: khuder @must.edu.mn

c И-мэйл: luubaatar @ must.edu.mn

Хураангуй:

Энэ өгүүллэгт компьютер хараа, машин болон гүн сургалт, хүний царайг илрүүлэх, таних суурь оноларгачлалыг судлан, мөн шаардлагатай техник орчин, программчлалын багаж хэрэгсэлүүдийг ашиглан,тасалгааны камер болон ухаалаг гэрийн туслах-роботын хиймэл оюун ухааныг сургах зорилгоор нэгэн гэрбүлийн хүмүүсийг цөөн тооны зурган өгөгдөл дээр тулгуурлан царай таних туршилтыг богино хугацаанд, багазардлаар хэрэгжүүлсэн үр дүнг танилцуулав.

Түлхүүр үг: дүрс таних, царай таних, компьютер хараа, машин сургалт, гүн сургалт, мэдрэлийн гүн сүлжээ

Удиртгал

Дүрс болон царай таних нь компьютерийн шинжлэх ухааны компьютер хараа салбарын судлагдахуун бөгөөд угтехнологийн хэрэглээ нь хиймэл оюун ухаан, робот, жолоочгүй автомашин, анагаахын салбарт хэт авианоношлогоо (хавдрын эсийг илрүүлэх), олон нийтийн аюулгүй байдлын хяналт зэрэг олон салбарт хэрэглээ,үйлдвэрлэлийн хувьд маш хурдацтай өсч хөгжиж байна. Аливаа дүрсийг ялгаж таних хүний чадвар нь ~94.9%байдаг бол Google (95.18%), Microsoft (95.06%) компаниудын боловсруулсан аргачлал нь хүний чадавхиас давжгарав [1]. Мөн царай таньж ялгах хүний чадвар нь дундажаар 99.5% байдаг бол Facebook компанийн DeepFaceнь 99.7% амжилтаар үүнээс давж гарсан байна [2]. Эдгээр өндөр амжилтууд нь техникийн хүчин зүйл буюуүүлэн болон паралелль тооцоолол ашигласан суперкомпьютерын хүчин чадал сайжирсантай, мөн маш иххэмжээний өгөгдөл цуглуулж машин сургалт, гүн сургалт хийж байгаатай холбоотой байна.

Дүрс таних, тэр дундаа хүний царайг таних технологи нь манай улсын практикт төдийлэн нэвтрээгүй байгаабөгөөд иргэний мэдээлэл, нийгмийн хэв журмыг хангах, олон нийтийн аюулгүй байдлыг хангах зэрэгт угтехнологийг нэвтрүүлэх шаардлага бий болоод байна. Жишээ нь:- Гудамж болон замын уулзварын камерын хяналтыг ухаалаг болгох (intelligent surveillance),- Иргэний бүртгэл мэдээлэл, хил гаалийн системд иргэдийг нүүр царайгаар нь таних болон хайх,- Монгол хүмүүсийн царай төрхийн нийтлэг дундаж төрхийг тооцоолж гаргах гэх мэт.

1. Онолын судалгаа

Царайг танихын тулд эхлээд оролтын зураг болон видео дундаас царайг олж илрүүлнэ, дараа нь түүн дээрурьдчилсан боловсруулалт хийгээд дараачийн таних үйлдэл руу шилжинэ.

Хүний нүүрийг таних, дүрс таних олон аргачлал байгаагийн дотроос хамгийн бага алдааны магадлалтайгаартаньж буй CNN аргачлалуудыг голлон судлаж, онолыг Стэнфордын их сургуулийн “CS231n Convolutional NeuralNetworks for Visual Recognition” [3] хичээлийн онлайн материалиас голчлон үзсэн ба үүнтэй холбоотойгоорсудалж буй ном сурах бичгүүд [4][5][6] ашиглан суралцав.

1.1 Мэдрэлийн гүн сүлжээ

Мэдрэлийн гүн сүлжээний нэг хувилбар болох CNN (Convolutional Neural Network) нь анх 2012 онд АлексКризевский ImageNet дэх уралдаанд (Компьютер харааны олимп) зураг ангилалтын алдааг 25%-c 15% хүртэлбагасган (AlexNet) рекорд тогтоон түрүүлснээр хөгжил дэвшил нь эхлэсэн [7].

Хүн дүрсийг хүн ялгаж танихдаа, жишээ нь нохойг түүний сарвуу, нүд, арьс үс зэрэг онцлог шинжүүдээр ньялгаж сурдаг бол компьютер ч мөн үүнтэй адил дүрс, биетийг доод түвшины муруй, хэрчим бүхий шинжчанаруудаас тогтсон конволушн давхаргуудыг байгуулж ялгаж таньдаг аргачлал нь CNN юм. Зураг 1-т ерөнхийбүтэцийг дүрслэн харуулав.

Page 2: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

CNN нь конволушнал, шугман бус, пүүл, бүрэн холбогдсон давхарга болон гаралт гэсэн үндсэн хэсгүүдээсбүрдэнэ. Гаралт нь дан ангилал эсвэл тухайн дүрсийг хамгийн сайн тодорхойлж буй ангилалын магадлал байна.

Зураг 1. CNN ерөнхий бүтэц [8].

CNN-ын хамгийн эхний давхарга нь конволушнал байх бөгөөд жишээ нь,уг давхаргын оролт нь 32 x 32 x 3 хэмжээст цэгүүд бүхий матриц (тухайнзураг) байг. Уг давхаргыг ойлгомжтой, энгийнээр тайлбарлавал, тухайнзургийн зүүн дээд хэсгээс жижиг гэрлээр тусган гүйлгэн харж байгаахэмээн төсөөлж болно. Уг жижиг гэрэл маань 5 x 5 хэмжээстэй тусгалтайбайг. Машин сургалтын хэллэгт уг жижиг гэрлийг шүүлтүүр (заримдаамэдрэлийн эс эсвэл цөм) гэж нэрлэдэг ба уг гэрэл тусч буйг хүлээн авахталбар гэдэг. Уг шүүлтүүр нь тоон массиваас (5 x 5 x 3) тогтох бөгөөдэдгээрийг жин эсвэл параметр гэдэг. Шүүлтүүрийг зураг дээгүүргүйлгэхийг шүүлтүүрдэх гэх ба, тухайн өгөгдсөн зургийн цэгүүдийгшүүлтүүрийн цэгүүдээр харгалзан үржүүлнэ. Уг үйлдлийг шүүлтүүрийгдахин 1 цэгээр хажуу тийш шилжүүлэн давтах зэргээр тухайн зургийгдуустал давтсаны үр дүнд 28 x 28 x 1 хэмжээст үржвэрүүд бүхий матрицүүсэх ба үүнийг идэвхжилтийн зураглал эсвэл шинж чанарынзураглал гэж нэрлэнэ [8].

Зураг 2. Доод түвшинй шүүлтүүрүүдийн дүрслэл.(Зургийг Стэнфордын их сургуулийн “CS231n: Convolutional Neural Networks for Visual Recognition” хичээлийн материалаас авч ашиглав [3])

Шүүлтүүрийг хүрээ, өнгө, муруй гэх мэт шинж чанарын ялгагч гэж ойлгож болно. Өөрөөр хэлбэл, бүхий лзураг дүрс бүрт байдаг хамгийн энгийн нийтлэг, шинж чанарууд байна [8]. Зураг 2-т шүүлтүүрүүдийг харуулав.

Эхний давхарга нь доод түвшний шинж чанарууд буюу муруй, хүрээ зэргийг танина. Гэхдээ тухайн эх зургийгяг юу вэ гэдгийг нь сайн ялгахын тулд гар, чих, нүд гэх мэт онцлог шинжүүдийг таних дээд түвшнийшүүлтүүрүүд хэрэгтэй болно. 2-р давхарга дээр, жишээ нь 28 x 28 x 3 хэмжээстэй оролт дээр 5 x 5 x 3 хэмжээстшүүлтүүр ашиглая. Уг давхаргын гаралт буюу шинж чанарын зураглал нь тал тойрог (муруй болон хүрээнийхослол) эсвэл дөрвөлжин (хэд хэдэн хүрээнүүдийн хослол) зэрэг дээд түвшний шинж чанаруудын байршилуудгарна.Ингээд дараа дараачийн давхарга руу гүн орох тусам шинж чанарын зураглалууд илүү түвэгтэй, нарийнхэлбэрүүдийг дүрслэнэ. Сүлжээний төгсгөлд, аль нэгэн объект буюу дүрс бүхий шүүлтүүр идэвхжиж тодорсонбайх болно [8].

1.2 Царай илрүүлэх

Хүний нүүр царайг илрүүлэх олон аргачлалуудаас HOG (Histogram of Oriented Gradients) аргачлалыг [9]ашигласан ба энэ нь тухайн зургийн цэг бүрийн утгыг зэргэлдээ цэгүүдтэй харьцуулж утга нь их байгаа чиглэлдвекторыг (градиент) зурна. Зургийн бүх цэгүүд дээр дээрх үйлдлийг хийсний дараа зургыг бүхэлд нь 16 x 16харьцаатай дэд хэсгүүдэд хувааж тухайн дэд хэсэг дотор дээш, доош, зүүн, баруун, баруун-дээш, зүүн-доошзэрэг аль чиглэлд хамгийн их вектор утгууд байгааг олж, уг векторын чиглэлээр солино. Зураг 3т жишээ өгөгдөлдээр харуулав. Эндээс хүний нүүрний ерөнхий HOG хэв шинж (pattern) харагдаж эхлэсэн байгааг харж болно.Бүх зургуудын HOG хэв шинжүүдийг ялган авахад хүний нүүр царайтай хэсгийн ерөнхий дундаж хэв шинжгарч ирнэ. Өгөгдсөн зургууд дундаас уг хэв шинж бүхий хэсгийг илрүүлж, царайны байршлыг ялган авна.

Page 3: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

Зураг 3. Нүүр царайны HOG хэв шинжийн дүрслэл

1.3 Царай танилт

Нүүр царайг таних аргачлалууд нь шинж чанарт тулгуурласан, зурагт тулгуурласан гэсэн хоёр төрөлдангилагдаж байгаа ба CNN нь зурагт тулгуурласан аргачлалд хамаарна.

Хүний нүүр царайг нийт 68 цэг байршуулан тэмдэглэх алгоритмыг 2014 онд Вахид Каземи, Жозепина Сулливаннар боловсруулсан байна [10]. Зураг 4-д жишээ зураг дээр харуулав. Уг 68-н цэгийг ашиглан тухайн царайгбусадтай харьцуулах, нүүрний төсийг илрүүлэх, насыг таамаглах зэрэгт ашиглана.

Зураг 4. Нүүрний хэсэгт 68 цэгүүдийг байршуулсан жишээ (face landmarking)

1.4 Царай танихад мэдрэлийн гүн сүлжээ ашиглах нь

Нүүр царайг 68 цэгээр илэрхийлж болдог аргачлалаас гадна хүний чадвартай зэрэгцэхүйц өндөр танилтынчадвартай болохын тулд мэдрэлийн гүн сүлжээг ашигладаг. Эдгээрийн нэг аргачлал нь хүний царайг нийт 128-нхэмжигдэхүүнд (шигтгэл) тулгуурлан тоон хэлбэрт хувиргах ба эдгээр нь хүний нүд үсний өнгө, хамрын өргөнгэх мэт тухайн хүний онцлогоос хамааран яг аль хэмжигдэхүүн байх нь тухайн сургалт хийж буй өгөгдөлөөсхамаарна. Энэ аргачлалыг 2015 онд Google компанийн судлаачид хэрэгжүүлсэн [11] ба мөн төстэй олонаргачлалууд гарсан байна.

Уг аргачлал нь өгөгдсөн хүмүүсийн царай тус бүрээс 128 хэмжигдэхүүнүүдийг гарган авч тухайн хүнийхэмжигдэхүүнүүдийн аль утгууд нь өөр хоорондоо ойрхон буюу их хамааралтай, аль утгууд нь бусадхүмүүсийнхээс хол буюу бага хамааралтай байгааг мэдрэлийн гүн сүлжээг ашиглан тооцоолж гаргана. Үүнийггүн сургалт буюу мэдрэлийн гүн сүлжээний загвар сургах гэнэ.

Их хэмжээний өгөгдөл зургууд дээр ийм гүн сургалт хийхэд нүсэр тооцоолол хийх шаардлагатай байдаг тулGPU (Graphic Processing Unit) дээр паралелль тооцоолол ашиглах нь үр дүнд харьцангуй хурдан хугацаандхүрэх бололцоог олгоно. Гэсэн ч, жишээ нь NVidia Tesla K40c карт дээр уг гүн сургалтыг хийн, загвар бэлтгэжгаргахад хэдэн 7 хоногийн хугацааг зарцуулдаг. DeepFace [2] түвшины танилтын зэрэглэлд хүрэхийн тулд өндөрнягтралтай зургууд бүхий хэдэн сая тооны сургалтын өгөгдлийг бэлтгэж, гүн сургалт хийх шаардлагатай.

Бид туршилтандаа Брэндон Амосын боловсруулсан аргачлал, багажаар сургаж бэлтгэсэн nn4.small2.v1.t7загварыг [12] ашигласан ба зураг 5-д уг мэдрэлийн гүн сүлжээн дэхь нэг давхарга дээр өгөгдсөн зураг хэрхэндүрслэгдэж буй жишээг харуулав.

Уг бэлэн загварыг ашиглан царайны зураг бүрээс 128ш хэмжигдэхүүнүүдийг богино хугацаанд гарган (царайгкодлон) авч тэдгээрийг ангилахад ашиглана.Хүн тус бүрийн царайг ялган ангилахад Softmax, SVM (Support Vector Machine), k-NN (k-Nearest Neighbor) зэрэгангилагч ашиглан машин сургалт хийх ба энд Linear SVM ангилагч ашигласан.

Page 4: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

Зураг 5. Мэдрэлийн гүн сүлжээн дэхь 3-р давхаргын дүрслэлийн жишээ.

1.5 Хүндрэл, бэрхшээл

Хүний царай нь содон тогтвортой объект биш бөгөөд царай таних нөлөөлдөг гол хүндрэлүүд нь интринсик баэкстринсик гэсэн хоёр үндсэн хүчин зүйлээс хамаардаг байна [5]:

1. Интринсик нь байгалийн физик хүчин зүйлсээс хамааралтай ба ажиглагч (камер) талаас үл хамаарна. Дотроодараах байдлаар хоёр хуваагдана:

- Интраперсональ нь тухайн хүний насжилт, үсний засалт, нүүрний хувирал, нүүр будалт болоннүдний шил, контакт линз зэрэг эд зүйлстэй хамааралтай хүчин зүйлс байна.- Интерперсональ нь олон хүмүүсийн нүүрний төрх байдлын ялгаа (арьсны өнгө гэх мэт), угсаатанзүйболон хүйстэй хамааралтай хүчин зүйлс байна [5].

2. Экстринсик хүчин зүйлс нь ажиглагч тал, тухайн хүний царай хоорондох гэрлийн харилцан үйлчлэлээсхамаарна. Эдгээрт гэрэлтэлт, байршил, хэмжээс болон зураглалын параметрүүд болох нягтрал, фокус, шуугианзэрэг болно [5].

Дээрх хүчин зүйлс нь нүүр царайг таних ажиллагааны үр дүн муу, алдаатай гарахад ихээхэн нөлөөлнө.Практикт дараах 5-н үндсэн хүчин зүйлс нь ихэхдээ нөлөөлдөг байна:

Зарим 2D аргачлал нь гэрэлтүүлгийн тодорхой хязгаарт л сайн таньдаг бөгөөд гэрлийн нөхцөл байдлаасажиллагааны үр дүн шууд хамаардаг талтай.

Нүүрний дээд хэсэг дэх зүйлс (үс, алчуур, нүдний шил г.м) танилтын ажиллагаанд сөргөөр нөлөөлнө. Толгойн хажуу тийш хэтэрхий эргэсэн байрлал нь таних ажиллагаанд сөргөөр нөлөөлнө, учир нь

нүүрний хэв, зураглалыг хавтгайд буулгахад гажилтын алдаа үүснэ. Заримдаа, нүүрний зураглал нь хэвийн харах өнцөгтэй үед алдаагүй буусан (projection) байсан ч, сэтгэл

хөдлөлөөс үүдсэн нүүрний хувирал нь танилтыг амжилтгүй болгодог. Цаг хугацаанаас хамаарах нүүрний өөрчлөлт (насжилт, үрчлээ гэх мэт) нь хүндрэл үүсгэдэг [5].

Бодит нүүр царай эсэхийг танихад гардаг хүндрэл:Нүүр царайг танихад тулгардаг чухал асуудлын нэг нь бодит царай мөн эсэхийг таньж илрүүлэх асуудал юм.Хамгийн түгээмэл хууралтын арга бол нүүрний фото зургаар, видео бичлэгээр, 3D моделиор системийг хуурахболомжтой. Тиймээс хууралтыг илрүүлэх нь нүүр царайг таних системийн бас нэг чухал бүрэлдэхүүн хэсэгболдог байна. Зарим судлаачид нүүр-дуу хоолойг таних гэсэн хослол ашиглаж уруулын хөдөлгөөн, толгойнхөдөлгөөнийг харьцуулах аргыг боловсруулсан байна. Мөн Фурьегийн спектрээр бодит эсэхийг тодорхойлдогба зураг болон бодит хүний царайнаас буусан өндөр давтамжийн бүрэлдэхүүнүүдийг нь шинжилж бодитэсэхийг ялгаж тогтооно. Бас дулаан мэдрэгч бүхий инфра туяан камер ашигладаг байна [5].

2. Хэрэгжүүлэлт, туршилт

Компьютер хараа суурь онол, алгоримтуудыг судласны [13] үндсэн дээр “хүний нүүр болон дүрс таних”шинэлэг, үр дүнтэй аргачлалыг туршиж, нээлттэй эх код бүхий OpenCV, Dlib, Python, Torch [14], OpenFace[12]болон CUDA (Compute Unified Device Architecture), cuDNN [15] гэсэн программ хэрэгсэл, багажуудыг LinuxMint17.3 64 бит систем дээр суулгаж тохируулан, туршилтыг хэрэгжүүлсэн.

Сонгосон 4 хүний 226ш сургалтын өгөгдөл зургуудаас царайг нь илрүүлэн ялган авч, өмнөх боловсруулалт хийнбэлтгээд бэлэн загвар, Linear SVM ашиглаж царай ангилагчийг сурган гаргасан ба уг 4 хүний тус бүр 10ш зураг,мөн өөр хүмүүсийн 10ш зургаар царай таних туршилтын үр дүнг шалгав. Зураг 6-д сургалтанд ашиглах зургийгбэлдэж, боловсруулсан жишээг харуулав.

Туршилтанд цөөн зураг, хүн сонгосон нь сургалтыг зөвхөн бага үзүүлэлттэй процессор бүхий компьютер(тасалгааны робот) дээр богино хугацаанд хэрэгжүүлж, царай танилтын үр дүнг шалгах зорилготой байв.

Page 5: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

Зураг 6. Өгөгдсөн зургуудыг царай таних сургалтанд ашиглахаар бэлтгэсэн жишээ.

3. Үр дүн

Ингээд сонгогдсон 4 хүний тус бүр 10ш туршилтын зургуудыг шалгаж, танигдсан үр дүн:

Хүснэгт 1. Туршилтын дүн, Эерэг үнэн (0.80-с бага утгыг алдаа гэж үзэв)

Өгөгдөл Утга Дундаж Алдаа

Хүүхэд, 2 нас 50ш 0.83 0.87 0.91 0.98 0.86 0.97 0.97 0.99 0.97 0.92 0.927 0

Хүүхэд, 8 нас 68ш 0.99 0.99 0.68 0.97 0.99 0.94 1.00 1.00 0.99 0.48 0.903 2

Том хүн, эр 26ш 0.92 0.95 0.90 0.78 0.90 0.93 0.87 0.97 0.96 0.93 0.911 1

Том хүн, эм 82ш 0.83 0.98 0.99 0.91 0.93 0.98 0.99 0.98 1.00 0.99 0.958 0

Нийт 226ш 0.925 3

Хүснэгт 2. Туршилтын дүн, Сөрөг үнэн (0.50-с бага утгыг алдаа гэж үзэв)

Өгөгдөл Утга Дундаж Алдаа

Өөр хүн 10ш 0.49 0.59 0.42 0.21 0.28 0.53 0.03 0.06 0.64 0.54 0.379 6

Зурагт 7-т үзүүлсэн алдаа ихтэй зургууд нь фокус муутай, царайны хувирал, нүүрний хэсэгт өөр дүрсхалхалсан, камер руу харсан өнцөг их, мөн олон жилийн өмнөх зурагт насжилт нөлөөлсөн зэрэг интринсик баэкстринсик шинжүүд ажиглагдав. Эдгээр нөлөөлөх хүчин зүйлсийг 1.5 хэсэгт тайлбарласан.

Зураг 7. Танилт багатай буюу 0.85-аас доош эерэг үнэн таамаглалтай гарсан зургууд.

4. Дүгнэлт

Нийт 226ш өгөгдөл зургийг ангилах машин сургалт хийж 4 хүний царайг таних судалгааны туршилт хийсэнбөгөөд гаргаж авсан царай ангилагчийг тухайн 4 хүн тус бүрийн 10ш зураг болон өөр хүмүүсийн 10ш зурагааршалгахад нийт эерэг үнэн танилтын дундаж 92.5% гарав. Танилтын дундаж харьцангуй бага утгатай гарсан ньтуршилтанд ашигласан өгөгдөл цөөн тоотой, мөн олон жилийн өмнөх болон нүүрний эмоци ихтэй авахуулсанзургуудийг сургалтын өгөгдөлд оруулаагүй нь царай танилтанд сөргөөр нөлөөлсөн (20 жилийн өмнөх зураг0.78, нүүрний хувиралтай зургууд 0.48, 0.68) гэж дүгнэв. Танилтын чанарыг сайжруулахад сургалтынөгөгдөлийн бааз хангалттай хэмжээтэй байх шаардлагатай нь харагдлаа.Мөн ангилагч нь зөвхөн өгөгдсөн 4 хүний өгөгдөлд тулгуурлан ангилалт хийгдсэн тул бусад хүмүүсийнөгөгдөлийг давхар оруулж өгөх нь туршилтын сөрөг үнэн утгуудыг ихэсгэж, царай танилтыг сайжруулахболомжтой гэж дүгнэв.

Page 6: МЭДРЭЛИЙН ГҮН СҮЛЖЭЭ АШИГЛАН ХҮНИЙ ЦАРАЙ ТАНИХ АРГАЧЛАЛЫН СУДАЛГАА

CNN аргачлалыг ашиглан хямд зардлаар, хязгаарлагдмал тооны хүнийг (битүү системийн хүрээнд) царайгаар ньтанихад тасалгааны камер болон гэрийн туслах-роботын хиймэл оюуныг сургах онолын судалгаа, туршилтынзорилго биелэсэн гэж үзэв.

4.1 Ирээдүйн таамаглал

Цаашид олон тооны өгөгдөл дээр туршилт хийж үр дүнг харьцуулах, GPU ашиглан CNN загвар үүсгэх гүнсургалт хийж танилтын чанарыг сайжруулах, k-NN зэрэг хэд хэдэн ангилагчийг хослуулан ангилагч сургалтхийж турших, тухайн камераас нүүрний зургуудыг хадгалан авч өгөгдөл олборлодог болгон автоматжуулах, мөнхүний нүүрний хувирал, сэтгэл хөдлөлийг таньдаг болгон сайжруулах боломжтой.

Нэр томъёо

CPU Central Processing UnitGPU Graphic Processing UnitCNN Convolutional Neural NetworkHOG Histogram of Oriented GradientSVM Support Vector Machinek-NN k-Nearest NeighborCUDA Compute Unified Device ArchitectureКонволушн давхарга Convolutional layerБүрэн холбогдсон давхарга Fully connected layerПүүл PoolingХүлээн авах талбар Receptive fieldШүүлтүүрдэх Convolving

Жин WeightИдэвхжилтийн зураглал Activation mapШинж чанарын зураглал Feature mapШинж чанарын ялгагч Feature identifiersШигтгэл EmbeddingsЦарайг кодлох Face encodingЭерэг үнэн True positiveСөрөг үнэн True negativeМэдрэлийн гүн сүлжээ Deep Neural NetworkМэдрэлийн эс NeuronШинж чанар FeatureХэв шинж Pattern

Ашигласан материал:

[1] “Baidu’s Artificial-Intelligence Supercomputer Beats Google at Image Recognition”, MIT Technology Review, 2015

[2] “DeepFace: Closing the Gap to Human-Level Performance in Face Verification”. Facebook AI Research Publication, 2014

[3] “CS231n Convolutional Neural Networks for Visual Recognition”, Stanford Vision Lab, Stanford University, 2016

[4] Stan Z. Li Anil K. Jain. “Handbook of Face Recognition”. Springer, 2004

[5] Asit Kumar Datta, Madhura Datta, Pradipta Kumar Banerjee. “Face Detection and Recognition: Theory and Practice”. Taylor & Francis, 2015

[6] Mohamed Daoudi, Anuj Srivastava, Remco Veltkamp. “3D Face Modeling, Analysis and Recognition”. Wiley, 2013

[7] Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton “ImageNet Classification with Deep Convolutional Neural Networks”. ILSVRC, 2012

[8] “Machine Learning is Fun! Part 4: Modern Face Recognition with Deep Learning”, 2016

[9] Navneet Dalal, Bill Triggs. "Histograms of Oriented Gradients for Human Detection”, 2005

[10] Vahid Kazemi, Josephine Sullivan. “One Millisecond Face Alignment with an Ensemble of Regression Trees”, 2014

[11] Florian Schroff, Dmitry Kalenichenko, James Philbin. “FaceNet: A Unified Embedding for Face Recognition and Clustering”, 2015

[12] Brandon Amos. OpenFace. https://cmusatyalab.github.io/openface/ , 2016

[13] D. A. Forsyth and J. Ponce. "Computer Vision: A Modern Approach (2nd edition)". Prence Hall, 2011

[14] opencv.org, dlib.com, http://torch.ch

[15] CUDA, cuDNN. http:// nvidia.com

Зохиогчийн тухай:Мөнгөнгадасын Эрхэмбаатар нь 2008 онд ШУТИС-МХТСургуулийг “Мэдээллийн технологийн инженер”мэргэжлээр суралцан бакалавр зэрэгтэй төгссөн. Одоо тус сургуулийн Компьютерийн Ухааны тэнхимд “Хиймэлоюун ухаан ба хөдөлгөөнт төхөөрөмжийн программ хангамж” хөтөлбөрийн магистрант оюутан, ВишнЛабораторид туслах судлаач. Удирдагч багшаар ШУТИС-МХТС-н доктор, дэд проф. А.Хүдэр, зөвлөх багшаарШУТИС-МХТС-н ахлах багш докторант Б.Луубаатар нар ажиллаж байна.