จาก 50s perceptrons ไปยังสิ่งที่ประหลาดที่เราทำในวันนี้

สิ่งต่าง ๆ ที่ได้รับความประหลาดใจ ไม่กี่ปีที่ผ่านมา Google แสดงให้เราเห็นว่าความฝันของ Neural Networks เป็นสิ่งที่ฝันร้าย แต่อีกมากเมื่อเร็ว ๆ นี้เราได้เห็นพวกเขาใช้สำหรับการให้การเคลื่อนไหวของตัวละครเกมที่แยกไม่ออกจากมนุษย์สำหรับการผลิตภาพ photorealistic เท่านั้น คำอธิบายสำหรับการเสนอวิสัยทัศน์สำหรับรถยนต์ขับรถด้วยตนเองและอีกมากมาย

ความสามารถในการทำทั้งหมดนี้ได้ดีและบางครั้งก็ดีกว่ามนุษย์คือการพัฒนาล่าสุด การผลิตภาพ Photorealistic นั้นมีอายุเพียงไม่กี่เดือน ดังนั้นทั้งหมดนี้เกิดขึ้นได้อย่างไร

perceptrons: ยุค 40, 50 และ 60

perceptron
เราเริ่มต้นในช่วงกลางศตวรรษที่ 20 หนึ่งประเภทที่โดดเด่นของเครือข่ายประสาทเทิร์นในช่วงเวลาที่พยายามเลียนแบบเซลล์ประสาทในสมองชีวภาพที่ใช้เซลล์ประสาทสังเคราะห์ที่เรียกว่า perceptron เราได้ครอบคลุม Perceptrons ที่นี่อยู่ในรายละเอียดในชุดของบทความโดย Al Williams แต่สั้น ๆ ที่ง่ายรูปลักษณ์ที่แสดงในแผนภาพ

ให้ค่าอินพุต, น้ำหนักและอคติมันสร้างเอาต์พุตที่เป็น 0 หรือ 1 ค่าที่เหมาะสมสามารถค้นพบสำหรับน้ำหนักและอคติที่ทำให้งานเข้า NAND เข้า แต่ด้วยเหตุผลที่ครอบคลุมในบทความของอัลสำหรับการเข้าสู่ XOR ที่คุณต้องการชั้นของ perceptrons มากขึ้น

ในกระดาษ 1969 ที่รู้จักกันดีเรียกว่า “perceptrons”, Minsky และ Papert ชี้ให้เห็นถึงเงื่อนไขที่แตกต่างกันที่ perceptrons ไม่สามารถให้บริการที่ต้องการสำหรับปัญหาบางอย่าง อย่างไรก็ตามเงื่อนไขที่พวกเขาอธิบายใช้เฉพาะกับการใช้งานของชั้นเดียวของ perceptrons มันเป็นที่เข้าใจกันในเวลานั้นและพูดคุยกันในกระดาษโดยเพิ่มชั้นของ perceptrons มากขึ้นระหว่างอินพุตและเอาต์พุตที่เรียกว่าเลเยอร์ที่ซ่อนอยู่จำนวนมากของปัญหาเหล่านั้นรวมถึง XOR อาจแก้ไขได้

แม้จะมีวิธีการนี้เกี่ยวกับปัญหา แต่กระดาษของพวกเขาท้อแท้นักวิจัยจำนวนมากและการศึกษาการวิจัยเครือข่ายประสาทเทียมจางลงในพื้นหลังเป็นเวลาหนึ่งทศวรรษ

Backpropagation และเซลล์ประสาท Sigmoid: ยุค 80

ในปี 1986 เครือข่ายประสาทได้รับการฟื้นฟูความนิยมจากกระดาษอื่นที่รู้จักกันดีที่เรียกว่า “การเรียนรู้การตกแต่งภายในโดยการเผยแผ่ข้อผิดพลาด” โดย David Rummelhart, Geoffrey Hinton และ R.j. วิลเลียมส์ ในบทความนั้นพวกเขาตีพิมพ์ผลลัพธ์ของการทดลองจำนวนมากที่จัดการกับปัญหา Minsky พูดคุยเกี่ยวกับเครือข่าย perceptron ชั้นเดียวกระตุ้นนักวิจัยจำนวนมากกลับสู่การปฏิบัติ

นอกจากนี้ตามที่ Hinton ยังคงเป็นตัวเลขสำคัญในพื้นที่ของเครือข่ายประสาทเทียมในวันนี้ Rummelhart ได้คิดค้นอัลกอริทึมที่มีประสิทธิภาพสำหรับการฝึกอบรมเครือข่ายประสาทเทียม มันรวมการแพร่กระจายกลับจากเอาต์พุตไปยังอินพุตการตั้งค่าสำหรับน้ำหนักเหล่านั้นทั้งหมดที่ใช้สิ่งที่เรียกว่ากฎเดลต้า

เครือข่ายประสาทเทียมที่เชื่อมโยงอย่างเต็มที่และ sigmoid
ชุดของการคำนวณสำหรับการตั้งค่าเอาต์พุตเป็น 0 หรือ 1 ที่แสดงในแผนภาพ perceptron ด้านบนเรียกว่าฟังก์ชั่นการเปิดใช้งานของเซลล์ประสาท อย่างไรก็ตามสำหรับอัลกอริทึมของ Rummelhart ฟังก์ชั่นการเปิดใช้งานจะต้องเป็นหนึ่งที่มีอยู่ในอนุพันธ์และเพื่อให้พวกเขาเลือกเพื่อใช้ประโยชน์จากฟังก์ชั่น sigmoid (ดูแผนภาพ)

ดังนั้น Gone ไปยังเซลล์ประสาทชนิดของเซลล์ประสาทที่มีการส่งออกเป็นเส้นตรงซึ่งจะถูกแทนที่ด้วยเซลล์ประสาท Sigmoid ที่ไม่ใช่เชิงเส้นซึ่งยังคงใช้งานในเครือข่ายจำนวนมากในปัจจุบัน อย่างไรก็ตามคำศัพท์หลาย perceptron (MLP) มักใช้งานบ่อยครั้งในวันนี้เพื่ออ้างถึงเครือข่ายรวมถึง perceptrons ที่กล่าวถึงข้างต้น แต่ไปยังเครือข่ายหลายชั้นที่เรากำลังพูดถึงในส่วนนี้กับเซลล์ประสาทที่ไม่ใช่เชิงเส้นเช่น sigmoid เช่นเดียวกับ sigmoid คร่ำครวญเรารู้

นอกจากนี้เพื่อให้การเขียนโปรแกรมง่ายขึ้นอคติได้สร้างเซลล์ประสาทของตัวเองโดยทั่วไปจะมีค่าหนึ่งและมีน้ำหนักของตัวเอง วิธีการที่น้ำหนักของมันและมีค่าทางอ้อมอาจได้รับการฝึกฝนพร้อมกับน้ำหนักอื่น ๆ ทั้งหมด

และในช่วงปลายยุค 80 เครือข่ายประสาทเทียมได้ดำเนินการตามรูปร่างที่คุ้นเคยและอัลกอริทึมที่มีประสิทธิภาพสำหรับการฝึกอบรมพวกเขา

งวงและการรวมกลุ่ม

ในปี 1979 เครือข่ายประสาทเทียมที่เรียกว่า Neocognitron แนะนำแนวคิดของชั้นสนทนาและในปี 1989 อัลกอริทึม BackPropagation ได้รับการปรับให้เข้ากับการฝึกอบรมชั้นข้อมูลการแข่งขันเหล่านั้น

เครือข่ายประสาทสัมผัสและการรวมทุน
ชั้น convolutional มีลักษณะอย่างไร ในเครือข่ายเราพูดถึงข้างต้นเซลล์ประสาทอินพุตแต่ละอินพุตมีการเชื่อมต่อกับเซลล์ประสาทที่ซ่อนอยู่ทุกครั้ง เลเยอร์แบบที่เรียกว่าเลเยอร์ที่เชื่อมโยงอย่างสมบูรณ์ แต่ด้วยเลเยอร์ที่มีความสามารถในการเชื่อมต่อกันเซลล์ประสาทแต่ละเส้นในการเชื่อมโยงเลเยอร์ Convolutional ไปยังชุดย่อยของเซลล์ประสาทอินพุตเท่านั้น และชุดย่อยเหล่านั้นมักจะทับซ้อนกันทั้งแนวนอนและแนวตั้ง ในแผนภาพเซลล์ประสาทแต่ละเส้นในชั้น Convolutional นั้นเชื่อมโยงกับเมทริกซ์ 3 × 3 ของเซลล์ประสาทอินพุตรหัสสีเพื่อความคมชัดและเมทริกซ์เหล่านั้นซ้อนทับกัน

การจัดเรียง 2D นี้ช่วยอย่างมากเมื่อพยายามค้นหาคุณสมบัติในภาพแม้ว่าการใช้ประโยชน์ของพวกเขาจะไม่ จำกัด รูปภาพ คุณสมบัติในรูปภาพครอบครองพิกเซลในพื้นที่ 2D เช่นส่วนต่าง ๆ ของตัวอักษร ‘A’ ใน tเขาเป็นแผนภาพ คุณสามารถเห็นได้ว่าหนึ่งในเซลล์ประสาทการแข่งขันที่เชื่อมโยงกับเซลล์ประสาทอินพุต 3 × 3 ที่มีฟังก์ชั่นแนวตั้งสีขาวลงตรงกลางขาข้างหนึ่งของ ‘A’ นอกเหนือไปจากฟังก์ชั่นแนวนอนที่สั้นกว่าด้านบนบน ขวา. เมื่อฝึกซ้อมในภาพต่าง ๆ เซลล์ประสาทอาจได้รับการฝึกฝนให้ยุติที่แข็งแกร่งที่สุดเมื่อแสดงคุณสมบัติเช่นนั้น

แต่ฟังก์ชั่นนั้นอาจเป็นกรณีที่ผิดปกติไม่เหมาะสมกับรูปภาพส่วนใหญ่เครือข่ายประสาทจะพบ การมีเซลล์ประสาทที่ทุ่มเทให้กับกรณีที่ไม่รวมเช่นนี้เรียกว่าการใช้งานมากเกินไป บริการหนึ่งคือการเพิ่มเลเยอร์การรวมกลุ่ม (ดูแผนภาพ) สระชั้นเงินรวมกันเซลล์ประสาทหลายเซลล์เข้าไปในเซลล์ประสาทหนึ่งเซลล์ ในแผนภาพของเราแต่ละเมทริกซ์ 2 × 2 ในชั้น Convolutional จะแสดงโดยหนึ่งด้านในเลเยอร์การรวมกลุ่ม แต่ค่าใดที่อยู่ในองค์ประกอบการรวมกลุ่ม?

ในตัวอย่างของเราของเซลล์ประสาท 4 เซลล์ในชั้น Convolutional ที่สอดคล้องกับองค์ประกอบการรวมกลุ่มของพวกเขาสองคนได้ค้นพบคุณสมบัติของเซ็กเมนต์แนวตั้งสีขาวที่มีสีขาวอยู่ด้านบน แต่หนึ่งในนั้นเผชิญหน้ากับฟังก์ชั่นนี้บ่อยขึ้น เมื่อบุคคลนั้นพบส่วนแนวตั้งและไฟมันจะมีค่าที่สูงกว่าอื่น ๆ ดังนั้นเราจึงใส่ค่าที่สูงขึ้นในองค์ประกอบการรวมกลุ่มที่สอดคล้องกัน สิ่งนี้เรียกว่าการรวมสูงสุดเนื่องจากเราใช้ค่าสูงสุดของค่าที่เป็นไปได้ 4 ค่าสูงสุด

ขอให้สังเกตว่าเลเยอร์การรวมกลุ่มยังช่วยลดขนาดของข้อมูลที่ไหลผ่านเครือข่ายโดยไม่สูญเสียข้อมูลและเพื่อเพิ่มความเร็วในการคำนวณ การรวม MAX ได้รับการแนะนำในปี 1992 และเป็นส่วนสำคัญของความสำเร็จของเครือข่ายประสาทหลายรุ่น

ลึกซึ้ง

เครือข่ายประสาทเทียมลึกและ relu
เครือข่ายประสาทลึกเป็นหนึ่งที่มีเลเยอร์มากมาย ในฐานะที่เป็นของเราเองจะชี้ให้เห็นในบทความเครือข่ายประสาทเมื่อเร็ว ๆ นี้ของเขาจะช่วยให้เลเยอร์ใกล้เข้าสู่อินพุตเพื่อค้นหาคุณสมบัติที่เรียบง่ายเช่นเดียวกับส่วนแนวตั้งสีขาวของเรา แต่เลเยอร์ที่ลึกกว่าจะรวมคุณสมบัติเหล่านี้มารวมกันมากขึ้นและซับซ้อนมากขึ้น รูปร่างจนกระทั่งเรามาถึงเซลล์ประสาทที่เป็นตัวแทนของวัตถุทั้งหมด ในตัวอย่างของเราเมื่อเราแสดงภาพของรถยนต์เซลล์ประสาทที่ตรงกับคุณสมบัติในรถยุติอย่างยิ่งขึ้นจนกระทั่ง “รถยนต์” เอาท์พุทเซลล์ประสาทออกไปที่ 99.2% ความมั่นใจที่เราแสดงให้เห็นว่ารถ

ความก้าวหน้าหลายอย่างมีส่วนทำให้เกิดความสำเร็จในปัจจุบันของเครือข่ายประสาทลึก บางส่วนของเหล่านั้นคือ:

การแนะนำเริ่มต้นในปี 2010 ของ relu (rodified linear unit) เป็นฟังก์ชั่นการเปิดใช้งานทางเลือกไปยัง sigmoid ดูแผนภาพสำหรับรายละเอียด relu การใช้ประโยชน์จาก RELUS เร่งการฝึกอบรมเร่งด่วน การไม่อนุญาตให้ประเด็นอื่น ๆ การฝึกอบรมที่คุณทำมากเท่าไหร่ผลลัพธ์ที่ดีกว่าที่คุณได้รับ การฝึกอบรมการเร่งความเร็วช่วยให้คุณทำมากขึ้น

การใช้ประโยชน์จาก GPU (หน่วยประมวลผลกราฟิก) เริ่มต้นในปี 2004 และถูกนำไปใช้ในการเชื่อมต่อเครือข่ายประสาทเทียมในปี 2549 GPU ถูกนำไปใช้ในการใช้การคูณเมทริกซ์ที่รวมอยู่เมื่อทวีคูณการคูณค่าการยิงเซลล์ประสาทตามค่าน้ำหนัก สิ่งนี้เช่นกันความเร็วในการฝึกอบรม

การใช้ประโยชน์จากเครือข่ายประสาทเทียมและวิธีอื่น ๆ เพื่อลดจำนวนการเชื่อมต่อตามที่คุณไปลึกลงไป อีกครั้งนี้เร็วเกินไปการฝึกอบรม

ความพร้อมใช้งานของชุดข้อมูลการฝึกอบรมขนาดใหญ่ที่มีหลายสิบและรายการข้อมูลนับไม่ถ้วน ท่ามกลางสิ่งอื่น ๆ นี้ช่วยได้ด้วยการ overfitting (กล่าวถึงข้างต้น)

สถาปัตยกรรมการก่อตั้ง V3
Hexacopter ฝันลึก
เพื่อให้แนวคิดบางอย่างของคุณเพียงแค่ความซับซ้อนของเครือข่ายประสาทเทียมเหล่านี้ที่สามารถแสดงได้ที่นี่คือเครือข่ายประสาทเทียมในการเริ่มต้นของ Google ที่เขียนในกรอบ tensorflow รุ่นแรกของนี้เป็นสิ่งที่รับผิดชอบต่อความฝันที่ลึกซึ้งของ Google หากคุณดูที่ตำนานในแผนภาพคุณจะเห็นบางสิ่งที่เราพูดถึงนอกเหนือไปจากการมีส่วนร่วมอย่างมากต่อความสำเร็จของเครือข่ายประสาทเทียม

ตัวอย่างที่แสดงที่นี่เริ่มต้นจากภาพของ hexacopter ในการบินด้วยต้นไม้ในพื้นหลัง จากนั้นจึงส่งไปยังเว็บไซต์ Generator Dream Dream ซึ่งสร้างภาพที่แสดงที่นี่ ที่น่าสนใจมันแทนที่ใบพัดด้วยนก

ภายในปี 2554 เครือข่ายประสาทสัมผัสที่มีการรวมสูงสุดและการทำงานบน GPU นั้นประสบความสำเร็จในการจดจำรูปแบบการมองเห็นที่ดีกว่ามนุษย์ในการบ่งชี้ปริมาณการใช้งานเว็บที่มีอัตราการรับรู้ 98.98%

การประมวลผลและการสร้างลำดับ – LSTMS

หน่วยความจำระยะสั้นระยะสั้น (LSTM) เครือข่ายประสาทเป็นประเภทของเครือข่ายประสาทที่มีประสิทธิภาพมาก (RNN) เมื่อประมาณตั้งแต่ปี 1995 แต่ได้รับการปรับปรุงจำนวนมากในช่วงหลายปีที่ผ่านมา นี่คือเครือข่ายที่รับผิดชอบสำหรับการพัฒนาอย่างไม่น่าเชื่อในการรู้จำเสียงการสร้างคำบรรยายภาพสำหรับภาพการสร้างคำพูดและเพลงและอื่น ๆ ในขณะที่เครือข่ายที่เราพูดถึงข้างต้นนั้นยอดเยี่ยมสำหรับการดูรูปแบบในชิ้นส่วนข้อมูลขนาดคงที่เช่นภาพ LSTMS สำหรับการจดจำรูปแบบในลำดับของข้อมูลหรือเพื่อสร้างลำดับของข้อมูล ดังนั้นพวกเขาจึงจดจำเสียงพูดหรือสร้างประโยค

เครือข่าย Neural LSTM และตัวอย่าง
ไทยโดยทั่วไปแล้ว EYRE โดยทั่วไปเป็นเซลล์รวมถึงชั้นต่าง ๆ ของเลเยอร์และการดำเนินการทางคณิตศาสตร์ที่แตกต่างกัน ขอให้สังเกตว่าในแผนภาพเซลล์ชี้ไปที่ตัวเองดังนั้นชื่อเครือข่ายประสาทกำเริบชื่อ นั่นเป็นเพราะเมื่ออินพุตมาถึงเซลล์จะสร้างเอาต์พุต แต่ยังมีข้อมูลที่ส่งต่อไปอีกครั้งในครั้งต่อไปที่อินพุตมาถึง อีกวิธีหนึ่งในการวาดภาพมันคือการแสดงเซลล์เดียวกันที่แน่นอน แต่ในเวลาที่แตกต่างกันในเวลา – เซลล์หลายเซลล์ที่มีลูกศรที่แสดงการไหลของข้อมูลระหว่างพวกเขาเป็นเซลล์เดียวกันที่แน่นอนที่มีการสตรีมข้อมูลกลับเข้ามา ในแผนภาพตัวอย่างคือที่ที่เราให้ลำดับของคำเข้ารหัสเป็นลำดับของคำหนึ่งครั้งผลลัพธ์ในที่สุดก็จะไปที่ “เวกเตอร์ความคิด” เวกเตอร์นั้นให้ฟีดเซลล์ถอดรหัสที่ส่งออกคำตอบที่เหมาะสมหนึ่งคำต่อครั้ง ตัวอย่างนี้เป็นคุณสมบัติการตอบกลับของ Google

LSTMS สามารถใช้สำหรับการวิเคราะห์รูปภาพแบบคงที่และด้วยความได้เปรียบเหนือเครือข่ายประเภทอื่นที่เราเห็นจนถึงตอนนี้ หากคุณกำลังดูภาพคงที่รวมถึงลูกบอลชายหาดคุณมีแนวโน้มที่จะเลือกมันเป็นลูกบอลชายหาดแทนที่จะเป็นตะกร้าบอลหากคุณเห็นภาพเป็นเพียงกรอบเดียวของวิดีโอเกี่ยวกับชายหาด งานสังสรรค์. LSTM จะได้เห็นเฟรมทั้งหมดของการเฉลิมฉลองบนชายหาดที่นำไปให้มากที่สุดเท่าที่กรอบในปัจจุบันของลูกบอลชายหาดและจะใช้สิ่งที่เคยเห็นมาก่อนที่จะทำการประเมินเกี่ยวกับประเภทของลูกบอล

สร้างภาพด้วย gans

เครือข่ายความเป็นปฏิปักษ์
บางทีการออกแบบเครือข่ายประสาทล่าสุดที่ให้ผลลัพธ์ที่น่าประหลาดใจเป็นเครือข่ายสองเครือข่ายที่มีการโต้เถียงกันอย่างแท้จริงซึ่งกันและกันเครือข่ายความเป็นปฏิปักษ์ทั่วไป (Gans) สร้างขึ้นในปี 2014 คำว่าการกำเนิดหมายถึงว่าเครือข่ายบุคคลสร้างข้อมูล (ภาพ, เพลง, คำพูด ) ที่คล้ายกับข้อมูลที่ผ่านการฝึกอบรม เครือข่ายเครื่องกำเนิดไฟฟ้านี้เป็นเครือข่ายประสาทที่มีความสามารถในการแข่งขัน เครือข่ายอื่น ๆ เรียกว่า Distriminator และได้รับการฝึกฝนให้บอกว่ารูปภาพเป็นของแท้หรือสร้างขึ้น เครื่องกำเนิดไฟฟ้าจะดีขึ้นในการหลอกผู้แบ่งแยกในขณะที่ผู้แยกแยะดีขึ้นที่ไม่ถูกหลอก การแข่งขันที่เป็นปฏิปักษ์นี้สร้างผลลัพธ์ที่ดีกว่าการมีเพียงเครื่องกำเนิดไฟฟ้า

นกของ Stackgan พร้อมข้อความ
ในช่วงปลายปี 2559 กลุ่มหนึ่งได้รับการปรับปรุงให้มากขึ้นด้วยการใช้ Gans สองแบบซ้อนกัน ให้คำอธิบายที่เป็นข้อความของภาพที่ต้องการเวที-I Gan สร้างภาพความละเอียดต่ำที่ขาดหายไปรายละเอียดบางอย่าง (เช่นจงอยปากและดวงตาบนนก) จากนั้นภาพนี้และคำอธิบายข้อความจะถูกส่งไปยังเวที -I Gan ซึ่งช่วยเพิ่มรูปภาพเพิ่มเติมรวมถึงการเพิ่มรายละเอียดที่หายไปและส่งผลให้มีความละเอียดสูงภาพสมจริงภาพถ่าย

บทสรุป

และมีผลลัพธ์ที่แปลกประหลาดอีกมากมายที่เปิดเผยทุกสัปดาห์ การศึกษาวิจัยเครือข่ายประสาทเทียมอยู่ที่จุดที่เช่นเดียวกับการวิจัยทางวิทยาศาสตร์มากกำลังดำเนินการมากจนยากต่อการติดตาม หากคุณตระหนักถึงการพัฒนาที่น่าสนใจอื่น ๆ ที่ฉันไม่ได้ครอบคลุมโปรดแจ้งให้เราทราบในความคิดเห็นด้านล่าง

Leave a Reply

Your email address will not be published. Required fields are marked *