ගණිතලෝකය

GanithaLookaya

ChatGPT සහ DALL·E පිටුපස ඇති ගණිතය - The Mathematics Behind ChatGPT and DALL·E : A Deep Dive

Published by Sachira Sujantha under on 6/08/2023 11:15:00 AM

ChatGPT

OpenAI විසින් නිර්මාණය කරන ලද ChatGPT (Chat Generative Pretrained Transformer) යනු ස්වභාවික භාෂා සැකසුම් (Natural Language Processing - NLP) ක්ෂේත්‍රයේ විප්ලවීය වෙනසක් ඇති කළ ප්‍රබල භාෂා ආකෘතියකි (language model). එය මිනිසුන්ට සමාන ආකාරයෙන් වචන ජනනය කිරීමට, ප්‍රශ්නවලට පිළිතුරු දීමට, භාෂා පරිවර්තනය කිරීමට සහ කවි ලිවීමට පවා හැකියාව ඇත. මෙය බලගන්වන ගණිතය කුමක්ද?




ට්‍රාන්ස්ෆෝමර් ආකෘතිය (The Transformer Architecture)

Vaswani et al විසින් "Attention is All You Need" (2017) පත්‍රයේ හඳුන්වා දී ඇති පරිදි, ChatGPT පදනම් වී ඇත්තේ ට්‍රාන්ස්ෆෝමර් ආකෘතිය (Transformer model) මතයි. ට්‍රාන්ස්ෆෝමර් ආකෘතිය යනු ස්වයං-අවධාන යාන්ත්‍රණයන් (self-attention mechanisms) මත දැඩි ලෙස රඳා පවතින ස්නායුක ජාලයකි (neural network architecture).

ස්වයං-අවධාන යාන්ත්‍රණය (Self-Attention Mechanism)

ස්වයං-අවධාන යාන්ත්‍රණය (self-attention mechanism) මඟින් ප්‍රතිදාන අනුක්‍රමයක් (output sequence) ජනනය කිරීමේදී ආදාන අනුක්‍රමයක (input sequence) වචනවල වැදගත්කම කිරා මැන බැලීමට ආකෘතියට ඉඩ සලසයි. එය අනුපිළිවෙලෙහි අනෙක් සෑම වචනයකටම එක් එක් වචනයේ අදාළත්වය සඳහා ලකුණු ගණනය කරයි. මෙම ලකුණු පසුව ප්‍රතිදානය සාදන ආදාන වචනවල බර එකතුවක් සෑදීමට භාවිතා කරයි.

ස්වයං-අවධාන යාන්ත්‍රණය ගණිතමය වශයෙන් පහත පරිදි නිරූපණය කළ හැකිය:

ආදාන දෛශික අනුපිළිවෙලක් ලබා දී ඇති X=(x1,x2,...,xn), ස්වයං අවධාන යාන්ත්‍රණය Y=(y1,y2,...,yn) ප්‍රතිදාන දෛශික අනුපිළිවෙලක් ගණනය කරයි. එහි එක් එක් yi යනු සියලුම ආදාන දෛශිකවල බරිත එකතුවක් වන xj:

සොෆ්ට්මැක්ස් ශ්‍රිතයක් (softmax function) භාවිතයෙන් බර aij ගණනය කෙරේ:


eij යනු ආදාන දෛශික xi සහ xj අතර අදාළ ලකුණු (relevance score) වේ, මෙසේ ගණනය කෙරේ:


මෙහි, W යනු ඉගෙන ගත හැකි බර අනුකෘතියකි (learnable weight matrix).

ස්ථානීය සංකේතනය (Positional Encoding)

ට්‍රාන්ස්ෆෝමර් ආකෘතියේ තවත් ප්‍රධාන අංගයක් වන්නේ වාක්‍යයක වචනවල සාපේක්ෂ පිහිටීම් (relative positions of words) පිළිබඳ ආදර්ශ තොරතුරු (model information) ලබා දීමට භාවිතා කරන ස්ථානීය කේතීකරණයයි (positional encoding). මෙය තීරනාත්මක වන්නේ පුනරාවර්තන ස්නායුක ජාල (Recurrent Neural Networks - RNNs) මෙන් නොව ට්‍රාන්ස්ෆෝමර් ආකෘතියට ආදාන අනුක්‍රමයේ (input sequence) අනුපිළිවෙල පිළිබඳ ආවේනික අදහසක් (inherent notion) නොමැති බැවිනි.

ස්ථානීය කේතනය, ස්වයං-අවධාන ස්ථරවලට (self-attention layers) පෝෂණය කිරීමට පෙර ආදාන කාවැද්දීම්වලට (input embeddings) එකතු කරනු ලැබේ. ස්ථානය p (position) සහ මානය i (dimension) සඳහා ස්ථානීය කේතීකරණය මෙසේ අර්ථ දක්වා ඇත:


මෙහි dmodel යනු ආදාන කාවැද්දීම්වල මානයයි (dimension of the input embeddings).

GPT-2 සහ GPT-3


ChatGPT, ට්‍රාන්ස්ෆෝමර් මාදිලියේ මහා පරිමාණ අනුවාද (large-scale versions) වන GPT-2 සහ GPT-3 මාදිලි (models) මත පදනම් වේ. GPT-2 හි පරාමිති (parameters) බිලියන 1.5ක් ඇති අතර GPT-3 හි පරාමිතීන් බිලියන 175ක් ඇත.

GPT මාදිලි පුහුණු කරනු ලබන්නේ ට්‍රාන්ස්ෆෝමර්ගේ විකේතකයේ ප්‍රභේදයක් (variant of the Transformer's decoder) භාවිතා කරමිනි, එය ස්වයං-අවධාන (self-attention) සහ ඉදිරි-පෝෂණ (feed-forward) ස්ථර (layers) තොගයකි. අධීක්‍ෂණය නොකෙරෙන ඉගෙනීම (unsupervised learning) නම් තාක්‍ෂණයක් භාවිතා කරමින් විශාල පෙළ දත්ත සංචිතයක් මත ආකෘති පුහුණු කරනු ලැබේ.

GPT ආකෘති පුහුණු කිරීම සඳහා භාවිතා කරන බාහිර ශ්‍රිතය (objective function) වන්නේ පෙර වචන ලබා දී ඇති අනුපිළිවෙලෙහි ඊළඟ වචනයේ සෘණ ලඝු-සම්භාවිතාවයි (negative log-likelihood). මෙය ගණිතමය වශයෙන් මෙසේ දැක්විය හැක.


wt යනු අනුපිළිවෙලෙහි t වන වචනය වන අතර w<t යනු wt ට පෙර වචන අනුපිළිවෙලයි.

ක්‍රියාවලියේ සරල කළ රූප සටහනක් පහත දක්වා ඇත:



ChatGPT පිටුපස ඇති ගණිතයට රේඛීය වීජ ගණිතය (linear algebra), කලනය (calculus) සහ සම්භාවිතා න්‍යාය (probability theory) යන්නන්ගේ මිශ්‍රණයක් ඇතුළත් වේ. ට්‍රාන්ස්ෆෝමර් මාදිලියේ ස්වයං-අවධාන යාන්ත්‍රණය සහ ස්ථානීය කේතනය, GPT ආකෘති පුහුණු කිරීම සඳහා භාවිතා කරන මහා පරිමාණ අධීක්‍ෂණය නොකළ ඉගෙනීම (large-scale unsupervised learning) සමඟ ඒකාබද්ධව, ChatGPT හට මිනිසාට සමාන වාක්‍ය ජනනය කිරීමට හැකි වී ඇත.



DALL·E 


Image credit - Midjourney community (Generated Image)

OpenAI හි DALL·E පාඨමය විස්තර වලින් රූප ජනනය කිරීමේ හැකියාව ඇත. මෙය  බලගන්වන ගණිතය කුමක්ද?

GPT-3 මෙන්ම, DALL·E ද ට්‍රාන්ස්ෆෝමර් ආකෘතිය (Transformer model) මත පදනම් වේ, ස්වයං-අවධානය යාන්ත්‍රණයන් (self-attention mechanisms) මත දැඩි ලෙස රඳා පවතින ස්නායුක ජාල (neural network architecture) වර්ගයකි. කෙසේ වෙතත්, වචන අනුපිළිවෙල සැකසීම වෙනුවට, DALL·E විසින් පික්සෙල් (pixels) අනුපිළිවෙල සකසයි.

VQ-VAE-2

ට්‍රාන්ස්ෆෝමර් ආකෘතියට ලබා දීමට පෙර, දෛශික ප්‍රමාණාත්මක විචල්‍ය ඔටෝ එන්කෝඩරය (Vector Quantized Variational AutoEncoder - VQ-VAE-2) නම් ක්‍රමයක් භාවිතා කරමින් රූප අඩු මාන නිරූපණයකට (lower-dimensional representation) සම්පීඩනය (compressed) කරනු ලැබේ. මෙම ක්‍රමය මඟින් DALL·E හට අමු රූප දත්තවල (raw image data) ඉහළ මානයන් හැසිරවීමට ඉඩ සලසයි.

VQ-VAE-2 ක්‍රියා කරන්නේ ආදාන රූපය (input image) අඩු-මාන ගුප්ත අවකාශයකට (lower-dimensional latent space) කේතනය (encoding) කිරීම සහ පසුව මෙම ගුප්ත නිරූපණයෙන් (latent representation), රූපය ප්‍රතිනිර්මාණය කිරීමෙනි. ගුප්ත අවකාශය අඛණ්ඩව නොව විවික්ත (discrete) වන අතර, එය ට්‍රාන්ස්ෆෝමර් ආකෘතිය සමඟ වඩාත් ගැළපේ.

VQ-VAE-2 හි කේතනය සහ විකේතනය (encoding & decoding) කිරීමේ ක්‍රියාවලීන් පහත පරිදි ගණිතමය වශයෙන් නිරූපණය කළ හැක:

x ආදාන රූපයක් ලබා දී ඇති අතර, E කේතකය (encoder) විසින් පහත් මාන ගුප්ත නිරූපණය (lower-dimensional latent representation) z ට x ව අනුරූප කරයි:


D විකේතකය (decoder) පසුව z වෙතින් x^ රූපය ප්‍රතිනිර්මාණය කරයි:


VQ-VAE-2 හි පරමාර්ථය වන්නේ ප්‍රතිනිර්මාණ අලාභය (reconstruction loss) අවම කිරීමයි, එය ආදාන රූපය x සහ ප්‍රතිනිර්මාණය කළ රූපය x^ අතර වෙනස වේ:


පුහුණු කිරීම (Training DALL·E)

DALL·E පුහුණු කරනු ලබන්නේ වචන-රූප යුගල (text-image pairs) විශාල දත්ත කට්ටලයක් (dataset) භාවිතා කරමිනි. පරමාර්ථය වන්නේ ලබා දී ඇති පාඨමය විස්තරයට හැකිතාක් සමීපව ගැලපෙන රූපයක් ජනනය කිරීමයි.

පුහුණු ක්‍රියාවලියට, උත්පාදනය කරන ලද රූපය (generated image) සහ ඉලක්කගත රූපය (target image) අතර වෙනස අවම කිරීම සඳහා ආකෘතියේ පරාමිතීන් (parameters) සකස් කිරීම ඇතුළත් වේ. මෙම වෙනස හෝ අලාභය ගණනය කරනු ලබන්නේ, ජනනය කරන ලද රූපය සහ ඉලක්ක රූපය අතර ඉහළ මට්ටමේ ලක්ෂණ (features) වල වෙනස මනින, ප්‍රත්‍යක්ෂ අලාභය (perceptual loss) නම් ක්‍රමයක් භාවිතා කරමිනි.

ක්‍රියාවලියේ සරල කළ රූප සටහනක් පහත දක්වා ඇත:


DALL·E පිටුපස ඇති ගණිතයට රේඛීය වීජ ගණිතය, කලනය සහ සම්භාවිතා න්‍යාය මිශ්‍රණයක් ඇතුළත් වේ. ට්‍රාන්ස්ෆෝමර් මාදිලියේ ස්වයං-අවධානය යාන්ත්‍රණය සහ VQ-VAE-2 හි අධි-මාන රූප දත්ත (high-dimensional image data) හැසිරවීමේ හැකියාව, DALL·E හට පාඨමය විස්තර වලින් නිර්මාණාත්මක සහ උසස් තත්ත්වයේ රූප ජනනය කිරීමට හැකියාව ලබා දෙයි.



 

Join now

තවමත් ගණිත ලෝකය සමග එක්වුනේ නැත්නම් Follow ක්ලික් කරල එකතුවෙන්න.
Ganitha Lookaya facebook page එකට Like කරන්න. (2000+ followers)

Followers