شناسایی الگو - یادگیری ماشین

حل تشریحی سوالات شناسایی الگو - یادگیری ماشین - کنکور دکتری مهندسی کامپیوتر 1402

منوی آزمون (درس ها)

درباره آزمون ساختمان داده ها و طراحی الگوریتم ها(20 سوال)مدار منطقی و معماری کامپیوتر(20 سوال)سیستم های عامل پیشرفته(15 سوال)پایگاه داده های پیشرفته(10 سوال)شناسایی الگو - یادگیری ماشین(25 سوال)شبکه های پیشرفته(10 سوال)معماری کامپیوتر پیشرفته - VLSI پیشرفته(25 سوال)

سوالات شناسایی الگو - یادگیری ماشین

25 سوال

66.

نزدیک‌ترین فاصله نقطه z از ابر صفحه $W^{T} x = 0$ کدام است؟

$W^{T} z$

$\frac{W ^{T} z}{∥ W ∥}$

$∥ W ∥ . ∥ z ∥$

$\frac{W ^{T} z}{∥ W ∥ ^{2}}$

مشاهده پاسخ ها

67.

در دسته بندی یک مسئله M دسته ای به کمک روش بیزین، کدام رابطه در مورد احتمال خطای دسته بندی دسته بند بهینه یا همان $P_{e}$ صادق است؟

$\frac{1}{M} \leq P_{e} \leq 1 - \frac{1}{M}$

$P_{e} \leq 1 - \frac{M}{1 + M}$

$P_{e} \leq 1 - \frac{1}{M}$

$P_{e} \leq \frac{1}{M}$

مشاهده پاسخ ها

68.

در ساخت یک جنگل تصادفی هر درخت را بر اساس نمونه گیری Bootstrap از داده های آموزشی میسازیم. اگر n تعداد کل نمونه های آموزشی و d تعداد ویژگی باشد، به طور متوسط هر درخت بر اساس چه تعداد نمونه آموزشی ساخته می شود؟

$(1 - \frac{1}{n})^{n}$

$(1 - \frac{1}{n})^{d}$

$1 - (1 - \frac{1}{n})^{d}$

$1 - (1 - \frac{1}{n})^{n}$

مشاهده پاسخ ها

69.

فرض کنید در یک مسئله دسته بندی داده های دارای دو ویژگی $x_{1}$ و $x_{2}$ هستند که هر کدام مقادیر $0, - 1$ یا $+ 1$ را می گیرند و برچسب طبقه هم مقدار صفر یا یک را میگیرد. سه فرضیه $h_{3}, h_{2}, h_{1}$ به صورت زیر تعریف شده اند:

$h_{3} (x) = {1, i f x_{1} . x_{2} = 0 0, e l se$ $h_{2} (x) = {1, i f x_{1} \neq = x_{2} 0, e l se$ $h_{1} (x) = {1, i f x_{1} = 1 0, e l se$

کدام یک از فرضیه های فوق را میتوان از طریق یک پرسپترون با گرفتن وزنهای مناسب پیاده سازی کرد?

$h_{1}$

$h_{2}$

$h_{3}$

$h_{2}$ و $h_{3}$

مشاهده پاسخ ها

70.

در دسته بندی یک مسئله دو دسته ای با داده های آموزش به شرح جدول زیر دو دسته بند Bayes و Naive Bayes داده آزمون (180 = Weight = 80, Height) را در کدام دسته دسته بندی می کنند؟

$N ai v e Bayes \to -, B a yes \to +$

$N ai v e Bayes \to +, B a yes \to -$

هر دو مثبت

هر دو منفی

مشاهده پاسخ ها

71.

نمودار زیر در رابطه با تعداد تکرارهای مورد نیاز برای دستیابی به کمینه خطا با استفاده از الگوریتم نزول در امتداد گرادیان تصادفی (SGD) را در نظر بگیرید گزینه درست کدام است؟

اندازه دسته یا Batch-sizeهای بزرگتر واریانس را در تخمین گرادیان در الگوریتم SGD افزایش می دهند.

با تعداد بروزرسانی یکسان اندازه دسته های بزرگتر نسبت به اندازه دسته های کوچکتر سریع تر همگرا می شوند.

بر اساس این شکل اندازه دسته های نسبتا کوچک هم میتواند همگرایی سریع را تضمین نماید.

همه موارد

مشاهده پاسخ ها

72.

مسئله دسته بندی دودویی زیر را در نظر بگیرد. فرض کنید مجموعه آموزش حاوی نمونه های متفاوتی از الگوی A و B باشند. آیا یک شبکه عصبی حاوی یک لایه کانولوشنی یک بعدی با یک تابع فعال سازی (Activation function) خطی که به دنبال آن لایه خطی با خروجی لجستیک قرار دارد میتواند به طور کامل همه نمونه های آموزش را دسته بندی نماید؟

بله فقط باید خروجی لجستیک تغییر یابد.

خیر اما افزودن یک لایه کانولوشنی یک بعدی دیگر میتواند مسئله را حل کند.

بله لایه کانولوشنی به خوبی میتواند شرایط جداپذیری را در این الگوها قابل شناسایی نماید.

خیر این مسئله ذاتا قابل جدایی پذیری خطی نیست و نیاز است شبکه پیچیده تری جایگزین گردد.

مشاهده پاسخ ها

73.

در یک مسئله دو دسته ای بر روی داده های یک بعدی، اگر تابع توزیع دسته های $W_{1}$ و $W_{2}$ به ترتیب توابع گوسی $N (0, σ^{2})$ و $N (1, σ^{2})$ باشد مقدار آستانه $x_{0}$ که مقدار risk Average را کمینه می کند کدام است؟ $λ_{ki}$ را ریسک آن در نظر بگیرید که داده ای از دسته k در دسته i دسته بندی نماییم همچنین فرض کنید $λ_{11} = λ_{22} = 0$ )

$x_{0} = \frac{1}{2} - σ^{2} I n \frac{λ _{21} P ( w _{2} )}{λ _{12} P ( w _{1} )}$

$x_{0} = \frac{1}{2} - σ^{2} I n \frac{λ _{12} P ( w _{1} )}{λ _{21} P ( w _{2} )}$

$x_{0} = - \frac{1}{2} σ^{2} I n \frac{λ _{21} P ( w _{2} )}{λ _{12} P ( w _{1} )}$

$x_{0} = - \frac{1}{2} σ^{2} I n \frac{λ _{12} P ( w _{1} )}{λ _{21} P ( w _{2} )}$

مشاهده پاسخ ها

74.

فرض کنید $x_{1}, x_{2}, \dots, x_{n}$ نمونه‌هایی باشند که به‌صورت $i . i . d$ از تابع $P (X = x) = \frac{1}{2 σ} e^{- \frac{∣ X ∣}{σ ^{2}}}$ انتخاب شده باشند. تخمین MLE برای پارامتر $σ$ کدام است؟

$σ = \frac{\sum _{i = 1}^{n} ∣ x _{i} ∣}{n}$

$σ = \frac{n}{\sum _{i = 1}^{n} ∣ x _{i} ∣}$

$σ = \frac{\sum _{i = 1}^{n} ∣ x _{i} ∣}{2 n}$

$σ = \frac{2 n}{\sum _{i = 1}^{n} ∣ x _{i} ∣}$

مشاهده پاسخ ها

75.

زنجیره مارکوف با ماتریس گذار زیر را در نظر بگیرید امید ریاضی تعداد روزهای ماندن در وضعیت Sunny با شروع از وضعیت Sunny چند است؟

1/25

2/25

مشاهده پاسخ ها

76.

در مبحث کاهش ابعاد و انتخاب ویژگیها کدام یک از گزاره های زیر نادرست است؟

روش آنالیز تشخیص خطی (LDA) یک ترکیب خطی از ویژگیها برای تفکیک بهتر فضای داده به دست می دهد.

تبدیل موجک روشی برای انتقال فضای داده اصلی به فضای جدید با استفاده از ترکیب توابع موجک پایه دلخواه است.

شبکه های عصبی خود کد گذار روشی برای کاهش بعد داده به شمار می آیند که قادرند یک بردار ویژگی غنی از اطلاعات را به دست دهند.

الگوریتم PCA و ICA فضای داده را به یک فضای جدید با همان تعداد بعد یا کمتر انتقال می دهند به گونه ای که فاصله بین هر دو نمونه داده با فاصله در فضای قبلی یکسان باقی می ماند.

مشاهده پاسخ ها

77.

در نگاشت داده $x \in R$ از فضای داده به فضای با بعد بالاتر به صورت $y = ϕ (x) \in R^{2 k + 1}$ شکل تابع هسته متناظر با ضرب داخلی داده ها در فضای هسته به کدام صورت است اگر تابع $ϕ (x)$ به صورت رابطه زیر باشد؟

$ϕ (x) = [\frac{1}{2}, cos x, cos 2 x, \dots, cos k x, sin x, sin 2 x, \dots, sin k x]$

$K (x_{i}, x_{j}) = \frac{2 c o s ( ( k + \frac{1}{2} ) ( x _{i} - x _{j} ) )}{s i n ( \frac{x _{i} - x _{j}}{2} )}$

$K (x_{i}, x_{j}) = \frac{2 s i n ( ( k + \frac{1}{2} ) ( \frac{x _{i} - x j}{2} ) )}{cos ( x _{i} - x _{j} )}$

$K (x_{i}, x_{j}) = \frac{c o s ( \frac{x _{i} - x j}{2} )}{2 s i n ( ( k + \frac{1}{2} ) ( x _{i} - x _{j} ) )}$

$K (x_{i}, x_{j}) = \frac{s i n ( ( k + \frac{1}{2} ) ( x _{i} - x _{j} ) )}{2 s i n ( \frac{x _{i} - x _{j}}{2} )}$

مشاهده پاسخ ها

78.

یک تابع PDF به صورت زیر داده شده است:

$P (x) = ⎩ ⎨ ⎧ 0, i f, x < 0 \frac{2}{ω} - \frac{2 x}{ω ^{2}}, i f, 0 \leq x \leq ω 0, i f, x > ω$

$E [X]$ کدام است؟

$\int_{- \infty}^{\infty} ω (\frac{2}{ω} - \frac{2 x}{ω ^{2}}) d x$

$\int_{0}^{ω} x (\frac{2}{ω} - \frac{2 x}{ω ^{2}}) d x$

$\int_{0}^{ω} (\frac{2}{ω} - \frac{2 x}{ω ^{2}}) d x$

$\int_{0}^{x} x (\frac{2}{ω} - \frac{2 x}{ω ^{2}}) d x$

مشاهده پاسخ ها

79.

اگر S ماتریس کواریانس یک مجموعه داده و $μ$ میانگین آن باشد و داشته باشیم $S = Q D Q^{T}$ (ستون Q بردارهای ویژه و قطر D مقادیر ویژه S هستند.) در کدام حالت داده ها ناهمبسته (uncorrelated) خواهند بود؟

$(x - μ)^{T} Q D^{- \frac{1}{2}}$

$(x - μ) S^{- 1}$

$(x - μ)^{T} S^{- 1}$

$x^{T} Q$

مشاهده پاسخ ها

80.

کدام مورد نتیجه میان گیری خروجی تعدادی درخت تصمیم است؟

کاهش بایاس

افزایش بایاس

کاهش واریانس

افزایش واریانس

مشاهده پاسخ ها

81.

در هنگام انتخاب یک زیر مجموعه از ویژگیها تلاش میکنیم که ویژگیهای نامناسب را تشخیص دهیم و آنها را حذف کنیم کدام مورد دلیل حذف ویژگی ها نیست؟

کاهش بایاس مدل

کاهش واریانس مدل

افزایش تفسیر پذیری مدل

افزایش سرعت پیش بینی روی نمونه های آزمون

مشاهده پاسخ ها

82.

یک دسته بند Hard margin linear SVM که بر روی یک مجموعه داده تایی آموزش دیده است با ۲ = k بردار پشتیبان (Support vector) را در نظر بگیرید. اگر یک داده برچسب دار جدید به مجموعه داده موجود اضافه کنیم حداکثر تعداد Support vectorها چند خواهد بود؟

n+1

k+1

مشاهده پاسخ ها

83.

قصد داریم تا به روش یادگیری تقویتی سیستمی با چهار حالت (A,B,C,D) را که در هر حالت تنها دو کنش a و b امکان پذیر است آموزش دهیم شکل زیر امکان انتقال بین حالات و همچنین پاداش دریافتی به ازای هر کنش در هر حالت را نشان میدهد. در صورتی که از الگوریتم Q-Learning برای آموزش استفاده نماییم و $γ = 0.9$ باشد، مقادیر تابع Q چه خواهد بود در صورتی که از حالت A شروع کرده و کنش‌های ${a, a, b, a, b, a}$ را به ترتیب از چپ به راست انجام دهیم؟

مشاهده پاسخ ها

84.

اگر در دسته بندی مسئله ای با ویژگیهای عددی به کمک درخت تصمیم یک ویژگی خاص مانند را نرمال کنیم تأثیر آن چگونه است؟

ویژگی $x_{1}$ در ارتفاع بالاتری از درخت قرار می گیرد.

ویژگی $x_{1}$ در ارتفاع پایین‌ترین از درخت قرار می گیرد.

هیچ تأثیری بر شکل درخت و نتیجه دسته بندی ندارد.

با نرمال سازی ویژگی $x_{1}$ نمی‌توان در مورد شکل درخت و نتیجه دسته بندی نظر قطعی داد.

مشاهده پاسخ ها

85.

در رگرسیون خطی سه داده $(1, 1), (0, 1)$ و $(2, 2)$ در فضای دوبعدی، $L 1 - re gu l a r i z a t i o n$ با مقدار $λ = 5$ به‌صورت زیر استفاده شده است. در صورتی که خطای رگرسیون یا همان $\sum_{ه = 1}^{3} (y_{i} - θ_{1} x_{1} - θ_{0})^{2}$ به‌صورت اعداد درج شده بر روی کانتورهای بیضی شکل و جریمه ناشی از Regularization یا همان $λ (∣ θ_{1} ∣ + ∣ θ_{0} ∣)$ به‌صورت اعداد درج شده بر روی کانتورهای مربع شکل رسم شده در شکل زیر باشد:

$min_{θ_{1}, θ_{0}} \sum_{i = 1}^{3} (y_{i} - θ_{1} x_{1} - θ_{0})^{2} + λ (∣ θ_{1} ∣ + ∣ θ_{0} ∣) w h ere λ = 5$

کدام‌یک از شکل‌های زیر نشان‌دهنده نتیجه رگرسیون است؟

مشاهده پاسخ ها

86.

اگر بخواهیم مسئله دسته بندی دو دسته ای شکل زیر را به کمک مدل Regularized logistic regression بیان شده زیر حل کنیم مرز تصمیم رسم شده در شکل برای کدام حالت می تواند درست باشد؟

$M a x \sum_{i = 1}^{n} lo g (P (y^{i} x_{1}^{(i)}, x_{2}^{(i)})) - (λ_{0} w_{0}^{2} + λ_{2} w_{2}^{2})$

$P (y ∣ x_{1}, x_{2}) = \frac{1}{1 + e ^{- (w_{0} + w_{1} x_{1} + w_{2} x_{2})}}$

$λ_{0} = 0, λ_{1} = 0, λ_{2} = 0$

$λ_{0} = \infty, λ_{1} = 0, λ_{2} = 0$

$λ_{0} = 0, λ_{1} = \infty, λ_{2} = 0$

$λ_{0} = 0, λ_{1} = 0, λ_{2} = \infty$

مشاهده پاسخ ها

87.

کدام یک از دسته بندهای زیر نسبت به چرخش داده ها (Rotation) بسیار حساس است؟ (فرض کنید همه ویژگی ها

عددی هستند.)

SVM

رگرسیون لجستیک

درخت تصمیم

نزدیک ترین همسایه

مشاهده پاسخ ها

88.

اگر بخواهیم روش رگرسیون لجستیک را برای یک مسئله K دسته ای بسط دهیم و اینگونه عمل کنیم که دسته را به عنوان Pivot انتخاب نماییم و برای هر دسته $i < K$ به صورت جداگانه رگرسیون لجستیک را نسبت به دسته Pivot انجام دهیم $β_{i}$ را به صورت زیر محاسبه نماییم آنگاه کدام رابطه برای $P r (Y_{i} = K)$ درست است؟

$in \frac{P r ( Y _{i} = 1 )}{P r ( Y _{i} = K )} = β_{1} . X_{i}$

$in \frac{P r ( Y _{i} = 2 )}{P r ( Y _{i} = K )} = β_{2} . X_{i}$

..............

$in \frac{P r ( Y _{i} = K - 1 )}{P r ( Y _{i} = K )} = β_{K - 1} . X_{i}$

$P r (Y_{i} = K) = \frac{1}{1 + \sum _{K = 1}^{K - 1} e ^{β_{K^{. X}}}}$

$P r (Y_{i} = K) = \frac{e ^{β_{K^{. X}}}}{1 + \sum _{K = 1}^{K} e ^{β_{K}^{. X}}}$

$P r (Y_{i} = K) = 1 - \frac{1}{\sum _{K = 1}^{K - 1} e ^{β_{K}^{. X}}}$

$P r (Y_{i} = K) = 1 - \frac{1}{1 + \sum _{K = 1}^{K - 1} e ^{β_{K}^{. X}}}$

مشاهده پاسخ ها

89.

در یک دسته بند که همیشه با احتمال ۰٫۷ = P برچسب مثبت به داده ها انتساب می دهد. مقدار کدام است؟

AUC (Area under ROC curve)

0/7

0/5

0/3

0/15

مشاهده پاسخ ها

90.

در محاسبه حد بالای Sample complexity به کمک روشهای مبتنی بر یادگیری PAC، در صورتی که Learner هیچ فرضی در مورد اینکه target concept به کمک فضای فرضیه H قابل نمایش است نداشته باشد. و فقط فرضیه با کمترین خطای آموزش را برگرداند از کدام رابطه می توان بهره برد؟

$m \geq \frac{1}{2 \in ^{2}} (in ∣ H ∣ + in (\frac{1}{δ}))$

$m \geq \frac{1}{\in} (I n ∣ H ∣ + I n (\frac{1}{δ}))$

$m \geq max (\frac{1}{\in} lo g_{2} (\frac{1}{δ}), \frac{V C ( H ) - 1}{32 \in})$

با توجه به اینکه Learner نمی تواند یک فرضیه سازگار (Consistent) بیاید امکان محاسبه حد بالای Sample complexity وجود ندارد.

مشاهده پاسخ ها