پرش به محتوا

کاربر:AAI080/مدل‌سازی زبانی (در حال تکمیل ترجمه)

از ویکی‌پدیا، دانشنامهٔ آزاد

مدل زبان آماری یک توزیع احتمال روی دنباله‌ی کلمات است. به طور مثال اگر دنباله‌ای به طول m داشته باشیم، این مدل احتمال را به کل دنباله می‌دهد.

مدل زبان زمینه ای را برای تمایز بین کلمات و عباراتی که به نظر مشابه می‌رسند فراهم می کند. به عنوان مثال ، در انگلیسی آمریکایی، عبارات "recognize speech" و "wreck a nice beach" شبیه به هم هستند، اما معنی های مختلفی دارند.

پراکندگی داده‌ها یک مشکل اساسی در ساخت مدل‌های زبان است. بیشتر توالی‌های ممکن کلمات در آموزش مشاهده نمی‌شوند. یک راه حل این است که فرض کنیم احتمال کلمه فقط به n کلمه قبلی بستگی دارد. این مدل به عنوان مدل n -gram شناخته می‌شود و زمانی که 1=n باشد مدل به عنوان unigram شناخته می‌شود. مدل یونیگرام به عنوان مدل کیسه‌های کلمات نیز شناخته می شود.

تخمین احتمال نسبی عبارات مختلف در بسیاری از کاربردهای پردازش زبان طبیعی، به ویژه مواردی که متن را به عنوان خروجی تولید می کنند، مفید است. از مدل سازی زبان در تشخیص گفتار ، خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). ترجمه ماشینی ، برچسب گذاری بخشی از گفتار ، تجزیه ، [۱] نویسه‌خوان نوری ، تشخیص دست خط ، خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). بازیابی اطلاعات و سایر برنامه ها استفاده می شود.

در تشخیص گفتار، اصوات با توالی کلمات مطابقت دارند. حل ابهامات هنگامی که شواهد از مدل زبان با یک مدل تلفظ و یک مدل صوتی ادغام شده است، آسان تر است.

مدل های زبانی در بازیابی اطلاعات در مدل احتمال پرسشی استفاده می شود . در آنجا، یک مدل زبان جداگانه با هر نوشته در یک مجموعه مرتبط است. نوشته‌ها بر اساس احتمال پرسش Q در مدل زبان نوشته رتبه‌بندی می‌شوند.  : . معمولاً برای این منظور از مدل زبان unigram استفاده می شود.

انواع مدل

[ویرایش]

یونیگرام

[ویرایش]

یک مدل یونیگرام را می توان ترکیبی از چندین ماشین حالات متناهی یک حالته دانست. خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). این احتمالات کلمات مختلف در یک زمینه را تقسیم می‌کند، به عنوان مثال از

به

در این مدل، احتمال هر کلمه فقط به احتمال خود آن کلمه در نوشته بستگی دارد ، بنابراین ما فقط ماشین حالت یک حالته را به عنوان واحدها داریم. خودکار توزیع احتمال در کل واژگان مدل را دارد و جمع می شود به 1. در زیر تصویر مدل یونیگرام یک نوشته را می‌بینیم.

کلمات احتمال در نوشته
a 0.1
world 0.2
likes 0.05
we 0.05
share 0.3
. . . . . .

احتمال ایجاد شده برای یک پرسش خاص به صورت زیر محاسبه می‌شود

نوشته‌های مختلف دارای مدل‌های یونیگرام هستند که احتمال مختلف کلمات در آن وجود دارد. توزیع احتمال از نوشته‌های مختلف وجود کلمه برای هر جستجو استفاده می‌شود. نوشته‌ها را می‌توان برای یک پرسش با توجه به احتمالات رتبه‌بندی کرد. نمونه ای از مدل‌های یونیگرام دو نوشته:

کلمات احتمال در نوشته‌ی اول احتمال در نوشته‌ی دوم
a 0.1 0.3
world 0.2 0.1
likes 0.05 0.03
we 0.05 0.02
share 0.3 0.2
. . . . . . . . .

در زمینه‌های بازیابی اطلاعات، برای جلوگیری از مواردی که احتمال کلمه در آن صفر شود، آن را smooth می‌کنند. یک رویکرد معمول ایجاد مدل حداکثر احتمال برای کل مجموعه و درون‌یابی خطی مدل مجموعه با یک مدل حداکثر احتمال برای هر نوشته برای smooth کردن مدل است. خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

n -gram

[ویرایش]

در مدل n -gram، احتمال از مشاهده جمله به صورت زیر محاسبه می‌شود

فرض بر این است که احتمال مشاهده‌ی iامین کلمه (wi) در i-1 کلمه قبل را می توان با احتمال مشاهده آن در تاریخچه متن کوتاه شده 10 کلمه قبلی تقریب زد. (کلمه nام خاصیت مارکوف).

احتمال شرطی را می‌توان از تعداد کلمه در مدل n -gram محاسبه کرد:

اصطلاحات مدل‌های زبانی bigram و trigram، مدل n-gram با n = 2 و n = 3 خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). نشان می‌دهد.

به طور معمول، احتمالات مدل n-gram مستقیماً از تعداد فرکانس ها بدست نمی‌آیند، زیرا مدل‌هایی که از این طریق بدست آمده‌اند هنگام مواجهه با هر n-gramsی که قبلاً به طور صریح دیده نشده است، مشکلات جدی دارند. در عوض، نوعی smoothing نیاز است تا مقداری از کل احتمال را به کلمات یا n-gramهای دیده نشده اختصاص دهد. از روش های مختلفی استفاده می‌شود ، از روش ساده "add-one" (اختصاص عدد 1 به n-gram مشاهده نشده، به عنوان یک توزیع پیشین) تا مدل‌های پیچیده‌تر، مانند Good-Turing discounting یا مدل‌های back-off.

دو طرفه

[ویرایش]

بازنمایی های دو طرفه هم در قبل و هم در بعد نوشته (به عنوان مثال ، کلمات) در همه لایه‌ها شرط هستند. [۲]

مثال

[ویرایش]

در یک مدل زبان bigram (n = 2)، احتمال I saw the red house به طور تقریبی به صورت زیر محاسبه می‌شود

در حالی که در یک مدل زبان trigram ( n = 3)، به طور تقریبی به صورت زیر محاسبه می‌شود

توجه داشته باشید که زمینه‌ی n - 1 تا n-gram اولیه با نشانگرهای شروع جمله پر می‌شود ، که به طور معمول <s> نشان داده می‌شود.

علاوه بر این، بدون نشانگر پایان جمله، احتمال دنباله ای بدون گرامر * I saw the بیشتر از جمله طولانی‌تر I saw the red house است.

نمایی

[ویرایش]

مدل‌های زبان اصل حداکثر آنتروپی با استفاده از توابع ویژگی، رابطه بین کلمه و تاریخچه n-gram را رمزگذاری می‌کنند. معادله‌ی آن به صورت زیر است

که تابع partition است، بردار پارامتر است، و تابع ویژگی است. در ساده ترین حالت ، تابع ویژگی فقط نشانگر وجود یک n-gram خاص است. مفید است که از یک پیش‌فرض روی a یا منظم‌ساز استفاده شود.

مدل log-bilinear نمونه دیگری از مدل‌‌های زبانی نمایی است.

شبکه عصبی

[ویرایش]

مدل‌های زبانی عصبی (یا مدل های زبان فضایی پیوسته) برای ارائه پیشبینی‌های خود از نمایش های پیوسته یا نمایش کلمات استفاده می‌کنند. خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). این مدل ها از شبکه‌های عصبی استفاده می‌کنند.

نمایانگر پیوسته فضا به کاهش نفرین ابعاد در مدل سازی زبان کمک می‌کند: با آموزش مدل‌های زبان بر روی متن های بزرگتر و بزرگتر ، تعداد کلمات منحصر به فرد (واژگان) افزایش می یابد. تعداد توالی‌های احتمالی کلمات با اندازه واژگان به طور تصاعدی افزایش مییابد و به دلیل تعداد زیاد توالی‌ها، باعث ایجاد مشکل پراکندگی داده‌ها می شود. بنابراین ، برای برآورد صحیح احتمالات، به آمار نیاز است. شبکه های عصبی با نمایش کلمات به صورت توزیع شده، به عنوان ترکیب‌های غیرخطی وزن‌ها در یک شبکه عصبی، از این مشکل جلوگیری می کنند. [۳] یک توصیف جایگزین این است که یک شبکه عصبی عملکرد زبان را تقریبی می‌کند. معماری شبکه عصبی ممکن است پیشخور یا بازگشتی باشد، و گرچه اولی ساده تر است دومی بیشتر مورد استفاده قرار می‌گیرد. [ نیاز به منبع ] به طور معمول، مدل‌های زبان شبکه عصبی به عنوان طبقه‌بندی کننده های احتمالی ساخته می شوند و آموزش می‌بینند که توزیع احتمال را پیشبینی کنند

.

یعنی شبکه با توجه به متن زبان برای پیش بینی توزیع احتمال بر روی واژگان آموزش دیده است. این کار با استفاده از الگوریتم های استاندارد آموزش عصبی عصبی مانند گرادیان کاهشی تصادفی همراه با پس‌انتشار انجام می‌شود. [۳] متن ممکن است یک پنجره با اندازه ثابت کلمات قبلی باشد، شبکه احتمال زیر را پیشبینی می‌کند

از بردار ویژگی که نشان‌دهنده k کلمه‌ی قبلی است. [۳] گزینه دیگر استفاده از کلمات "بعدی" علاوه بر کلمات "قبلی" به عنوان ویژگی است، احتمال تخمین زده شده برابر است با

.

به این مدل کیسه کلمات گفته می‌شود. وقتی بردارهای مشخصه کلمات در متن با یک عمل پیوسته ترکیب می‌شوند، از این مدل به عنوان معماری پیوسته کلمات (CBOW) یاد می‌شود. [۴]

گزینه سوم که با سرعت کمتری نسبت به CBOW آموزش داده می‌شود اما عملکرد کمی بهتر دارد، معکوس کردن مشکل قبلی و ایجاد یک شبکه عصبی برای یادگیری متن است. [۴] به صورت رسمی تر، با داشتن دنباله‌ای از کلمات آموزشی ، تابعی که متوسط احتمال را به حداکثر می رساند برابر است با

که k، اندازه متن آموزش، می‌تواند تابعی از کلمه وسط () باشد. به این مدل زبان skip-gram می‌گویند. مدل‌های کیسه کلمات و skip-gram پایه‌های word2vec هستند. خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

به جای استفاده از مدل‌های زبانی شبکه عصبی برای تولید احتمالات واقعی، معمولاً از نمایش توزیع شده در لایه های "پنهان" شبکه به عنوان نمایش کلمات استفاده می‌شود. سپس هر کلمه بر روی یک بردار واقعی n بعدی قرار می گیرد که word embedding نامیده می‌شود، به طوری که n اندازه لایه قبل از لایه خروجی است. نمایش‌ها در مدل‌های skip-gram دارای مشخصه متمایزی است که آنها روابط معنایی بین کلمات را به صورت ترکیب‌های خطی مدل‌سازی می‌کنند و نوعی ترکیب‌بندی را بدست می‌آورند. به عنوان مثال، در برخی از این مدل‌ها، اگر v تابعی باشد که یک کلمه w را به نمایش n-بعدی تبدیل کند، داریمː

که ≈ با این شرط که سمت راست آن باید نزدیکترین همسایه مقدار سمت چپ باشد، دقیق‌تر می‌شود. [۴] [۵]

دیگر

[ویرایش]

یک مدل زبان موقعیتی احتمال وقوع کلمات معین نزدیک به یکدیگر را در یک متن ارزیابی می‌کند، لزوماً بلافاصله مجاور نیستند. به همین ترتیب، مدلهای بسته بندی مفاهیمی از معانی معنایی مرتبط با عبارات چند کلمه‌ای مانند buy_christmas_present استفاده می‌کنند، حتی وقتی از آن‌ها در جملات غنی از اطلاعات مانند "today I bought a lot of very nice Christmas presents" استفاده می شود.

علیرغم موفقیت‌های محدود در استفاده از شبکه های عصبی، خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.). نویسندگان نیاز به تکنیک‌های دیگر را هنگام مدل‌سازی زبان اشاره تأیید می‌کنند.

معیارها

[ویرایش]

مجموعه داده‌های مختلفی برای استفاده برای ارزیابی سیستم‌های پردازش زبان ساخته شده است. [۲] که شامل موارد زیر می‌شود:

  • Corpus of Linguistic Acceptability خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • GLUE benchmark خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Microsoft Research Paraphrase Corpus خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Multi-Genre Natural Language Inference
  • Question Natural Language Inference
  • Quora Question Pairs خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Recognizing Textual Entailment خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Semantic Textual Similarity Benchmark
  • SQuAD question answering Test خطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Stanford Sentiment Treebankخطای یادکرد: برچسب‌های <ref> یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسب‌ها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).

  • Winograd NLI

همچنین ببینید

[ویرایش]

یادداشت

[ویرایش]

منابع

[ویرایش]

استناد

[ویرایش]
  1. خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام Semantic parsing as machine translation وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  2. ۲٫۰ ۲٫۱ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018-10-10). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL].
  3. ۳٫۰ ۳٫۱ ۳٫۲ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام bengio وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  4. ۴٫۰ ۴٫۱ ۴٫۲ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام mikolov وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
  5. خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام compositionality وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).

منابع

[ویرایش]
  • J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval. pp. 275–281. CiteSeerX 10.1.1.117.4237. {{cite conference}}: Unknown parameter |booktitle= ignored (|book-title= suggested) (help)نگهداری یادکرد:استفاده از پارامتر نویسندگان (link)
  • F Song and W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval. pp. 279–280. CiteSeerX 10.1.1.21.6467. {{cite conference}}: Unknown parameter |booktitle= ignored (|book-title= suggested) (help)نگهداری یادکرد:استفاده از پارامتر نویسندگان (link)
  • Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458.

لینک های خارجی

[ویرایش]

نرم افزار

[ویرایش]

[[رده:مدل‌های مارکوف]] [[رده:پردازش آماری زبان طبیعی]] [[رده:نگهداری یادکرد:استفاده از پارامتر نویسندگان]]