کاربر:AAI080/مدلسازی زبانی (در حال تکمیل ترجمه)
مدل زبان آماری یک توزیع احتمال روی دنبالهی کلمات است. به طور مثال اگر دنبالهای به طول m داشته باشیم، این مدل احتمال را به کل دنباله میدهد.
مدل زبان زمینه ای را برای تمایز بین کلمات و عباراتی که به نظر مشابه میرسند فراهم می کند. به عنوان مثال ، در انگلیسی آمریکایی، عبارات "recognize speech" و "wreck a nice beach" شبیه به هم هستند، اما معنی های مختلفی دارند.
پراکندگی دادهها یک مشکل اساسی در ساخت مدلهای زبان است. بیشتر توالیهای ممکن کلمات در آموزش مشاهده نمیشوند. یک راه حل این است که فرض کنیم احتمال کلمه فقط به n کلمه قبلی بستگی دارد. این مدل به عنوان مدل n -gram شناخته میشود و زمانی که 1=n باشد مدل به عنوان unigram شناخته میشود. مدل یونیگرام به عنوان مدل کیسههای کلمات نیز شناخته می شود.
تخمین احتمال نسبی عبارات مختلف در بسیاری از کاربردهای پردازش زبان طبیعی، به ویژه مواردی که متن را به عنوان خروجی تولید می کنند، مفید است. از مدل سازی زبان در تشخیص گفتار ، خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
ترجمه ماشینی ، برچسب گذاری بخشی از گفتار ، تجزیه ، [۱] نویسهخوان نوری ، تشخیص دست خط ، خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
بازیابی اطلاعات و سایر برنامه ها استفاده می شود.
در تشخیص گفتار، اصوات با توالی کلمات مطابقت دارند. حل ابهامات هنگامی که شواهد از مدل زبان با یک مدل تلفظ و یک مدل صوتی ادغام شده است، آسان تر است.
مدل های زبانی در بازیابی اطلاعات در مدل احتمال پرسشی استفاده می شود . در آنجا، یک مدل زبان جداگانه با هر نوشته در یک مجموعه مرتبط است. نوشتهها بر اساس احتمال پرسش Q در مدل زبان نوشته رتبهبندی میشوند. : . معمولاً برای این منظور از مدل زبان unigram استفاده می شود.
انواع مدل
[ویرایش]یونیگرام
[ویرایش]یک مدل یونیگرام را می توان ترکیبی از چندین ماشین حالات متناهی یک حالته دانست. خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
این احتمالات کلمات مختلف در یک زمینه را تقسیم میکند، به عنوان مثال از
به
در این مدل، احتمال هر کلمه فقط به احتمال خود آن کلمه در نوشته بستگی دارد ، بنابراین ما فقط ماشین حالت یک حالته را به عنوان واحدها داریم. خودکار توزیع احتمال در کل واژگان مدل را دارد و جمع می شود به 1. در زیر تصویر مدل یونیگرام یک نوشته را میبینیم.
کلمات | احتمال در نوشته |
---|---|
a | 0.1 |
world | 0.2 |
likes | 0.05 |
we | 0.05 |
share | 0.3 |
. . . | . . . |
احتمال ایجاد شده برای یک پرسش خاص به صورت زیر محاسبه میشود
نوشتههای مختلف دارای مدلهای یونیگرام هستند که احتمال مختلف کلمات در آن وجود دارد. توزیع احتمال از نوشتههای مختلف وجود کلمه برای هر جستجو استفاده میشود. نوشتهها را میتوان برای یک پرسش با توجه به احتمالات رتبهبندی کرد. نمونه ای از مدلهای یونیگرام دو نوشته:
کلمات | احتمال در نوشتهی اول | احتمال در نوشتهی دوم |
---|---|---|
a | 0.1 | 0.3 |
world | 0.2 | 0.1 |
likes | 0.05 | 0.03 |
we | 0.05 | 0.02 |
share | 0.3 | 0.2 |
. . . | . . . | . . . |
در زمینههای بازیابی اطلاعات، برای جلوگیری از مواردی که احتمال کلمه در آن صفر شود، آن را smooth میکنند. یک رویکرد معمول ایجاد مدل حداکثر احتمال برای کل مجموعه و درونیابی خطی مدل مجموعه با یک مدل حداکثر احتمال برای هر نوشته برای smooth کردن مدل است. خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
n -gram
[ویرایش]در مدل n -gram، احتمال از مشاهده جمله به صورت زیر محاسبه میشود
فرض بر این است که احتمال مشاهدهی iامین کلمه (wi) در i-1 کلمه قبل را می توان با احتمال مشاهده آن در تاریخچه متن کوتاه شده 10 کلمه قبلی تقریب زد. (کلمه nام خاصیت مارکوف).
احتمال شرطی را میتوان از تعداد کلمه در مدل n -gram محاسبه کرد:
اصطلاحات مدلهای زبانی bigram و trigram، مدل n-gram با n = 2 و n = 3 خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
نشان میدهد.
به طور معمول، احتمالات مدل n-gram مستقیماً از تعداد فرکانس ها بدست نمیآیند، زیرا مدلهایی که از این طریق بدست آمدهاند هنگام مواجهه با هر n-gramsی که قبلاً به طور صریح دیده نشده است، مشکلات جدی دارند. در عوض، نوعی smoothing نیاز است تا مقداری از کل احتمال را به کلمات یا n-gramهای دیده نشده اختصاص دهد. از روش های مختلفی استفاده میشود ، از روش ساده "add-one" (اختصاص عدد 1 به n-gram مشاهده نشده، به عنوان یک توزیع پیشین) تا مدلهای پیچیدهتر، مانند Good-Turing discounting یا مدلهای back-off.
دو طرفه
[ویرایش]بازنمایی های دو طرفه هم در قبل و هم در بعد نوشته (به عنوان مثال ، کلمات) در همه لایهها شرط هستند. [۲]
مثال
[ویرایش]در یک مدل زبان bigram (n = 2)، احتمال I saw the red house به طور تقریبی به صورت زیر محاسبه میشود
در حالی که در یک مدل زبان trigram ( n = 3)، به طور تقریبی به صورت زیر محاسبه میشود
توجه داشته باشید که زمینهی n - 1 تا n-gram اولیه با نشانگرهای شروع جمله پر میشود ، که به طور معمول <s> نشان داده میشود.
علاوه بر این، بدون نشانگر پایان جمله، احتمال دنباله ای بدون گرامر * I saw the بیشتر از جمله طولانیتر I saw the red house است.
نمایی
[ویرایش]مدلهای زبان اصل حداکثر آنتروپی با استفاده از توابع ویژگی، رابطه بین کلمه و تاریخچه n-gram را رمزگذاری میکنند. معادلهی آن به صورت زیر است
که تابع partition است، بردار پارامتر است، و تابع ویژگی است. در ساده ترین حالت ، تابع ویژگی فقط نشانگر وجود یک n-gram خاص است. مفید است که از یک پیشفرض روی a یا منظمساز استفاده شود.
مدل log-bilinear نمونه دیگری از مدلهای زبانی نمایی است.
شبکه عصبی
[ویرایش]مدلهای زبانی عصبی (یا مدل های زبان فضایی پیوسته) برای ارائه پیشبینیهای خود از نمایش های پیوسته یا نمایش کلمات استفاده میکنند. خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
این مدل ها از شبکههای عصبی استفاده میکنند.
نمایانگر پیوسته فضا به کاهش نفرین ابعاد در مدل سازی زبان کمک میکند: با آموزش مدلهای زبان بر روی متن های بزرگتر و بزرگتر ، تعداد کلمات منحصر به فرد (واژگان) افزایش می یابد. تعداد توالیهای احتمالی کلمات با اندازه واژگان به طور تصاعدی افزایش مییابد و به دلیل تعداد زیاد توالیها، باعث ایجاد مشکل پراکندگی دادهها می شود. بنابراین ، برای برآورد صحیح احتمالات، به آمار نیاز است. شبکه های عصبی با نمایش کلمات به صورت توزیع شده، به عنوان ترکیبهای غیرخطی وزنها در یک شبکه عصبی، از این مشکل جلوگیری می کنند. [۳] یک توصیف جایگزین این است که یک شبکه عصبی عملکرد زبان را تقریبی میکند. معماری شبکه عصبی ممکن است پیشخور یا بازگشتی باشد، و گرچه اولی ساده تر است دومی بیشتر مورد استفاده قرار میگیرد. [ نیاز به منبع ] به طور معمول، مدلهای زبان شبکه عصبی به عنوان طبقهبندی کننده های احتمالی ساخته می شوند و آموزش میبینند که توزیع احتمال را پیشبینی کنند
- .
یعنی شبکه با توجه به متن زبان برای پیش بینی توزیع احتمال بر روی واژگان آموزش دیده است. این کار با استفاده از الگوریتم های استاندارد آموزش عصبی عصبی مانند گرادیان کاهشی تصادفی همراه با پسانتشار انجام میشود. [۳] متن ممکن است یک پنجره با اندازه ثابت کلمات قبلی باشد، شبکه احتمال زیر را پیشبینی میکند
از بردار ویژگی که نشاندهنده k کلمهی قبلی است. [۳] گزینه دیگر استفاده از کلمات "بعدی" علاوه بر کلمات "قبلی" به عنوان ویژگی است، احتمال تخمین زده شده برابر است با
- .
به این مدل کیسه کلمات گفته میشود. وقتی بردارهای مشخصه کلمات در متن با یک عمل پیوسته ترکیب میشوند، از این مدل به عنوان معماری پیوسته کلمات (CBOW) یاد میشود. [۴]
گزینه سوم که با سرعت کمتری نسبت به CBOW آموزش داده میشود اما عملکرد کمی بهتر دارد، معکوس کردن مشکل قبلی و ایجاد یک شبکه عصبی برای یادگیری متن است. [۴] به صورت رسمی تر، با داشتن دنبالهای از کلمات آموزشی ، تابعی که متوسط احتمال را به حداکثر می رساند برابر است با
که k، اندازه متن آموزش، میتواند تابعی از کلمه وسط () باشد. به این مدل زبان skip-gram میگویند. مدلهای کیسه کلمات و skip-gram پایههای word2vec هستند. خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
به جای استفاده از مدلهای زبانی شبکه عصبی برای تولید احتمالات واقعی، معمولاً از نمایش توزیع شده در لایه های "پنهان" شبکه به عنوان نمایش کلمات استفاده میشود. سپس هر کلمه بر روی یک بردار واقعی n بعدی قرار می گیرد که word embedding نامیده میشود، به طوری که n اندازه لایه قبل از لایه خروجی است. نمایشها در مدلهای skip-gram دارای مشخصه متمایزی است که آنها روابط معنایی بین کلمات را به صورت ترکیبهای خطی مدلسازی میکنند و نوعی ترکیببندی را بدست میآورند. به عنوان مثال، در برخی از این مدلها، اگر v تابعی باشد که یک کلمه w را به نمایش n-بعدی تبدیل کند، داریمː
که ≈ با این شرط که سمت راست آن باید نزدیکترین همسایه مقدار سمت چپ باشد، دقیقتر میشود. [۴] [۵]
دیگر
[ویرایش]یک مدل زبان موقعیتی احتمال وقوع کلمات معین نزدیک به یکدیگر را در یک متن ارزیابی میکند، لزوماً بلافاصله مجاور نیستند. به همین ترتیب، مدلهای بسته بندی مفاهیمی از معانی معنایی مرتبط با عبارات چند کلمهای مانند buy_christmas_present استفاده میکنند، حتی وقتی از آنها در جملات غنی از اطلاعات مانند "today I bought a lot of very nice Christmas presents" استفاده می شود.
علیرغم موفقیتهای محدود در استفاده از شبکه های عصبی، خطای یادکرد: برچسبهای <ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
نویسندگان نیاز به تکنیکهای دیگر را هنگام مدلسازی زبان اشاره تأیید میکنند.
معیارها
[ویرایش]مجموعه دادههای مختلفی برای استفاده برای ارزیابی سیستمهای پردازش زبان ساخته شده است. [۲] که شامل موارد زیر میشود:
- Corpus of Linguistic Acceptability خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- GLUE benchmark خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Microsoft Research Paraphrase Corpus خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Multi-Genre Natural Language Inference
- Question Natural Language Inference
- Quora Question Pairs خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Recognizing Textual Entailment خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Semantic Textual Similarity Benchmark
- SQuAD question answering Test خطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Stanford Sentiment Treebankخطای یادکرد: برچسبهای
<ref>
یافته شد که درونشان محتوایی نبود. یادکرد منبع باید بین برچسبها قرار گیرد. (صفحهٔ راهنما را مطالعه کنید.).
- Winograd NLI
همچنین ببینید
[ویرایش]یادداشت
[ویرایش]منابع
[ویرایش]استناد
[ویرایش]- ↑ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامSemantic parsing as machine translation
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ ۲٫۰ ۲٫۱ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018-10-10). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL].
- ↑ ۳٫۰ ۳٫۱ ۳٫۲ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامbengio
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ ۴٫۰ ۴٫۱ ۴٫۲ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامmikolov
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.). - ↑ خطای یادکرد: خطای یادکرد:برچسب
<ref>
غیرمجاز؛ متنی برای یادکردهای با نامcompositionality
وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
منابع
[ویرایش]- J M Ponte and W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval. pp. 275–281. CiteSeerX 10.1.1.117.4237.
{{cite conference}}
: Unknown parameter|booktitle=
ignored (|book-title=
suggested) (help)نگهداری یادکرد:استفاده از پارامتر نویسندگان (link) - F Song and W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval. pp. 279–280. CiteSeerX 10.1.1.21.6467.
{{cite conference}}
: Unknown parameter|booktitle=
ignored (|book-title=
suggested) (help)نگهداری یادکرد:استفاده از پارامتر نویسندگان (link) - Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458.
لینک های خارجی
[ویرایش]نرم افزار
[ویرایش]- BERT در گیتهاب- نمایشگرهای رمزگذار دو طرفه از ترانسفورماتورها
- CSLM - جعبه ابزار رایگان برای مدلهای زبان عصبی پیشگام
- DALM در گیتهاب- نرم افزار سریع و رایگان برای درخواست های مدل زبان
- ترانسفورماتور آموزش دیده از قبل
- IRSTLM on سورسفورج - نرم افزار رایگان برای مدل سازی زبان
- Kylm (جعبه ابزار مدل سازی زبان کیوتو) - جعبه ابزار رایگان مدل سازی زبان در جاوا
- KenLM - نرم افزار سریع و رایگان برای مدل سازی زبان
- LMSharp در گیتهاب- جعبه ابزار مدل زبان رایگان برای مدل های n -gram صاف Kneser – Ney و مدل های شبکه عصبی مکرر
- MITLM در گیتهاب- مجموعه ابزار مدل سازی زبان MIT. نرم افزار رایگان
- NPLM - جعبه ابزار رایگان برای مدلهای زبان عصبی پیشگام
- OpenGrm NGram library - نرم افزار رایگان برای مدل سازی زبان. ساخته شده در OpenFst.
- OxLM در گیتهاب- جعبه ابزار رایگان برای مدلهای زبان عصبی پیشگام
- مدل زبان موقعیتی
- RandLM on سورسفورج - نرم افزار رایگان برای مدل سازی تصادفی زبان
- RNNLM - مجموعه ابزارهای مدل زبان عصبی تکراری رایگان
- SRILM - نرم افزار اختصاصی برای مدل سازی زبان
- VariKN - نرم افزار رایگان برای ایجاد ، رشد و هرس مدل های n -gram صاف Kneser-Ney.
- مدل های زبانی که روی داده های شبکه خبری آموزش داده شده اند
[[رده:مدلهای مارکوف]] [[رده:پردازش آماری زبان طبیعی]] [[رده:نگهداری یادکرد:استفاده از پارامتر نویسندگان]]