فهم المتجهات والتضمينات: الرياضيات وراء البحث بالذكاء الاصطناعي
المتجهات والتضمينات أساسية لكيفية فهم أنظمة الذكاء الاصطناعي الحديثة والبحث في المعلومات. إليك ما هي ولماذا تهم.
ما هو المتجه؟
المتجه هو ببساطة قائمة من الأرقام. في الذكاء الاصطناعي، تمثل المتجهات معنى الكلمات أو الجمل أو المستندات. المعاني المتشابهة لها متجهات متشابهة.
ما هي التضمينات؟
التضمينات هي متجهات تم إنشاؤها بواسطة نماذج الذكاء الاصطناعي تلتقط المعنى الدلالي للنص. جملة "أنا أحب القطط" و "أنا أعشق القطط" سيكون لهما تضمينات متشابهة، حتى مع استخدام كلمات مختلفة.
كيف يعمل البحث الدلالي
البحث التقليدي يطابق الكلمات المفتاحية. البحث الدلالي يطابق المعنى:
- تحويل جميع المستندات إلى تضمينات
- تحويل استعلام البحث إلى تضمين
- إيجاد المستندات ذات المتجهات الأكثر تشابهاً
- أنظمة RAG: إيجاد المستندات ذات الصلة لنماذج اللغة الكبيرة للرجوع إليها
- محركات التوصية: إيجاد منتجات أو مقالات أو مستخدمين مشابهين
- إزالة التكرار: إيجاد المحتوى شبه المكرر
- التصنيف: تجميع العناصر المتشابهة معاً
تشابه جيب التمام (Cosine Similarity)
الطريقة الأكثر شيوعاً لقياس التشابه بين المتجهات هي تشابه جيب التمام. يقيس الزاوية بين متجهين. زاوية أصغر تعني تشابهاً أكبر.
تطبيقات واقعية
قواعد البيانات المتجهة
Pinecone و Weaviate و Qdrant و pgvector هي قواعد بيانات متخصصة مبنية لتخزين والبحث في التضمينات بكفاءة.
لماذا هذا مهم
فهم التضمينات يساعدك على بناء أنظمة RAG أفضل، وتحسين البحث، وتصحيح تطبيقات الذكاء الاصطناعي. إنه مفهوم أساسي في برنامج "البناء بنماذج اللغة الكبيرة" لدينا.