تامر المغازي...يكتب

انهيار الديكتاتورية السيساوية

10 نوفمبر, 2022 09:46 مساءً
د.تامر المغازي
د.تامر المغازي

كاتب صحفي وسكرتير عام مساعد حزب غد الثورة

أخبار الغد

في احدث أبحاث الدكتور أمين عبدالله قايد عقلان    مساعد رئيس قسم علوم الحاسوب ، جامعة كاكاتيا ، وارانجال ، تيلانجانا ، الهند.

قام بجمع  وتحليل الآراء في تويتر باستخدام Naive Bayes والانحدار اللوجستي 

مع التقدم التكنولوجي والانفجار الهائل للبيانات ، أصبحت آراء الناس والأفكار المنتشرة ذات قيمة عالية ومهمة في اتخاذ القرارات الاستراتيجية ، مما يدفعنا إلى إيجاد طرق جديدة وغير تقليدية لاكتشاف أفكار الناس وردود أفعالهم. يعد النمو المتزايد للبيانات في وسائل التواصل الاجتماعي وتويتر على وجه الخصوص ثروة يجب استغلالها واستخدامها في العديد من المجالات بما في ذلك القطاعين العام والتجاري. يعرض Twitter محتويات مفيدة والعديد من المعلومات المعرفية الناتجة عن تنوع مستخدمي الموقع ، سواء أكانوا أصدقاء أو أسرة أو باحثين أو صحفيين. إنها أيضًا طريقة جيدة لتزويد المستخدمين بمعلومات متجددة حول الأنشطة التجارية. في هذه الورقة ، قمنا بجمع التعليقات من Twitter بطريقة أكثر ملاءمة ومصداقية. اقترحنا طريقة باستخدام أسلوبين BernoulliNB والانحدار اللوجستي لتصفية المراجعات ثم تصنيفها إلى إيجابية أو سلبية. يتضمن العمل المقترح عددًا من الخطوات للمعالجة المسبقة قبل مصنف النص. أظهرت النتائج أن الطريقة فعالة للغاية حيث تغلبت على المشاكل والمعوقات التي واجهت الدراسات السابقة. حصلنا على دقة 84.75٪ للانحدار اللوجستي (LR) ودقة 82.25 لـ BernoulliNB (BNB).

الكلمات المفتاحية - تحليل المشاعر ، مراجعات تويتر ، جمع البيانات ، Naïve Bayes ، الانحدار اللوجستي.

في هذا البحث قام أمين  بتطوير طريقة في لغة البرمجة R للبحث عن التغريدات والكلمات التي تهمك وتجميعها.

يستخدم هذا البرنامج الواجهة الرسمية لتطبيقات Twitter المسماة API حيث يتيح هذا التطبيق للمستخدمين الوصول إلى التغريدات لغرض التجميع والتحليل. كما تتيح واجهة برمجة التطبيقات (API) للمستخدم البحث عن التغريدات بعدة لغات ، ولكن في هذه الورقة ، اعتدنا البحث عن الكلمات باللغة العربية ، لأن اللغة العربية أكثر شهرة وانتشارًا في جميع أنحاء البلاد العربية.

 اخترت  (عبد الفتاح السيسي) كونه شخصية غير توافقية بين الشعب المصري وطلبت من الصديق عقلان بعمل هذا البحث  ، فقد تقلد  السيسي مناصب رفيعة حتى أصبح مدير المخابرات العسكرية ووزير الدفاع ، وقاد انقلابًا عسكريًا على الرئيس المنتخب محمد مرسي. ، ثم رقي إلى رتبة مشير ، وفاز برئاسة مصر بعد الانتخابات التي أجريت في نهاية مايو 2014 ، وشهدت نسبة الإقبال ضعيفًا ، وخاض الانتخابات الرئاسية 2018. لقد جمع عقلان  25000 تغريدة لتحليلها والحصول على نتائج متقدمة.

استخراج البيانات والمعالجة المسبقة

عادةً ما تتضمن تغريدات Twitter نصوصًا ورموزًا معينة تجعل من الصعب جدًا التلاعب بها وتحليلها. على سبيل المثال ، يستخدم بعض المستخدمين علامات التجزئة (#) أو (URL) وغيرها (http). ومع ذلك ، فإن استخدام الفضاء في اللغة العربية واجب وهذا أيضًا جزء من المشاكل التي يواجهها المطورون والباحثون في تحليل البيانات. في المقابل ، استخدمنا وطبقنا تقنيات معالجة الكلمات لتقليل هذه القيود والقضاء عليها حتى نحصل على المفردات والكلمات جاهزة للتحليل.

مثال

متابعة # خان_وانقلب_وباع 3 يوليو ... 8 سنوات على الانقلاب بمصر .. · hory_zky @ حورية وطن: Input Tweet ذكرى تأبى النسيان

.} 'ذكرى'، 'الانقلاب'، 'بمصر'، 8 سنوات '،' 3 يوليو '{: Output Tweet

القسم الثاني من المعالجة المسبقة هو وضع حد للكلمات المسيئة والمهينة التي لا تزيد من قوة النص ولا ينكسر المعنى في حذفه. فيما يتعلق بالرموز العاطفية ، أوضحنا المعنى النصي لكل من رموز المشاعر التي يمكن مواجهتها في التغريدات.

مصنف الرأي

يهدف البحث إلى تحليل آراء المستخدمين على مواقع التواصل الاجتماعي (تويتر) من أجل تقييم أي تغريدة أو رأي أو تعليق [22]. في بحثنا ، اخترنا التغريدات حول

الرئيس المصري (عبد الفتاح السيسي) من خلال الاستفادة من تقنية التصنيف التي تعد من المهام الأساسية للتنقيب عن البيانات. يساعد هذا البحث الباحثين والمطورين في الوصول إلى تقييم المستخدمين الآخرين من خلال تغريداتهم وردود الفعل على وسائل التواصل الاجتماعي فورًا ثم عملية تقييم وتحليل الآراء باستخدام الخوارزميات المناسبة. لقد جمعنا المراجعات باستخدام واجهة برمجة التطبيقات التي تدعم المطورين في الحصول على تغريدات حديثة أو شائعة نحصل من خلالها على مزيج من المصطلحات الإيجابية والسلبية. يتم جمع التغريدات من Twitter في الفترة من 1 يناير 2022 إلى 31 مايو 2022 (خمسة أشهر) مع 25000 تغريدة محفوظة في قاعدة بيانات تغريدات خاصة.

كما ذكرنا ، في هذه الورقة ، قمنا بتحسين تقنيتين لنهج التصنيف وهما: BernoulliNB والانحدار اللوجستي ، وقمنا بتحسين BernoulliNB والانحدار اللوجستي باستخدام لغة Python حيث حصلنا على نتائج متقدمة بعد أكثر من محاولة ، مقارنة دراستنا مع العمل السابق الذي تم القيام به في في نفس العام وجدنا أن عملنا باستخدام Python قد أحدث نهضة في تحليل البيانات من حيث السرعة والدقة ، الخوارزمية 2 توضح المعالجة المسبقة للتغريدات والتنبؤ بالمشاعر.

الخوارزمية 2:

توقع البدء

مجموع –pos ← 0 إجمالي –neg ← 0

للحالة في do list-tweets.append (status.text) أو list - tweets ← list- tweets + status [text]

نهاية لـ

للتغريدات في القائمة- التغريدات

إرسال ← nb.predict (vectorizer.transform ([tweet]). toarray ()) إذا (تم الإرسال [0] = 1) ثم

المجموع - نقاط البيع ← الإجمالي - نقطة البيع +1

آخر

المجموع - neg ← المجموع - neg +1

إنهاء إذا

نهاية لـ

نهاية

مجموعة البيانات الإجمالية للإيجابية والسلبية الواردة في الشكل 4. باستخدام الأفكار السابقة ، قمنا ببناء تطبيق برمجي لجلب جميع التغريدات ثم تحليلها. تم اختبار التطبيق على سبع مراجعات مختلفة ، حيث حققنا نتائج صحيحة حوالي 98٪ من عينة الاختبار.

هذه النتائج ممتازة. خاصة أننا نتعامل مع وسائل التواصل الاجتماعي حيث يكتب المستخدمون أحيانًا تغريداتهم باستخدام اللغة العربية العامية ، وهو أمر يصعب على الباحث تحليله. في

فيما يلي استخدمنا التطبيق على 25000 تغريدة مخزنة في بنك البيانات ، وكانت النتائج جيدة جدًا وعلى النحو التالي.

77٪ يعارضون حكم السيسي

15٪ مؤيد للسيسي

8٪ محايد

أخبار مصر

عربي ودولي

حقوق وحريات