کی به کیه رباتی برای بررسی بلاگ های فارسی زبان

 آرش کمانگیر که تاکنون در پروژه های مختلفی از جمله بالاترین نقش فعالی داشته و وبلاگ های فارسی و انگلیسی راه اندازی کرده با صداهای جهانی از پروژه جدیدش سخن می گوید: برنامه ای/رباتی برای بررسی وبلاگستان فارسی

در مورد خودت بگو و وبلاگت و پروژه جدیدت. داستان چیه؟ کی شروعش کردی و منظورت چیه وقتی میگی این یک “ربات” ه؟

من به اسم آرش کمانگیر می نویسم. این به این خاطره که کمانگیر یعنی تیرانداز در فارسی و آرش اسم یک قهرمان افسانه ای ایرانیه که یکبار ایران را نجات داد. من یک وبلاگ فارسی دارم و یک وبلاگ انگلیسی

اسم پروژه رو گذاشتم “کی به کیه؟”، که در فارسی معنی اش تقریبا می شه “چه خبر؟”. مدتها بود که به این پروژه فکر می کردم اما کدنویسی رو اواسط آذر (اوایل دسامبر) شروع کردم. این کار رو اول برای ارضای حس کنجکاوی ام شروع کردم اما کم کم زمان که گذشت این پروژه بزرگتر از اونی شد که فکر می کردم. در یک جمله، دارم ربات نرم افزاریی طراحی می کنم که از یک وبلاگ شروع می کنه و ارتباطات وبلاگهای فارسی رو پیدا می کنه. بهش می گم ربات چون این اسمی ه که به این کدها داده شده (در ویکیپدیا ببینید)

تا حالا چه نتایجی بدست آوردی؟

emails_copy.jpgهنوز خیلی مشکلات وجود داره. قسمتی از این مشکلات بدلیل تعداد بسیار زیاد وبلاگهای فارسی هستند که ربات پیدا می کنه. آخرین آمار نشون می داد که “کی به کیه؟” ۱۳۰ هزار سایت اینترنتی رو پیدا کرده که از اینها ۱۶ هزار وبلاگهای فارسیی هستند که دقیقا بررسی شده اند. ربات همینطور می دونه که ۷۵ هزار سایت دیگه وبلاگ فارسی هستند اما هنوز فرصت نکرده این منابع رو بررسی کنه. اینها نتایج فقط چند روز کار ربات هستند. مجبور شدم متوقفش کنم چون حجم اطلاعات بالا رفته بود و کارایی کد پایین اومده بود. از اون زمان تمام وقتم رو روی حل این مشکل گذاشته ام

بعنوان یک نتیجه خیلی ابتدایی، نگاه کردم به سرویس ایمیلی که وبلاگ نویسان ایرانی استفاده می کنند. از ۱۳ هزار ایمیل ی که “کی به کیه؟” از وبلاگهای فارسی جمع آوری کرده، ۷۵% در یاهو هستند و ۱۲% در جیمیل.

همینطور بررسی سرویسهای وبلاگ نویسی ایرانی، مثل  بلاگفا و پرشین بلاگ، به کمک اطلاعات ۳۴۰۰ وبلاگی که “کی به کیه؟” تا بحال پیدا کرده، نشون می ده که بلاگفا سه چهارم میدان رو در اختیار داره

اینها نتایج بسیار ابتدایی هستند و باید ربات برای هفته ها و ماهها کار کنه تا بتونه تصویر واقعی تری از وبلاگستان ترسیم کنه

آیا نتایج شگفت زده ات کرد؟

خیلی. می دونستم که وبلاگستان خیلی پرجمعیت ه، اما همچنان شگفت انگیزه دیدن تعداد کسانی که وبلاگ دارند. الگوها هم خیلی جالبند.

هدف این تحقیق چیه و چه خروجی می خوای تولید کنی؟

یک، می خوام جمعیت وبلاگستان رو تخمین بزنم و الگوهای ارتباطی رو پیدا کنم. در این مرحله فقط صرف وجود یک وبلاگ ملاک ه و نه اینکه وبلاگ ها در چه باره  ای هستند و به چه نرخی فعالیت می کنند. در مرحله دوم، روی تخمین ِ فعالیت کار خواهم کرد. اینکار فهم بهتری از وبلاگستان بهمون می ده و کمک می کنه وبلاگهای مرده رو حذف کنیم. گذشته از همه اینها، هدف اصلی این پروژه آماده کردن اطلاعات برای محققین دیگه است

providers_copy.jpgاین پروژه چه داره برای ارایه به محققین ِ این رشته؟

می دونم که کارهایی انجام شده روی الگوهای ارتباطی در وبلاگستان. کسانی روی خوشه و روی آمار فعالیت وبلاگ ها کار کرده اند. اما “کی به کیه؟”، تا جایی که من خبر دارم، اولین ابزار تحقیق همه جانبه است که چنین اطلاعاتی رو از وبلاگستان استخراج می کنه. بنابراین، در جستجوی افرادی هستم که این اطلاعات رو در کارهاشون استفاده کنند.  البته پیش از در اختیار گذاشتن این اطلاعات باید از حفظ حقوق شخصی وبلاگ نویس ها اطمینان حاصل کرد.

آیا از کار مشابهی خبر داری؟

در ابعاد کوچکتر و با کار مبتنی بر انسان بله. نشنیدم در مورد انجام اتوماتیک این کار. البته من تحقیق کاملی نکردم.

چطور می بینی اثر وبلاگستان رو در جامعه ایران؟

خیلی و باز هم بیشتر. نمی گم همه ایرانی ها وبلاگ می خونن، اما بسیار جالبه دیدن اینکه خطوط قرمز حاکمیت به چه راحتی در وبلاگها قطع می شن. راه درازی هست برای رفتن، اما این پدیده بسیار جالب ه، چون روشی بهمون می ده برای اینکه باهم فکر کنیم و آزادانه در مورد موضوعات  مورد علاقمون بحث کنیم

حرفی برای خواننده های “صداهای جهانی” داری؟

یکی از کارهایی که این روزها می کنم اینه که بانک داده “کی به کیه؟” رو تصادفی باز می کنم و به وبلاگهایی سر می زنم که هرگز ندیده بوده ام. شگفت آوره که چقدر وبلاگ عالی فارسی وجود داره، و اینکه خیلی از اونها توجهی که شایستگی اش رو دارند نمی بینند. وبلاگستان در ابتدا حول چند وبلاگ معروف شکل گرفته بود. این داره کم به کم به طرح گسترده تری تبدیل می شه. من معتقدم کسی که می خواد راجع به وبلاگستان ایرانی بدونه نباید به هیچ وجه خودش رو به وبلاگهای نسل اول محدود کنه. باید عمیق تر نگاه کرد

بحث را آغاز کنید!

ورود نویسنده ورود »

راهنمایی

  • کامنت‌ها توسط ناظر بررسی خواهد شد. لطفا کامنت خود را تنها یک بار ارسال کنید، در غیر این صورت به عنوان اسپم شناخته خواهد شد.
  • لطفا با دیگران با احترام برخورد کنید. کامنت‌های حاوی سخنان نفرت‌آمیز، رکیک، و حمله‌های شخصی تایید نخواهند شد.