• 0 رای - 0 میانگین
  • 1
  • 2
  • 3
  • 4
  • 5
ساخت کراولر
#1
سلام
آیا راهی هست مه بشه آدرس سایت هایی رو داد و برنامه بره تو تمام صفحات بگرده و مطالب اون رو حمع آوری کنه و داخل دیتابیس ما ذخیره کنه و تو سایت ما نمایش داده بشه.....

؟؟؟؟؟؟؟؟؟؟؟
با تشکر ممل آمریکایی
  پاسخ
تشکر شده توسط :
#2
راه که زیاده. اما مشکلاتش زیاده.
  پاسخ
تشکر شده توسط :
#3
اگر راه زیاده
میشه چند نمونه بیان کنید.... هر چی تو اسرچ کردم چیز به درد بخوری پیدا نکردم
حالا مشکلاتش از چه نظر زیاده؟
لطفاً راهنمایی کنید؟
با تشکر ممل آمریکایی
  پاسخ
تشکر شده توسط :
#4
یه راه اینه که فید سایت هایی رو که می خواید جمع آوری کنید و مثلا هر چند ساعت چک کنید که فیدها بروز شدن یا نه ؟ بعد اطلاعاتی که میخواید رو از فیدها بگیرید و تو دیتابیستون بریزید .
  پاسخ
تشکر شده توسط :
#5
ممنون دوست عزیز
من نمیخوام از RSS استفاده کنم
تو RSS یه سری مطالب نمیاد مثلاً بعضی از سایت ها ادامه مطلب دارن یا یکسری عکسا باهاشون نمیاد
من می خوام مثل کراولر های موتور جستحجو بره تو تمام صفحات بکرده و مطالب رو پیدا کنه .و بیاره تو دیتابیس ذخیره کنه
البته آدرس سایت ها رو من بهش میخوام بدم....
با تشکر ممل آمریکایی
  پاسخ
تشکر شده توسط :
#6
شما با هر روشی مثل curl یا .... محتوای صحفحه رو در یک متغیر ذخیره کنید
حالا شما باید اول به ساختار محتوا در اون پیج آشنا باشید. مثلا در صفحه x شما محتویات داخل div با ای دی post رو نیاز دارید

کد پی‌اچ‌پی:
<html>
<
body>
<
div id="post" >
...
..
.
</
div>
</
body>
</
html

خوب راهی که من الان به ذهنم رسید تبدیل صفحه به xml هست
حالا به کمک دستورات کلاس DOM در پی اچ پی
میایم محتوای html>body>div#post رو به دست میاریم.

شما تو کتابچه پی اچ پی به دنبال کلاس DOMDocument بگیردید

واسه توسعه کار هم نیاز به هوش مصنوعی یا شبیه سازی هست.
  پاسخ
تشکر شده توسط : cyletech hosseintdk775 ahora
#7
باید طوری باشه که داخل سایت اگه لینک سایت دیگه رو معرفی کردن دنبال اون لینک نره و رد کنه لینک های داخل سایت رو
  پاسخ
تشکر شده توسط : ahora
#8
داشتم سرچ میزدم تو یک وبلاگ چشمم به این خورد
کد پی‌اچ‌پی:
http://netrefuge.net/2011/04/php-spider-crawler/ 
  پاسخ
تشکر شده توسط : Padideh parvane cyletech ahora


پرش به انجمن:


کاربران در حال بازدید این موضوع: 1 مهمان