• 1 رای - 5 میانگین
  • 1
  • 2
  • 3
  • 4
  • 5
بدست آوردن تعداد کلمات فایل pdf و word
#1
Question 
سلام
دوستان من می خوام فایل pdf و word تعداد کلماتشون را مشخص کنم

ممنون می شوم کمک کنید البته فارسی و انگلسی فرقی نکند.

ممنون
  پاسخ
تشکر شده توسط :
#2
با سلام


مورد شما فایل ورد می بایست توسط یک پارسر xml ابتدا پار بشه وسپس کلمات وتمام محتویات درون ان قالب استفاده خواهد بود .
بنده خودم یکپارسر برای ورد نوشته بودم البته موراد نقض ازجمهاین مورد که در xml ورد حرف ی یک کلمه محصوب میشه وجود دارد واز این قبلی مشکلاتزیاد وجود دارد بعد از همه اون ها می توانید به کلمات دسترسی داشته باشید .

بند یکنسخه آزمایش آن را نوشته بودم و البته تا سطح خروجی گرفتن از جداول وغیر کار می کرد اما با این حال مشکلات زیادی داشت .

که البته قالب ارائه نیست چون به صورت یکپروژه تجاری بر روی آن کار کرده بودم

اما برای پارسر ورد ابتدا یکپارسر xml با فایل docx ر پار کرده و سپس شما مقادری پار شده ان را با حلقههایی تو در تو دنبال کرده و خروجی راتولید کنید .

موفق باشید

------------------------------------------------------
اسمان را می بینم با تمام روشنی اش ......
_______________________________________________
  پاسخ
تشکر شده توسط :
#3
دوست عزیز راستش زیاد متوجه صحبت های شما نشدم
لطفا بیشتر توضیح بدهید ؟
  پاسخ
تشکر شده توسط :
#4
پیشنهاد من اینه(خودم انجام ندادم):

اگر فایل word یا pdf تون قفل نشده باشه، می تونید بکمک توابع multibyte پی اچ پی(یا str_word_count)، شمارش کنید.
در اینجا هم توابعی دست نویس برای اینکار هست: http://php.net/manual/en/function.str-word-count.php

و یا همچنین با حذف یکسری از کاراکتر های غیر حرفی و غیر استاندارد، و بعد 2 تا یکی کردن فاصله ها (SPACE ها)، فاصله ها رو شمارش کنید.
وبلاگ: Yousha.Blog.ir


 کد کمتر => خطای کمتر => قابل فهمتر => خوانایی بالاتر => نگهداری بهتر

  پاسخ
تشکر شده توسط :
#5
دوست عزیز ممنون از پاسخی که دادید ... ولی همین امر را امتحان کردم و در مورد فایل هایی که به فارسی هستند به مشکل خوردم و تعداد کلمات در ورد را با 300 تا اختلاف و فایل پی دی اف را تا 3 برابر اختلاف نشان می دهد .
  پاسخ
تشکر شده توسط :


پرش به انجمن:


کاربران در حال بازدید این موضوع: 1 مهمان