Mehdi Allahyari's banner
Mehdi Allahyari's profile picture

Mehdi Allahyari

@MehdiAllahyari12,434 subscribers

Entrepreneur | Building AI products to serve at scale. https://t.co/5Rp10wtYhW, https://t.co/hAIZWTfSfL, https://t.co/QhHeAZi9Yz, English account: @MehdiYarix

Shorts

کمپانی مایکروسافت یک لایبرری داده به اسم MarkItDown. که انواع فایلهای Office مثل Word و PowerPoint و Excel و فایلهای دیگه مثل pdf و عکس را به فرمت markdown تبدیل میکنه. فوق العاده سریع هم هست. یک Web app ساده که حدود ۱۰۰ خط هست. فایل را آپلود میکنید و markdown اش را بهتون برمیگردونه. Gist link: Library link:

کمپانی مایکروسافت یک لایبرری داده به اسم MarkItDown. که انواع فایلهای Office مثل Word و PowerPoint و Excel و فایلهای دیگه مثل pdf و عکس را به فرمت markdown تبدیل میکنه. فوق العاده سریع هم هست. یک Web app ساده که حدود ۱۰۰ خط هست. فایل را آپلود میکنید و markdown اش را بهتون برمیگردونه. Gist link: Library link:

57,099 görüntüleme

واقعا باورنکردنیه! مدل Kokoro یک مدل پیشرفته‌ی تبدیل متن به گفتار (TTS) با تنها ۸۲ میلیون پارامتره که میتونید با استفاده از transformers .js کامل در مرورگرتون اجرا کنید! 🤯 این مدل تحت لیسانس Apache 2.0 ارائه شده و فعلا از ۱۰ صدای منحصربه‌ فرد انگلیسی پشتیبانی می‌کنه—اون هم بدون نیاز به اتصال به اینترنت! و نکته شگفت‌انگیز اینه که Kokoro فقط با کمتر از ۱۰۰ ساعت داده صوتی آموزش دیده ولی عملکردش واقعا فوق‌العاده‌ است! میتونید حتا صداها را هم با هم ترکیب کنید و صدای جدید درست کنید. سرعتش هم خیلی بالاست روی CPU, و روی GPU انت که توی ۵ ثانیه حدود ۳ دقیقه صدا (speech) تولید میشه. برای تولید محتوا که بینظیره! صدا را گوش بدید تو ویدیو. توی این لینک HuggingFace هم همه صداها هست با لهجه های مختلف. با این چند خط کد میتونید نصب کنید و شروع کنید به استفاده: pip install --upgrade "ai-gradio[kokoro]" import gradio as gr import ai_gradio gr.load(name='kokoro:kokoro-v0_19', src=ai_gradio.registry,).launch()

واقعا باورنکردنیه! مدل Kokoro یک مدل پیشرفته‌ی تبدیل متن به گفتار (TTS) با تنها ۸۲ میلیون پارامتره که میتونید با استفاده از transformers .js کامل در مرورگرتون اجرا کنید! 🤯 این مدل تحت لیسانس Apache 2.0 ارائه شده و فعلا از ۱۰ صدای منحصربه‌ فرد انگلیسی پشتیبانی می‌کنه—اون هم بدون نیاز به اتصال به اینترنت! و نکته شگفت‌انگیز اینه که Kokoro فقط با کمتر از ۱۰۰ ساعت داده صوتی آموزش دیده ولی عملکردش واقعا فوق‌العاده‌ است! میتونید حتا صداها را هم با هم ترکیب کنید و صدای جدید درست کنید. سرعتش هم خیلی بالاست روی CPU, و روی GPU انت که توی ۵ ثانیه حدود ۳ دقیقه صدا (speech) تولید میشه. برای تولید محتوا که بینظیره! صدا را گوش بدید تو ویدیو. توی این لینک HuggingFace هم همه صداها هست با لهجه های مختلف. با این چند خط کد میتونید نصب کنید و شروع کنید به استفاده: pip install --upgrade "ai-gradio[kokoro]" import gradio as gr import ai_gradio gr.load(name='kokoro:kokoro-v0_19', src=ai_gradio.registry,).launch()

45,171 görüntüleme

Videos

MehdiAllahyari's profile picture

الان داشتن رزومه شخصی سازی شده برای هر شغل خیلی ضروریه! اگر می‌خواهید رزومه‌ای داشته باشید که هم ساختار مهندسی داشته باشد و هم چشم‌نواز باشد، حتما به ریپوزیتوری RenderCV سر بزنید. این ابزار سرعت و دقت کارتان را چند پله بالاتر می‌برد. راحت میتونید رزومه‌تان را مثل یک حرفه‌ای مدیریت کنید و از شر دردسرهای ورد (Word) و به‌هم‌ریختگی‌های چیدمان خلاص بشید. ایده اصلی اینه: محتوا رو از ظاهر جدا کن. دیگه لازم نیست نگران باشی که اگه یه خط به سوابق کاریت اضافه کنی، کل فونت‌ها و فاصله‌های رزومه‌ات به هم می‌ریزه. تو فقط متنت رو توی فایل YAML می‌نویسی، RenderCV خودش بقیه‌ی کارها (چیدمان، فاصله‌گذاری، فونت و...) رو انجام میده. چه ویژگی هایی داره؟ - مدیریت ورژن‌کنترل: می‌توانید رزومه‌تان را در گیت‌هاب قرار دهید و تمام تغییرات آن را در طول زمان ردیابی کنید. - ظاهر بی‌نقص: دیگر نیازی نیست ساعت‌ها وقت صرف تنظیم فاصله‌ها و فونت‌ها کنید؛ همه‌چیز طبق استانداردهای حرفه‌ای چیده می‌شود. - خروجی‌های متنوع: علاوه بر نسخه PDF، به شما فایل‌های Markdown و LaTeX هم می‌دهد که برای پلتفرم‌های مختلف عالی است. - تمرکز روی محتوا: شما فقط روی نوشتن تجربیاتتان تمرکز می‌کنید و اجازه می‌دهید ابزار، کارِ طراحی را برایتان انجام دهد. Github:

Mehdi Allahyari

54,111 görüntüleme • 5 ay önce

MehdiAllahyari's profile picture

خیلی راحت میتونید مدلهای جدید deepseek را دانلود و امتحان کنید. و خودتون ببینید که چقدر به کارتون میاد. توی ویدیوی زیر نشون دادم. من ۳ تا از مدلهای deepseek از جمله دوتا ورژن ۱.۵ میلیارد پارامتری و مدل ۷میلیاردی را امتحان کردم. چند تا سوال که بیشتر coding بودن پرسیدم و همگی خیلی بد جواب دادند. البته مدل ۷b خیلی بهتر بود ولی کد بازهم غلط بود. بعد همین سوالها را از Qwen ۱.۵ میلیاردی پرسیدم و عالی جواب داد. البته که چندتا سوال خیلی ارزیابی کاملی نیست ولی بازهم انتظارم خیلی بیشتر از اینها بود. میخام بگم که درسته که این مدلهای deepseek خیلی سروصدا کرده ولی مدلهای کوچک که ازش distill شدن خیلی خوب کار نمیکنن بخصوص تو coding. اون مدلهای بزرگترش البته خیلی خوبند. نتیجه اخلاقی: خیلی به hype توجه نکنید. هر مدلی هم برای همه جور کاری خوب نیست. این مدلهای reasoning بدرد سوالهای ریاضی و اینجور مباحث میخورن. مثلا برای کدینگ خیلی مدلهای کوچکتر ولی به مراتب بهتر هست. پس خودتون را وابسته به یک مدل خاص نکنید.

Mehdi Allahyari

63,786 görüntüleme • 1 yıl önce

MehdiAllahyari's profile picture

این مدل جدید خیلی کوچک و سبک که گوگل معرفی کرد به اسم FunctionGemma را دست کم نگیرید. یه مدل فوق‌العاده سبک (فقط ۲۷۰ میلیون پارامتر!) دارید که انقدر کوچیکه که روی گوشی‌های معمولی هم راحت اجرا میشه، اما تخصصش فقط یک چیزه: تبدیل حرف‌های ما به دستورات برنامه‌نویسی (Function Calling). میتونید به صورت کاملا رایگان fine tune ش کنید برای کارهای مختلف. اما این مدل به چه دردی می‌خوره؟ بیاین چندتا مورد جذاب رو بررسی کنیم: ۱. دستیار شخصی کاملاً آفلاین و امن: تا حالا شده بخواین با فرمان صوتی چراغ خونه رو خاموش کنید یا یه تایمر بذارید، ولی چون اینترنت قطع بوده کار نکرده؟ با FunctionGemma، اپلیکیشن‌ها می‌تونن بدون نیاز به سرور و کاملاً روی خود گوشی، حرف شما رو بفهمن و دقیقاً دکمه یا تابع مربوطه رو اجرا کنن. امنیتش هم عالیه چون هیچ داده‌ای از گوشی خارج نمیشه. ۲. بازی‌های تعاملی نسل جدید: تصور کنید توی یه بازی نقش‌آفرینی (RPG)، به جای اینکه فقط از بین گزینه‌ها انتخاب کنید، به کاراکتر بگید: «برو از توی صندوقچه اون معجون قرمز رو بردار و بده به سرباز کناری.» این مدل می‌تونه این جمله رو به کدهای بازی ترجمه کنه و اکشن‌ها رو بلافاصله انجام بده. ۳. اتوماسیون کارهای سیستم: توسعه‌دهنده‌ها می‌تونن ابزارهایی بسازن که کارهای تکراری سیستم‌عامل رو برامون انجام بده. مثلاً بگید: «فایل‌های PDF توی پوشه دانلود رو که حجمشون بالای ۱۰ مگه زیپ کن و بفرست به ایمیل علی.» مدل دقیقاً توابع مربوط به مدیریت فایل و ایمیل رو فراخوانی می‌کنه. ۴. اینترنت اشیاء (IoT) هوشمندتر: توی گجت‌های هوشمند که رم و پردازنده خیلی محدودی دارن، FunctionGemma مثل یک جادوگر عمل می‌کنه. چون فقط به ۵۵۰ مگابایت رم نیاز داره، می‌تونه مستقیم روی سخت‌افزار لوازم خانگی یا ابزارهای صنعتی نصب بشه تا دستورات پیچیده انسانی رو به زبان ماشین ترجمه کنه. برای fine tune کردنش این بلاگ کامل توضیح میده به همراه کد. Blog:

Mehdi Allahyari

26,880 görüntüleme • 5 ay önce