אשמח לעזרה עם מימוש של מיון של ספרות עבריות ב GNU sort

שלום לכולם,

אשמח לעזרה עם מימוש של מיון של ספרות עבריות ב GNU sort :

https://debbugs.gnu.org/cgi/bugreport.cgi?bug=40530

מאוד יעזור לפרויקט שלנו… היה מדהים אם זה היה יכול להיכנס לפני הfreeze הקרוב של Debian…

תודה ויישר כח!

לייק 1

היי, הסתדרת?
ידוע לך איך מימשו את זה לשפות אחרות עם כתב שאינו לטיני?
האם זה רק טווחים של יוניקוד או שיש שם עוד דברים לעשות?
איך מתייחסים לניקוד? יש לזה איזשהו משקל?

בהצלחה.

לא. אין לי את המשאבים להסתדר… אני מקווה שזה יעניין מישהו מספיק והוא ירים את הכפפה…

הsort הנוכחי עובד מעולה עם עברית (utf8), אלא שהוא ממיין לפי א"ב ולא לפי ספרות עבריות…
מישהו העלה רעיון בתחילת המיון להחליף ט"ו/ט"ז לערכים המקבילים הרגילים, למיין לפי א"ב, ואז להחליף בחזרה…
אבל אולי הdecorate מציע פתרון יותר אלגנטי…

אין צורך להתייחס לניקוד שהרי מדובר בספרות (ואם ניקוד קיים - להתעלם). מה שצריכים לקחת בחשבון זה גרשיים - ״ , והתחליף המקובל שלהם - " . זאת אומרת צריכים לדעת למיין טו, ט״ו, ט"ו…

בהצלחה, לצערי גם לי אין את המשאבים :slight_smile:

איך sort צריך להבדל בין מחרוזת עברית שצריך למיין לפי א’ ב’ לבין מספרים שהם גם א’ ב’ אבל לחשב שונה אם יש ט’ ו’?

לsort יש הרבה אופציות, כגון:

" -g, human-numeric -h, month -M, numeric -n, random -R, version -V"

אפשר להוסיף עוד אחת: “-hebrew”

לייק 1

תעביר את הדברים שאתה צריך למיין דרך ספריית גימטריה לסורט.
למשל: (קישור הראשון זה לקטגורייה גימטריה בגיטהבאב, לא לאתר הראשי כמו שזה נראה)