Usenet על קצה המזלג.

rnMDK סוקר את קבוצות הדיון USENET ואיך להוריד מהם תכנים.

7:00
  /  
22.06.2005
  
מאמר זה נכתב ע"י MDK.

קצת היסטוריה

בשנת 1979 הגו שני סטודנטים מאוניברסיטת דיוק את מה שאנחנו מכירים היום בשם רשת USENET. הם למעשה חיפשו דרך לשתף מידע עם מספר אוניברסיטאות כך שיוכלו לקיים דיונים בנושאים שונים ללא תלות במקום ובזמן. הם יצרו היררכיה של קבוצות דיון כך שתלמיד המעוניין לדון בנושא עליו קיימת כבר קבוצת דיון, מפרסם באותה קבוצת דיון ידיעה או שאלה ונותן אפשרות למשתמשים אחרים להגיב עליה. מספר המחשבים שמעורבים ברשת גדל באופן אקספוננציאלי: משלשה אתרים (מחשבים) בשנת 1979 צמחה הרשת ל-150 אתרים ב-1981, 400 ב-1982 ו…אופס ב-2005 מדובר כבר במונחים של מיליונים. כמו כל פרויקט שהגיע למימדים כאלו גם רשת ה USENET עברה מספר תהליכים אבולוציוניים, לרוב התפתחה המערכת על ידי שיכלול המבנה ההיררכי והתייעלות הפרוטוקולים בהם נעשה שימוש.

מרשת שנועדה להחלפת רעיונות קיבלנו רשת מידע מסועפת שמכילה בתוכה כל נושא שניתן להעלות על הדעת.

בתחילת דרכה שימשה רשת ה-USENET לשיתוף מידע קולקטיבי. כאשר לאנשים היו בעיות בתחום מסויים, הם היו שמים הודעות ומתייעצים דרך ה-USENET בדומה ל-BBS או לקבוצות הדיון שקיימות כיום. בהקשר זה חשוב לציין את חשיבות DEJANEWS, אתר ותיק שאינדקס את ה-USENET ושימש לו בתקופה היפה שלו כמנגנון חיפוש. אתר זה נבלע על ידי GOOGLE וכיום יש שירות בטא גרוע של גוגל שעדיין מכסה את הקבוצות הטקסט. השמועות הן שבין גוגל ל-DEJANEWS יש את כל תכולת ה-USENET שנכתב בטקסט מאז הוקם השירות.

אז איך בעצם הכול עובד?

כמו כל דבר ברשת האינטרנט גם רשת ה-USENET היא רשת מבוזרת, כלומר אין שרת מרכזי אחד שמחזיק בכל החומר ואין רשות אחת שקובעת מה מותר ומה אסור. העיקרון עליו מושתתת הרשת הינו אגרגציה של מידע – כל שרת החבר ברשת מקבל וחולק את המידע אליו הוא נחשף ובעצם מוסיף אותו במקום המתאים.

הרשת עושה שימוש בפרוטוקול שנקרא Network News Transport Protocol או בקיצור NNTP, ובניגוד לפרוטוקול הישן ששלט ברשת עד אמצע שנות השמונים ה-NNTP מעביר מידע בעזרת תקשורת TCP/IP ומיועד לשני סוגי תקשורת, תקשורת בין שרת לתוכנת הלקוח ותקשורת בין השרתים עצמם. כל שרת ברשת מקושר לשרת אחד לפחות וכך נוצר מארג שלם של שרתים המחליפים ביניהם מידע.

כאשר מחשב ברשת רוצה לפרסם הודעה הוא מקבל, בעזרת פרוטוקול ה-,NNTP ID ייחודי להודעה שלו. הוא שולח את ההודעה לשרת שאליו הוא מחובר, השרת מקבל את ההודעה ומתחיל להפיץ אותה ברשת. השרתים שמקבלים את ההודעה משווים את ה ID של ההודעה לשאר ההודעות שנמצאות בשרת ובמידה וההודעה לא נמצאת הם שומרים אותה ע"פ היררכיה קבועה.

השימוש ברשת אינו מוגבל לפלטפורמה ספציפית, כל מחשב שעליו מותקנת מערכת הפעלה שתומכת ב NNTP מסוגל לקרוא ולפרסם מידע. ניתן למצוא תוכנות לקוח לתחנות עבודה מסוג Linux , Unix , PC , VMS ואפילו Amiga הישן והטוב מבית Commodore.

בכדי להקל על העברת המידע נוצרה פירמידה של שרתים כאשר בראשה עומדים מספר שרתים הנקראים Top Usenet aggregation point. לרוב נמצא שרתים אלו באוניברסיטאות גדולות או בחברות מסחריות שזהו מקור הפרנסה שלהם (כמו חברת Giganews). מאותם שרתים מרכזיים ניתן למשוך את כל קבוצות הדיון שנמצאות ברשת. מאחר ולא כל מי שרוצה להוסיף תוכן לקבוצת דיון מסוימת רוצה ליצור קשר עם שרת מרכזי אזי ישנם שרתי משנה שמקבלים את המידע ושולחים אותו לשרת המרכזי (לדוגמא: השרתים שנמצאים אצל ה-ISP). כך נוצרת תקשורת דו כיוונית בין מספר עצום של שרתים שבעזרת מנגנון ה ID נשארים מעודכנים. חשוב לציין שרשת ה USENET איננה חופשית לחלוטין, כל בעל שרת יכול להחליט איזה קבוצות דיון ישכנו על השרת שלו. כך, אם ISP מסוים לא רוצה תכנים פורנוגראפיים הוא פשוט לא מוריד את הקבוצות שעוסקות בנושא. לרוב לא נמצא קבוצות שמכילות קבצים אצל ISP מאחר וקבוצות אלו הן בנפחים אדירים ולא כל ISP יכול להרשות לעצמו להחזיק מאות Terabytes של מידע. הדרך בה ניתן לברור את התכנים הינה על ידי פירוק השם של הקבוצה, שם הנבנה בצורה היררכית. לדוגמא:
alt.binaries.multimedia.comedy

כאשר קוראים משמאל לימין:

alt – ראש ההיררכיה. במקרה שלנו, היררכיה שמאפשרת לכל אחד ואחד ליצור קבוצת דיון.

Binaries – תוכן הקבוצה יהיה קבצים בינאריים.

Multimedia – סוג הקבצים יהיה מסוג מולטימדיה, כלומר מוזיקה או וידאו.

Comedy – סוג התוכן, במקרה שלנו קומדיות.

כל היררכיה מסמלת סוג מסוים של דיון, וכפי שכבר צוין ההיררכיה שמתחילה ב alt הינה ההיררכיה שבה כל אחד יכול ליצור לעצמו קבוצה. זוהי אגב ההיררכיה היחידה שמאפשרת יצירת קבוצות לא מבוקרת. ישנן היררכיות אחרות כגון:
rnrn· comp – נושאי מחשוב
· misc – שונות
· news – חדשות
· rec – תחביבים
· sci – מדע

rnrn

פרט להיררכית alt כל שאר הקבוצות מנוהלות על ידי גוף מסויים, ומי שבעצם מחליט מהם הכללים שנהוגים בקבוצה הם המייסדים. חברת מיקרוסופט, למשל, מחזיקה כמות גדולה של קבוצות דיון בהיררכיה של Comp ולאחריו Microsoft comp.microsoft.. אפשר למצוא כללי התנהגות בצורת FAQ לכל קבוצה שמכבדת את עצמה (http://www.faqs.org/faqs/hp/hpux-faq). הכללים יכולים לכלול הוראות לגבי תוכן הפרסומים, האם יש להזדהות כאשר מפרסמים הודעה או שניתן להישאר בעילום שם וכו'. הכללים נאכפים ומי שלא עומד בהם זוכה לשצף של קיטונות מהחברים הקבועים ובמקרים קיצוניים אפילו להסרת שמו מרשימת המשתמשים.


רשימה חלקית ע"פ נושאים אפשר למצוא באתרים שונים כגון http://www.harley.com/usenet.


תוכנת הלקוח (Client)

את ההיסטוריה של תוכנות הלקוח אפשר לסכם ב :ABC התוכנה הראשונה פותחה על ידי שני הסטודנטים מאוניברסיטת דיוק אשר הגו את רעיון הרשת, התוכנה הייתה מבוססת UNIX ונקראה A. התוכנה הייתה ראשונית ומוגבלת מאוד מבחינת הפונקציונאליות שלה. עם הזמן התפתחה התוכנה ובשנת 1981 יצאה הגרסה הבאה, גרסה B. הגרסה האחרונה בשרשרת יצאה בשנת 1987 ונקראה C. מאז ועד היום ניתן למצוא מאות תוכנות לקריאת תכנים מרשת ה USENET, חלק מהתוכנות אפילו מגיעות באופן מובנה באפליקציות דואר כמו OUTLOOK ו EUDORA.

על מנת להוריד קבצים יש צורך באפליקציה ייעודית. האפליקציה מורידה את רשימת הקבוצות משרת ברשת ה USNET, והמשתמשים בוחרים את הקבוצה הרצויה ומורידים את רשימת הפרסומים (Articles). לאחר מכן יש לסמן את הפרסומים הרלוונטיים ולהוריד אותם מהשרת למחשב. התוכנה מזהה שמדובר בקבצים בינאריים ובונה לאט לאט כל קובץ בנפרד, כשהיא יודעת לחבר את כל מקבץ הפרסומים לקובץ מאוחד.

בצילום המסך ניתן לראות מצד שמאל את רשימת הקבוצות ומצד ימין את רשימת הקבצים. יש לשים לב שכל הקבצים הועלו לשרת בשלמותם מכיוון שאם חסר ולו Bit אחד לא נוכל לבנות את הקובץ הסופי. מאחר ונושא שלמות הקבצים הוא קריטי לפעילות הכוללת של הקבוצה ישנו מנגנון גיבוי שמופיע בצורת קבצים משלימים. מדובר בקבצים עם סיומת PAR שמוזנים לשרת בנוסף לקבצים שמרכיבים את הקובץ הסופי ובעזרתם ניתן לבנות או להשלים קבצים שלא עלו לשרת. אבל, זהו נושא למאמר נפרד.

rn


rnבתמונה למטה ניתן לראות כיצד נראה פרסום יחיד (article). ניתן לראות את הנתונים הסטנדרטיים שמופקים על ידי שולח ההודעה בהתאם לפרוטוקול ה NNTP ולאחר מכן את גוף ההודעה שנראה כמו גיבוב של אותיות, מספרים וסימנים.



כמובן שניתן לעשות גם את התהליך ההפוך ולפרסם תכנים, לשם כך נדרשת תוכנה שתבצע את תהליך ההמרה מקובץ בינארי להודעות טקסט.

אז מה צריך בכדי להתחיל להוריד תכנים?

אם מדובר בקריאת טכנים טקסטואליים, אפשר לקבל את הקבוצות העיקריות מספק האינטרנט ללא כל תשלום. כמו כן, כפי שהוזכר יכולות תוכנות כמו Outlook Express לשמש כתוכנת הלקוח. אך אם בקבצים חשקה נפשכם, יש צורך בחשבון בחברה שמחזיקה כמה שיותר קבוצות בתחום ושומרת אותם לזמן רב יותר (retention), לרוב מספר שבועות בודדים. השירות צריך לאפשר חיבורים רבים ככל האפשר על כל מנוי. לרוב נראה שמחיר החבילה הוא פונקציה של נפח ההורדות בחודש מול מספר חיבורים בו זמני. ככל שמספר החיבורים רב יותר יש לנו אפשרות למשוך חומר מהר יותר או אפילו להתחבר לחשבון שלנו ממספר מחשבים בו זמנית.

יש צורך להתקין תוכנת לקוח שיודעת לקרוא ובמקרה שלנו גם לחבר את כל החלקים של הקובץ כך שמה שנקבל בסוף יהיה קובץ אחד ולא אוסף של טריליון אותיות וסימנים.

לרוב נזדקק לתוכנת פריסה (Winrar או WinZip) מאחר וכל התכנים מגיעים בפרוסות של MB14 לקבצים שגודלם עד MB700 מ CD או MB49 לקבצים בסדר גודל של DVD כלומר GB4.5.

אחד האינדיקאטורים הטובים לרמת השרות אליו אנחנו מחוברים הינו שלמות הקבצים. שרת 'חלש' יראה כמות גדולה של קבצים לא שלמים וכפי שכבר הוזכר כאשר חסרים קבצים אין לנו יכולת להרכיב את הקובץ הסופי (סרט, 3MP או כל קובץ אחר).

תכנים – או למה זה עדיף על TORRENT/MULE

השאלה שאתם בוודאי שואלים בשלב זה היא במה עדיפה שיטה ארכאית זו על פני טכנולוגיות כגון BIT TORRENT או EMULE למיניהם. היתרון הוא בעיקר בשירותי התשלום למינהם. בשל העובדה שקיימת תשתית מסחרית לשרתים ומכיוון ששרתים אלה מבוזרים ומובססים היטב – על ידי מנוי לאחד מחברות ה-USENET החזקות, ניתן להוריד באופן קבוע ואמין את התכנים השונים. אין תקדים לתביעה כלשהי או הורדה של תכנים מעל רשת זו, והיא מהטכנולוגיות המבוססות והוותיקות שקיימות באינטרנט!

rnהדגש הוא גם על הורדה, כלומר, אין צורך לשתף שום דבר (ולכן גם אין כל סיכון בתביעה כלשהי). התכנים הם עדכניים להפליא, ואיכותיים באופן דרמטי מגירסאת ה-BIT TORRENT. ניתן להשיג הקלטות ברזולוצית HDTV מלאה (במקום גירסא מוקטנת שכווצה ב-DIVX). כמו כן, תכנים שנמצאים בשרת ניתנים להורדה ואין חשש שאם משתמש אחד מתנתק עלול קטע קריטי של הסרט להעלם לנצח…


לסיכום

rnהשמועה אומרת שבתחילת דרכה של הרשת ניתן היה לעבור על כל ההודעות שפורסמו בה בעשרים דקות בלבד, התכנון המקורי לקח בחשבון שבכל יום יפורסמו ארבע הודעות לכל היותר. אולם הרשת התפתחה מעבר לכל הציפיות של מייסדיה, היא כוללת היום עשרות אלפי קבוצות דיון וכמות אין סופית של הודעות עוברות בה מידי יום בנושאים שונים ומשונים. ניתן למצוא בה לא רק הודעות טקסט אלא גם כמות לא מבוטלת של קבצים מסוגים שונים (mp3, mpg, wav, aiff, wma, mpeg, avi, vcd, svcd, divx, jpeg, gif, bmp ועוד רבים אחרים). אז כמו שאומרים בעברית Bon voyage.



7:00
  /  
22.6.2005
  
מאמר זה נכתב ע"י MDK.

1