ഗൂഗിളിന്റെ ജെമിനി: പുതിയ AI മോഡൽ ചാറ്റ്‌ജിപിടി-യെക്കാൾ മികച്ചതാണോ?

ഗൂഗിളിന്റെ ജെമിനി: പുതിയ AI മോഡൽ ചാറ്റ്‌ജിപിടി-യെക്കാൾ മികച്ചതാണോ?

ഓപ്പൺഎഐയുടെ ചാറ്റ്ജിപിടിയുമായി മത്സരിക്കുന്നതിനായി ഗൂഗിൾ ഡീപ്‌മൈൻഡ് അതിന്റെ പുതിയ എഐ മോഡലായ ജെമിനി അടുത്തിടെ പ്രഖ്യാപിച്ചു. രണ്ട് മോഡലുകളും പുതിയ ഡാറ്റ (ചിത്രങ്ങൾ, വാക്കുകൾ അല്ലെങ്കിൽ മറ്റ് മീഡിയ) സൃഷ്ടിക്കുന്നതിനുള്ള ഇൻപുട്ട് പരിശീലന വിവരങ്ങളുടെ പാറ്റേണുകൾ കണ്ടെത്താൻ പഠിക്കുന്ന “ജനറേറ്റീവ് AI” യുടെ ഉദാഹരണങ്ങളാണെങ്കിലും, ചാറ്റ്‌ജിപിടി ഒരു വലിയ ഭാഷാ മോഡലാണ് (LLM)ലാർജ് മല്ട്ടിമോഡൽ മോഡല്‍ – ഉൽപ്പാദിപ്പിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന വലിയ ഭാഷാ മോഡലുകൾ, വാചകം.

GPT എന്നറിയപ്പെടുന്ന ന്യൂറൽ നെറ്റ്‌വർക്കിനെ അടിസ്ഥാനമാക്കിയുള്ള സംഭാഷണങ്ങൾക്കായുള്ള ഒരു വെബ് ആപ്പ് ചാറ്റ്‌ജിപിടി പോലെ തന്നെ (വലിയ അളവിലുള്ള ടെക്‌സ്‌റ്റിൽ പരിശീലിപ്പിക്കപ്പെടുന്നു), Google-ന് Bard എന്ന ഒരു സംഭാഷണ വെബ് ആപ്പ് ഉണ്ട്, അത് LaMDA (പരിശീലനം ലഭിച്ചതാണ്) ഡയലോഗ്). എന്നാൽ ജെമിനിയെ അടിസ്ഥാനമാക്കി ഗൂഗിൾ ഇപ്പോൾ അത് അപ്ഗ്രേഡ് ചെയ്യുന്നു.

LaMDA (ലാംഡ)പോലുള്ള മുൻകാല ജനറേറ്റീവ് AI മോഡലുകളിൽ നിന്ന് ജെമിനിയെ വ്യത്യസ്തമാക്കുന്നത് അതൊരു “മൾട്ടി മോഡൽ രൂപസംബന്ധം” ആണ് എന്നതാണ്. ഇൻപുട്ടിന്റെയും ഔട്ട്പുട്ടിന്റെയും ഒന്നിലധികം മോഡുകൾ ഉപയോഗിച്ച് ഇത് നേരിട്ട് പ്രവർത്തിക്കുന്നു എന്നാണ് ഇതിനർത്ഥം: ടെക്സ്റ്റ് ഇൻപുട്ടും ഔട്ട്പുട്ടും പിന്തുണയ്ക്കുന്നു, ഇത് ഇമേജുകൾ, ഓഡിയോ, വീഡിയോ എന്നിവയെ പിന്തുണയ്ക്കുന്നു. അതനുസരിച്ച്, ഒരു പുതിയ ചുരുക്കെഴുത്ത് ഉയർന്നുവരുന്നു: LMM (വലിയ മൾട്ടിമോഡൽരൂപസംബന്ധം), LLM-മായി തെറ്റിദ്ധരിക്കരുത്.

സെപ്റ്റംബറിൽ, ഓപ്പൺഎഐ GPT-4Vision എന്ന ഒരു മോഡൽ പ്രഖ്യാപിച്ചു, അത് ഇമേജുകൾ, ഓഡിയോ, ടെക്സ്റ്റ് എന്നിവയിലും പ്രവർത്തിക്കാൻ കഴിയും. എന്നിരുന്നാലും, ജെമിനി വാഗ്ദാനം ചെയ്യുന്ന രീതിയിൽ ഇത് പൂർണ്ണമായും മൾട്ടിമോഡൽ രൂപസംബന്ധമല്ല.

ഉദാഹരണത്തിന്, GPT-4V ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന ചാറ്റ്‌ജിപിടി-4, ഓഡിയോ ഇൻപുട്ടുകൾക്കൊപ്പം പ്രവർത്തിക്കാനും സംഭാഷണ ഔട്ട്പുട്ടുകൾ സൃഷ്ടിക്കാനും കഴിയുമെങ്കിലും, Whisper എന്ന മറ്റൊരു ആഴത്തിലുള്ള പഠന മോഡൽ ഉപയോഗിച്ച് ഇൻപുട്ടിലെ ടെക്‌സ്‌റ്റിലേക്ക് സംഭാഷണം പരിവർത്തനം ചെയ്‌തുകൊണ്ടാണ് ഇത് ചെയ്യുന്നതെന്ന് OpenAI സ്ഥിരീകരിച്ചു. ചാറ്റ്‌ജിപിടി-4 വ്യത്യസ്‌ത മോഡൽ ഉപയോഗിച്ച് ഔട്ട്‌പുട്ടിൽ ടെക്‌സ്‌റ്റിനെ സംഭാഷണത്തിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു, അതായത് GPT-4V തന്നെ പൂർണ്ണമായും ടെക്‌സ്‌റ്റ് ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നു.

അതുപോലെ, ചാറ്റ്‌ജിപിടി-4 ന് ഇമേജുകൾ നിർമ്മിക്കാൻ കഴിയും, പക്ഷേ ഇത് Dall-E 2 എന്ന പ്രത്യേക ആഴത്തിലുള്ള പഠന മോഡലിലേക്ക് കൈമാറുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ ജനറേറ്റ് ചെയ്തുകൊണ്ടാണ് ഇത് ചെയ്യുന്നത്, ഇത് ടെക്സ്റ്റ് വിവരണങ്ങളെ ചിത്രങ്ങളാക്കി മാറ്റുന്നു.

നേരെമറിച്ച്, ഗൂഗിൾ ജെമിനി രൂപകൽപ്പന ചെയ്തത് “നേറ്റീവ് മൾട്ടിമോഡൽ” ആയിട്ടാണ്. ഇതിനർത്ഥം, കോർ മോഡൽ നേരിട്ട് ഇൻപുട്ട് തരങ്ങളുടെ (ഓഡിയോ, ഇമേജുകൾ, വീഡിയോ, ടെക്സ്റ്റ്) ഒരു പരിധി കൈകാര്യം ചെയ്യുന്നു, അവയും നേരിട്ട് ഔട്ട്പുട്ട് ചെയ്യാൻ കഴിയും.