ഓപ്പൺഎഐയുടെ ചാറ്റ്ജിപിടിയുമായി മത്സരിക്കുന്നതിനായി ഗൂഗിൾ ഡീപ്മൈൻഡ് അതിന്റെ പുതിയ എഐ മോഡലായ ജെമിനി അടുത്തിടെ പ്രഖ്യാപിച്ചു. രണ്ട് മോഡലുകളും പുതിയ ഡാറ്റ (ചിത്രങ്ങൾ, വാക്കുകൾ അല്ലെങ്കിൽ മറ്റ് മീഡിയ) സൃഷ്ടിക്കുന്നതിനുള്ള ഇൻപുട്ട് പരിശീലന വിവരങ്ങളുടെ പാറ്റേണുകൾ കണ്ടെത്താൻ പഠിക്കുന്ന “ജനറേറ്റീവ് AI” യുടെ ഉദാഹരണങ്ങളാണെങ്കിലും, ചാറ്റ്ജിപിടി ഒരു വലിയ ഭാഷാ മോഡലാണ് (LLM)ലാർജ് മല്ട്ടിമോഡൽ മോഡല് – ഉൽപ്പാദിപ്പിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്ന വലിയ ഭാഷാ മോഡലുകൾ, വാചകം.
GPT എന്നറിയപ്പെടുന്ന ന്യൂറൽ നെറ്റ്വർക്കിനെ അടിസ്ഥാനമാക്കിയുള്ള സംഭാഷണങ്ങൾക്കായുള്ള ഒരു വെബ് ആപ്പ് ചാറ്റ്ജിപിടി പോലെ തന്നെ (വലിയ അളവിലുള്ള ടെക്സ്റ്റിൽ പരിശീലിപ്പിക്കപ്പെടുന്നു), Google-ന് Bard എന്ന ഒരു സംഭാഷണ വെബ് ആപ്പ് ഉണ്ട്, അത് LaMDA (പരിശീലനം ലഭിച്ചതാണ്) ഡയലോഗ്). എന്നാൽ ജെമിനിയെ അടിസ്ഥാനമാക്കി ഗൂഗിൾ ഇപ്പോൾ അത് അപ്ഗ്രേഡ് ചെയ്യുന്നു.
LaMDA (ലാംഡ)പോലുള്ള മുൻകാല ജനറേറ്റീവ് AI മോഡലുകളിൽ നിന്ന് ജെമിനിയെ വ്യത്യസ്തമാക്കുന്നത് അതൊരു “മൾട്ടി മോഡൽ രൂപസംബന്ധം” ആണ് എന്നതാണ്. ഇൻപുട്ടിന്റെയും ഔട്ട്പുട്ടിന്റെയും ഒന്നിലധികം മോഡുകൾ ഉപയോഗിച്ച് ഇത് നേരിട്ട് പ്രവർത്തിക്കുന്നു എന്നാണ് ഇതിനർത്ഥം: ടെക്സ്റ്റ് ഇൻപുട്ടും ഔട്ട്പുട്ടും പിന്തുണയ്ക്കുന്നു, ഇത് ഇമേജുകൾ, ഓഡിയോ, വീഡിയോ എന്നിവയെ പിന്തുണയ്ക്കുന്നു. അതനുസരിച്ച്, ഒരു പുതിയ ചുരുക്കെഴുത്ത് ഉയർന്നുവരുന്നു: LMM (വലിയ മൾട്ടിമോഡൽരൂപസംബന്ധം), LLM-മായി തെറ്റിദ്ധരിക്കരുത്.
സെപ്റ്റംബറിൽ, ഓപ്പൺഎഐ GPT-4Vision എന്ന ഒരു മോഡൽ പ്രഖ്യാപിച്ചു, അത് ഇമേജുകൾ, ഓഡിയോ, ടെക്സ്റ്റ് എന്നിവയിലും പ്രവർത്തിക്കാൻ കഴിയും. എന്നിരുന്നാലും, ജെമിനി വാഗ്ദാനം ചെയ്യുന്ന രീതിയിൽ ഇത് പൂർണ്ണമായും മൾട്ടിമോഡൽ രൂപസംബന്ധമല്ല.
ഉദാഹരണത്തിന്, GPT-4V ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന ചാറ്റ്ജിപിടി-4, ഓഡിയോ ഇൻപുട്ടുകൾക്കൊപ്പം പ്രവർത്തിക്കാനും സംഭാഷണ ഔട്ട്പുട്ടുകൾ സൃഷ്ടിക്കാനും കഴിയുമെങ്കിലും, Whisper എന്ന മറ്റൊരു ആഴത്തിലുള്ള പഠന മോഡൽ ഉപയോഗിച്ച് ഇൻപുട്ടിലെ ടെക്സ്റ്റിലേക്ക് സംഭാഷണം പരിവർത്തനം ചെയ്തുകൊണ്ടാണ് ഇത് ചെയ്യുന്നതെന്ന് OpenAI സ്ഥിരീകരിച്ചു. ചാറ്റ്ജിപിടി-4 വ്യത്യസ്ത മോഡൽ ഉപയോഗിച്ച് ഔട്ട്പുട്ടിൽ ടെക്സ്റ്റിനെ സംഭാഷണത്തിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു, അതായത് GPT-4V തന്നെ പൂർണ്ണമായും ടെക്സ്റ്റ് ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്നു.
അതുപോലെ, ചാറ്റ്ജിപിടി-4 ന് ഇമേജുകൾ നിർമ്മിക്കാൻ കഴിയും, പക്ഷേ ഇത് Dall-E 2 എന്ന പ്രത്യേക ആഴത്തിലുള്ള പഠന മോഡലിലേക്ക് കൈമാറുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ ജനറേറ്റ് ചെയ്തുകൊണ്ടാണ് ഇത് ചെയ്യുന്നത്, ഇത് ടെക്സ്റ്റ് വിവരണങ്ങളെ ചിത്രങ്ങളാക്കി മാറ്റുന്നു.
നേരെമറിച്ച്, ഗൂഗിൾ ജെമിനി രൂപകൽപ്പന ചെയ്തത് “നേറ്റീവ് മൾട്ടിമോഡൽ” ആയിട്ടാണ്. ഇതിനർത്ഥം, കോർ മോഡൽ നേരിട്ട് ഇൻപുട്ട് തരങ്ങളുടെ (ഓഡിയോ, ഇമേജുകൾ, വീഡിയോ, ടെക്സ്റ്റ്) ഒരു പരിധി കൈകാര്യം ചെയ്യുന്നു, അവയും നേരിട്ട് ഔട്ട്പുട്ട് ചെയ്യാൻ കഴിയും.