GitHub - apastorini/chromadb-poc

Word2Vec: Es una técnica muy utilizada para generar embeddings de palabras. Se basa en la idea de que las palabras que aparecen en contextos similares tienen significados similares. Word2Vec puede ser utilizado para tareas como la clasificación de texto, la detección de similitud entre palabras y la generación de lenguaje natural.
GloVe:

Es una variante de Word2Vec que utiliza un objetivo de entrenamiento diferente para generar embeddings. GloVe se ha demostrado que produce embeddings que son más precisos que Word2Vec para algunas tareas. 4. FastText:

Es una extensión de Word2Vec que permite la representación de subpalabras y caracteres. Esto lo hace útil para el procesamiento de lenguaje natural en idiomas con una rica morfología, como el español. 5. ELMo:

Es un modelo de lenguaje bidireccional que genera embeddings contextuales. Esto significa que los embeddings de las palabras dependen del contexto en el que aparecen. ELMo se ha demostrado que es efectivo para tareas como la respuesta a preguntas y la inferencia de relaciones semánticas. 6. BERT:

Es un modelo de lenguaje transformador que genera embeddings contextuales. BERT es similar a ELMo, pero se basa en una arquitectura de red neuronal diferente. BERT se ha demostrado que es muy efectivo para una amplia gama de tareas de procesamiento del lenguaje natural. 7. Sentence-BERT:

Es una extensión de BERT que genera embeddings para oraciones completas. Esto lo hace útil para tareas como la clasificación de oraciones y la detección de similitud entre oraciones. 8. LaMDA:

Es un modelo de lenguaje factual de Google AI que se basa en la arquitectura Meena. LaMDA se ha entrenado en un conjunto de datos masivo de texto y código, lo que le permite generar embeddings que son informativos y relevantes para el contexto. 9. T5:

Es un modelo de lenguaje de Google AI que se basa en la arquitectura Transformer. T5 se ha entrenado en un conjunto de datos masivo de texto y código, lo que le permite generar embeddings que son útiles para una amplia gama de tareas de procesamiento del lenguaje natural. 10. ViLBERT: Es un modelo de lenguaje multimodal que combina información visual y textual. ViLBERT se ha demostrado que es efectivo para tareas como la respuesta a preguntas visuales y la descripción de imágenes. Recursos adicionales:

A guide to word embeddings: https://www.tensorflow.org/tutorials/text/word_embeddings

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
data		data
venv		venv
.DS_Store		.DS_Store
Dockerfile		Dockerfile
chroma_client_docker.py		chroma_client_docker.py
docker-compose.yml		docker-compose.yml
err_local_chroma_http_client.py		err_local_chroma_http_client.py
err_local_main2(server-client)Transformer.py		err_local_main2(server-client)Transformer.py
local_main_PersistentClient.py		local_main_PersistentClient.py
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

apastorini/chromadb-poc

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages